๐Ÿฌ ML & Data/๐ŸŽซ ๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 19. ์•™์ƒ๋ธ”์˜ ์ •์˜์™€ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ!

    ๋ณธ์˜ ์•„๋‹ˆ๊ฒŒ ์˜ค๋žœ๋งŒ์— ๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธ€์„ ์˜ฌ๋ฆฌ๊ฒŒ ๋˜์—ˆ๋„ค์š”! ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ์ €๋ฒˆ์— ์˜ˆ๊ณ ํ–ˆ๋‹ค์‹ถ์ด ์•™์ƒ๋ธ” ํ•™์Šต์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋ ค๊ณ  ํ•˜๋Š”๋ฐ์š”, ์—ฌ๋Ÿฌ๋ถ„์€ ์•™์ƒ๋ธ”ํ•˜๋ฉด ๋ฌด์—‡์ด ๋– ์˜ค๋ฅด์‹œ๋‚˜์š”? ์†”์งํžˆ ์ €๋Š” ์Œ์•…์ด ๊ฐ€์žฅ ๋จผ์ € ๋– ์˜ฌ๋ž๋Š”๋ฐ์š”, ์‚ฌ์‹ค ๋น„์Šทํ•œ ๊ฐœ๋…์ด๊ธฐ๋Š” ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•ฉ์ณ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ์•™์ƒ๋ธ” ํ•™์Šต์˜ ์ •์˜์™€ ์ข…๋ฅ˜ ์ค‘ ํ•˜๋‚˜์ธ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค! A. ์•™์ƒ๋ธ” ํ•™์Šต ์•™์ƒ๋ธ” ํ•™์Šต(ensemble learning)์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ•˜๋‚˜์˜ ๋ฉ”ํƒ€ ๋ถ„๋ฅ˜๊ธฐ๋กœ ์—ฐ๊ฒฐํ•ด์„œ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ์ด๋Œ์–ด๋‚ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์•™์ƒ๋ธ” ํ•™์Šต์„ ์œ„ํ•œ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋‹จ ๋จผ์ €, ์•™์ƒ๋ธ”์˜ ์ž‘๋™ ์›๋ฆฌ์™€ ์™œ ๋” ์„ฑ๋Šฅ์ด ์ข‹์€์ง€์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋จผ..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 18. ROC ๊ณก์„ ๊ณผ ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ๊ท ํ˜• ๋งž์ถ”๊ธฐ!

    A. ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ 1. ์˜ค์ฐจ ํ–‰๋ ฌ ์˜ค์ฐจํ–‰๋ ฌ(confusion matrix)์€ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์„ ํ–‰๋ ฌ๋กœ ํŽผ์ณ๋‘” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์ง„์งœ ์–‘์„ฑ(True Positive, TP), ์ง„์งœ ์Œ์„ฑ(True Negative, TV), ๊ฐ€์งœ ์–‘์„ฑ(False Positive, FP), ๊ฐ€์งœ ์Œ์„ฑ(False Negative, FN)์˜ ๊ฐœ์ˆ˜๋ฅผ ์ ์€ ์ •๋ฐฉ ํ–‰๋ ฌ์ด์ฃ . ์ด ํ–‰๋ ฌ์„ ๋งŒ๋“ค ๋•Œ ๋ฌผ๋ก  ์ง์ ‘ ์„ธ์–ด์„œ ๊ณ„์‚ฐํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ ํ•จ์ˆ˜ confusion_matrix ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. from sklearn.metrics import confusion_matrix pipe_svc.fit(X_train, y_train) y_pred = pipe_svc.predict(X_test) confma..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 17. ํ•™์Šต๊ณผ ๊ฒ€์ฆ ๊ณก์„ , ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋ฆฌ๋“œ ์„œ์น˜

    ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ๋‘ ๊ฐ€์ง€ ๊ณก์„ ์„ ์ด์šฉํ•ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋””๋ฒ„๊น…ํ•˜์—ฌ ๋ณด๋‹ค ๋‚˜์€ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ• ํ•˜๋‚˜์™€, ๊ทธ๋ฆฌ๋“œ ์„œ์น˜๋ฅผ ์ด์šฉํ•ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๋ฐฉ๋ฒ• ๋‘ ๊ฐ€์ง€๋ฅผ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ง€๋‚œ ์„ธ์…˜๊ณผ ์–ด๋Š์ •๋„ ์ด์–ด์ง€๋Š” ์ฃผ์ œ์ด๋‹ˆ, 16์„ ๋ณด๊ณ  ์˜ค์…”๋„ ์ข‹์Šต๋‹ˆ๋‹ค! A. ํ•™์Šต ๊ณก์„ ๊ณผ ๊ฒ€์ฆ ๊ณก์„ ์„ ์‚ฌ์šฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋””๋ฒ„๊น… 1. ํ•™์Šต ๊ณก์„ ์œผ๋กœ ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ ๋ฌธ์ œ ๋ถ„์„ ํ•™์Šต ๊ณก์„ , ์ฆ‰ ๊ทธ๋ž˜ํ”„๋ฅผ ์ด์šฉํ•˜๋ฉด ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ์ •ํ™•๋„์™€ ๊ฒ€์ฆ ์ •ํ™•๋„๋ฅผ ๋ชจ๋ธ์˜ ๋†’์€ ๋ถ„์‚ฐ์— ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š”์ง€, ํŽธํ–ฅ์— ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ์‰ฝ๊ฒŒ ํ™•์ธํ•˜๊ณ  ๊ณ ์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ชจ์œผ๋Š” ๊ฒƒ์€ ์‚ฌ์‹ค ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๊ฐ€ ๊ฝค ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๊ผญ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ชจ์•„์•ผํ•˜๋Š”์ง€๋ฅผ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์ฃ . ์™ผ์ชฝ ์œ„ ๊ทธ๋ž˜ํ”„๋Š” ํŽธํ–ฅ์ด ๋†’์€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํ›ˆ๋ จ๊ณผ ๊ต์ฐจ๊ฒ€์ฆ์˜ ์ •ํ™•..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 16. ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๋ฌถ๊ณ , ๊ต์ฐจ ๊ฒ€์ฆ์œผ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜์ž!

    ์ด์ „ ์„ธ์…˜๋“ค์—์„œ ํ…Œ์ŠคํŠธ ์„ธํŠธ์ฒ˜๋Ÿผ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•˜๊ณ  ์••์ถ•ํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์„ธํŠธ์—์„œ ์‚ฌ์šฉํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌ์‚ฌ์šฉํ•ด์•ผํ•œ๋‹ค๊ณ  ์ด์•ผ๊ธฐํ–ˆ์—ˆ๋Š”๋ฐ์š”, ์กฐ๊ธˆ ๋” ์‰ฌ์šด ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•ด ์ด๋ฒˆ ์„ธ์…˜์—์„œ ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ Pipeline ํด๋ž˜์Šค๋ฅผ ๋ฐฐ์›Œ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๋„๋ฆฌ ์“ฐ์ด๊ณ  ์žˆ๋Š” k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ๋„ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. A. ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•œ ํšจ์œจ์ ์ธ ์›Œํฌํ”Œ๋กœ ๋งŒ๋“ค๊ธฐ 1. ์œ„์Šค์ฝ˜์‹  ์œ ๋ฐฉ์•” ๋ฐ์ดํ„ฐ์…‹ ์œ„์Šค์ฝ˜์‹  ๋ฐ์ดํ„ฐ์…‹์€ ์•…์„ฑ๊ณผ ์–‘์„ฑ์ธ ์ข…์–‘ ์ƒ˜ํ”Œ 569๊ฐœ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์—์„œ ๋‘ ์—ด์€ ์ƒ˜ํ”Œ์˜ ID์™€ ์ง„๋‹จ๊ฒฐ๊ณผ๊ฐ€ ๋“ค์–ด์žˆ๊ณ , 3~32๋ฒˆ์งธ๊นŒ์ง€์˜ ์—ด์—๋Š” ์„ธํฌ ํ•ต์˜ ์ด๋ฏธ์ง€์—์„œ ๊ณ„์‚ฐ๋œ 30๊ฐœ ์‹ค์ˆ˜ ๊ฐ’ ํŠน์„ฑ์ด ๋“ค์–ด์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋‹จ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›์•„์˜ค๋„๋ก ํ• ๊นŒ์š”? ์ด ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ๋‚ด์šฉ์€ ๋งํฌ์—์„œ..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 15. ์ปค๋„ PCA๋ฅผ ์ด์šฉํ•œ ๋น„์„ ํ˜• ๋งคํ•‘

    C. ์ปค๋„ PCA๋ฅผ ์‚ฌ์šฉํ•œ ๋น„์„ ํ˜• ๋งคํ•‘์—ฌํƒœ๊นŒ์ง€ ๋งŽ์€ ๋จธ์‹  ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ ํ˜•์ ์œผ๋กœ ๊ตฌ๋ถ„์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฐ€์ •์„ ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค-์•„๋‹ฌ๋ฆฐ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, SVM-์€ ์„ ํ˜•์ ์œผ๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ๋ถ„๋ฆฌ๋˜์ง€ ์•Š๋Š” ์ด์œ ๋ฅผ ์žก์Œ๋•Œ๋ฌธ์ด๋ผ๊ณ  ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.์‹ค์ „์—์„œ๋Š” ๋” ์ž์ฃผ ๋น„์„ ํ˜• ๋ฌธ์ œ๋“ค์„ ๋งž๋‹ฅ๋œจ๋ฆฝ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ์— ํ•ญ์ƒ PCA๋‚˜ LDA์™€ ๊ฐ™์€ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ด ์ตœ์„ ์ด๋ผ๊ณ ๋Š” ๋งํ•  ์ˆ˜ ์—†๊ฒ ์ฃ . ์ด์ œ๋ถ€ํ„ฐ ์•Œ์•„๋ณผ ๊ฒƒ์€ PCA์˜ ์ปค๋„ํ™” ๋ฒ„์ „์ธ KPCA์ž…๋‹ˆ๋‹ค. 1. ์ปค๋„ ํ•จ์ˆ˜์™€ ์ปค๋„ ํŠธ๋ฆญ์•ž์„  ์„ธ์…˜์—์„œ ์ปค๋„ SVM์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•œ ๊ฒƒ์„ ๋– ์˜ฌ๋ ค๋ณด๋ฉด, ๋น„์„ ํ˜• ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํˆฌ์˜ํ•ด ํ’€์—ˆ์Šต๋‹ˆ๋‹ค. k ๊ณ ์ฐจ์› ๋ถ€๋ถ„ ๊ณต๊ฐ„์— ์žˆ๋Š” ์ƒ˜ํ”Œ์„ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ๋น„์„ ํ˜• ๋งคํ•‘ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ•จ์ˆ˜๋ฅผ d์ฐจ์› ๋ณด๋‹ค..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 14. LDA๋ฅผ ํ†ตํ•œ ์ง€๋„ํ•™์Šต๋ฐฉ์‹ ๋ฐ์ดํ„ฐ ์••์ถ•

    ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„(Linear Discriminant Analysis)์€ ๊ทœ์ œ๊ฐ€ ์—†๋Š” ๋ชจ๋ธ์—์„œ ์˜ค๋ฒ„ํ”ผํŒ… ์ •๋„๋ฅผ ์ค„์ด๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์ •์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ํŠน์„ฑ์ถ”์ถœ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. LDA์˜ ๊ฐœ๋…์€ PCA์™€ ์ƒ๋‹นํžˆ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. PCA๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„์‚ฐ์ด ์ตœ๋Œ€์ธ ์„ฑ๋ถ„์ถ•์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ๋ผ๋ฉด LDA๋Š” ํด๋ž˜์Šค๋ฅผ ์ตœ์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ ๋ถ€๋ถ„ ๊ณต๊ฐ„์„ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 1. ์ฃผ์„ฑ๋ถ„ ๋ถ„์„ vs ์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„ PCA์™€ LDA ๋ชจ๋‘ ๋ฐ์ดํ„ฐ์…‹์˜ ์ฐจ์› ๊ฐœ์ˆ˜๋ฅผ ์ค„์ด๋Š” ์„ ํ˜• ๋ณ€ํ™˜ ๊ธฐ๋ฒ•์ด์ง€๋งŒ PCA๋Š” ๋น„์ง€๋„, LDA๋Š” ์ง€๋„ํ•™์Šต์ด๋ผ๋Š” ์ ์—์„œ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์—ฌ๋Ÿฌ๋ถ„์€ LDA๊ฐ€ ํด๋ž˜์Šค ๊ตฌ๋ถ„์„ ์œ„ํ•ด ํŠน์„ฑ ๋ถ€๋ถ„ ๊ณต๊ฐ„์„ ์ฐพ๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋ถ„๋ฅ˜์— ๋›ฐ์–ด๋‚˜๋‹ค๊ณ  ์ƒ๊ฐํ•˜์‹ค ์ˆ˜ ์žˆ๋Š”๋ฐ์š”, ์‚ฌ์‹ค์€ ๊ทธ๋ ‡์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๋งˆ๋ฅดํ‹ฐ๋„ค์Šค๋Š” PCA๋ฅผ ํ†ตํ•œ ์ „..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 13. ๋น„์ง€๋„ ์ฐจ์›์ถ•์†Œ! PCA!

    ์ด๋ฒˆ ์„ธ์…˜์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „์—, ์ €๋Š” ๋„ํ†ต ์ด ์ฑ…์œผ๋กœ ์ดํ•ด๊ฐ€ ์•ˆ๋˜์„œ ๋”ฐ๋กœ ๊ฐ•์˜๋ฅผ ๋“ค์–ด์„œ PCA์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์žก์•„์™”์œผ๋‹ˆ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋จผ์ € ์„ค๋ช…์„ ๋“œ๋ฆฌ๊ณ  ๋“ค์–ด๊ฐ€๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ถ€๋”” ์ด ์งง์€ ์„ค๋ช…์ด ์—ฌ๋Ÿฌ๋ถ„์ด ์ดํ•ดํ•˜์‹œ๋Š”๋ฐ ๋„์›€์ด ๋˜๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค:) PCA๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋Š” ์ตœ๋Œ€ํ•œ ๋ณด์กดํ•˜๋ฉด์„œ ์ฐจ์›์„ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋•Œ, ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์ด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ•œ์œผ๋กœ ์œ ์ง€ํ•˜๋Š” ์ €์ฐจ์› ๋ฒกํ„ฐ์— ์‚ฌ์˜์„ ์‹œํ‚ค๋Š” ๋ฐฉ์‹์ด์ฃ . ์˜ˆ๋ฅผ ๋“ค์–ด, 2์ฐจ์›์—์„œ 1์ฐจ์›์œผ๋กœ ์ฐจ์›์„ ์ถ•์†Œ์‹œํ‚จ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ด…์‹œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ผ๋‹จ ํ‰๊ท ์„ 0์œผ๋กœ ๋งž์ถ˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๊ณ , ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ๋กœ ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ PCA๋ฅผ ์‹คํ–‰ํ•˜์ฃ . ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ์šฐ๋ฆฌ๋Š” ๋˜ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 12. ์ˆœ์ฐจ ํŠน์„ฑ ์„ ํƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ ํŠน์„ฑ ์ค‘์š”๋„ ์‚ฌ์šฉ

    ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ์ˆœ์ฐจ ํŠน์„ฑ ์„ ํƒ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์—์„œ ํŠน์„ฑ ์ค‘์š”๋„๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ฐ€๋ณผ๊นŒ์š”? 1. ์ˆœ์ฐจ ํŠน์„ฑ ์„ ํƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ชจ๋ธ ๋ณต์žก๋„๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์„ Session 11์—์„œ ์†Œ๊ฐœํ–ˆ์—ˆ๋Š”๋ฐ์š”, ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ํŠน์„ฑ ์„ ํƒ์„ ํ†ตํ•œ ์ฐจ์› ์ถ•์†Œ(dimensionality reduction)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทœ์ œ๊ฐ€ ์—†๋Š” ๋ชจ๋ธ์—์„œ ์œ ์šฉํ•˜์ฃ . ์ฐจ์› ์ถ•์†Œ์—๋Š” ์ฃผ์š” ์นดํ…Œ๊ณ ๋ฆฌ์ธ ํŠน์„ฑ ์„ ํƒ(feature selection)๊ณผ ํŠน์„ฑ ์ถ”์ถœ(feature extraction)์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํŠน์„ฑ ์„ ํƒ์€ ํŠน์„ฑ ์ค‘์—์„œ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๊ณ , ์ถ”์ถœ์€ ํŠน์„ฑ์—์„œ ์–ป์€ ์ •๋ณด๋“ค๋กœ ์ƒˆ ํŠน์„ฑ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠน์„ฑ ์„ ํƒ์— ์žˆ์–ด์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋ฌธ์ œ์— ๊ฐ€์žฅ ๊ด€๋ จ์ด ๋†’์€ ํŠน์„ฑ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ์ž๋™์„ ํƒํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ํŠน์„ฑ ์„ ํƒ ์•Œ๊ณ ๋ฆฌ..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 11. ๋ฐ์ดํ„ฐ์…‹ ๋‚˜๋ˆ„๊ธฐ์™€ ํŠน์„ฑ ์Šค์ผ€์ผ๊ณผ ์„ ํƒ

    ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ๋ง๋กœ๋งŒ ๋“ฃ๋˜ ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋กœ ๋ฐ์ดํ„ฐ ์…‹์„ ๋ถ„ํ• ํ•˜๋Š” ์ž‘์—…์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ, ๊ทธ๋ฆฌ๊ณ  ํŠน์„ฑ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. 1. ๋ฐ์ดํ„ฐ์…‹ ๋‚˜๋ˆ„๊ธฐ ์ด๋ฒˆ์—๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์ธ Wine ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ถ“๊ฝƒ ๋ฐ์ดํ„ฐ์—์„œ ๋ฒ—์–ด๋‚˜์‹  ๊ฑธ ์ถ•ํ•˜๋“œ๋ ค์š”! wine ๋ฐ์ดํ„ฐ๋Š” UCI ๋จธ์‹ ๋Ÿฌ๋‹ ์ €์žฅ์†Œ ์—์„œ ๋‹ค์šด๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŒ๋‹ค์Šค๋ฅผ ์ด์šฉํ•ด ๋ฐ”๋กœ ์ฝ์–ด๋“œ๋ฆฌ๋Š” ์ฝ”๋“œ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. df_wine = pd.read_csv('https://archive.ics.uci.edu/' 'ml/machine-learning-databases/wine/wine.data', header=None) # UCI ๋จธ์‹  ๋Ÿฌ๋‹ ์ €์žฅ์†Œ์—์„œ Wine ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ค์šด๋กœ๋“œํ•  ์ˆ˜ ์—†์„ ๋•Œ # df_wine =..

    [๋ผ์ดํŠธ ๋จธ์‹ ๋Ÿฌ๋‹] Session 10. ๋ˆ„๋ฝ ๋ฐ์ดํ„ฐ์™€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ๋‹ค๋ฃจ๊ธฐ

    ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ์ค‘์—์„œ ๋ˆ„๋ฝ ๋ฐ์ดํ„ฐ์™€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค! 1. ๋ˆ„๋ฝ๋œ ๋ฐ์ดํ„ฐ ๋‹ค๋ฃจ๊ธฐ ์‹ค์ œ ๋ชจ๋ธ์—์„œ๋Š” ์—ฌ๋Ÿฌ ์ด์œ ๋กœ ๊ฐ’์ด ๋ˆ„๋ฝ๋œ ์ƒ˜ํ”Œ์ด ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ํ—ˆ๋‹คํ•ฉ๋‹ˆ๋‹ค. ๋ณดํ†ต ๋ˆ„๋ฝ๋œ ๊ฐ’์€ ๋ฐ์ดํ„ฐ ํ…Œ์ด๋ธ”์— ๋นˆ ๊ณต๊ฐ„์ด๋‚˜ ์˜ˆ์•ฝ๋œ ๋ฌธ์ž์—ด(NULL, NaN)์œผ๋กœ ์ฑ„์›Œ์ง‘๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ์ด์ œ ์ƒ˜ํ”Œ์„ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ๋‹ค๋ฅธ ์ƒ˜ํ”Œ์ด๋‚˜ ํŠน์„ฑ์—์„œ ๋ˆ„๋ฝ๋œ ๊ฐ’์„ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ฒซ๋ฒˆ์งธ ๊ณผ์ •์€ ๋‹น์—ฐํžˆ ๋ˆ„๋ฝ๋œ ๊ฐ’์„ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ์ด๊ฒ ์ฃ . ์ผ๋‹จ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์–ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. read_csvํ•จ์ˆ˜๋Š” csvํฌ๋งท ๋ฐ์ดํ„ฐ๋ฅผ ํŒ๋‹ค์Šค์˜ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์œผ๋กœ ์ฝ์–ด์˜ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ ์˜ˆ์ œ์—์„œ๋Š” ๋ˆ„๋ฝ ๋ฐ์ดํ„ฐ๋Š” NaN์œผ๋กœ ํ‘œ์‹œ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์•„๋ž˜ ์ฝ”๋“œ์— ์“ฐ์ธ StringIO ๋Š” csv_data์— ์ €์žฅ๋œ ๋ฌธ..