โป ๊ฐ์ ํ์ ์์ฑํ๊ณ ์์ต๋๋ค! ์๋ ๊ธ ๋ณด๋ค๋ ๋งํฌ๋ฅผ ํ์ธํ์๋ ๊ฒ์ ์ถ์ฒ๋๋ฆฝ๋๋ค.
1. ๋จธ์ ๋ฌ๋์ ์ถํ
์ฌ๋ฌ๋ถ์ ๋จธ์ ๋ฌ๋์ด๋ผ๋ ๋จ์ด๋ฅผ ์ฒ์ ๋ค์ ๋ ์ด๋ค ์๊ฐ์ด ๋์ จ๋์? ์ ๋ ์ฒ์์ ๋จธ์ ๋ฌ๋๊ณผ ์ธ๊ณต์ง๋ฅ์ด ๊ฐ์ ๋จ์ด๋ผ๊ณ ์๊ฐํ์ต๋๋ค. ๋ฌผ๋ก ์์ ํ๋ฆฐ ๋ง์ ์๋์ง๋ง, ๋จธ์ ๋ฌ๋์๋ ์ธ๊ณต์ง๋ฅ์ด ํฌํจ๋์ง ์์ผ๋ ๋ง๋ ๋ง๋ ์๋๋ผ๊ณ ํ ์ ์์ฃ . 20์ธ๊ธฐ ํ๋ฐ, ์๊ธฐ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ๊ตฌํ๋๋ฉด์ ๊ทธ์ ๊ด๋ จ๋ ์ธ๊ณต์ง๋ฅ์ ํ์ ๋ถ์ผ๋ก ๋จธ์ ๋ฌ๋์ด ๋ํ๋ฌ์ต๋๋ค.
๋จธ์ ๋ฌ๋์ ํ๊ตญ์ด ๋ป ๊ทธ๋๋ก ๊ธฐ๊ณํ์ต์ ๋๋ค. ์๋ ์๋ ์์๋ ๋ชปํ ์ผ์ด์์ง๋ง, ์ด์ ๋ ๊ธฐ๊ณ๊ฐ ๋ฐฐ์ฐ๊ณ ๊ณต๋ถํ ์ ์๊ฒ ๋ ๊ฒ์ด์ฃ . ํ์ต์ด๋ผ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ง ๋์ ์ฐ๋ฆฌ๋ ์คํธ๋ฉ์ผ์ ํจ์จ์ ์ผ๋ก ๊ฑธ๋ฌ๋ด๊ณ , ๋ฐ๋ฌ๋ ์์ฑ์ธ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์๋ ์์ผ๋ฉฐ ๋๋ํ ๊ธฐ๊ณ๋ค๊ณผ ๊ฒ์์ ์ฆ๊ธฐ๋ ๊ฒ๋ ๊ฐ๋ฅํด์ก์ต๋๋ค. ๋ํ ๋ชจ๋๊ฐ ์ ์๊ณ ์๋ ์น ๊ฒ์์์ง์ ๋ฌผ๋ก ์ด๊ณ ์์จ์ฃผํ ์๋์ฐจ ์ญ์ ์์ฉํ๊ฐ ์ฝ์์ ์์ต๋๋ค.
2. ๋จธ์ ๋ฌ๋์ ์ข ๋ฅ
2-1. ์ง๋ํ์ต
๋จธ์ ๋ฌ๋์๋ ์ข ๋ฅ๊ฐ ์์ต๋๋ค. ์ ํํ๊ฒ ๋งํ๋ฉด ๊ธฐ๊ณ๊ฐ ํ์ต์ ํ๋ ์๋ก ๋ค๋ฅธ ๋ฐฉ์๋ค์ด ์กด์ฌํ๋ ๊ฒ์ด์ฃ . ์ฒซ ๋ฒ์งธ๋ ์ง๋ ํ์ต(supervised learning)์ ๋๋ค.
์ง๋ ํ์ต์ ๋ผ๋ฒจํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์์ผ ์ฒ์ ๋ณด๋ ๋ฏธ๋ ๋ฐ์ดํฐ์ ๋ํด ์์ธกํ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์๋ฉด, ๋จธ์ ๋ฌ๋ ๊ธฐ์ด์์ ์์ฃผ ๋ง์ด ๋ณด๊ฒ๋ mnist๋ผ๋ ๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค. 0๋ถํฐ 9๊น์ง์ ์ซ์๋ฅผ ์๊ธ์จ๋ก ์ด ์ด๋ฏธ์ง mnist ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด, ๊ฐ ์ด๋ฏธ์ง์ ์ด๋ค ์ซ์๊ฐ ์ฐ์ฌ์๋์ง '๋ผ๋ฒจ'์ ๋ถ์ฌ ํ๊ธฐํฉ๋๋ค. ์ซ์๊ฐ 0์ด๋ผ๋ฉด 0, 1์ด๋ผ๋ฉด 1, ์ด๋ฐ ์์ผ๋ก์. ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ์ธ๊ณต์ง๋ฅ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ตํฉ๋๋ค. ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ ๊ทธ๊ฒ ์ด๋ค ๋ฒํธ์ธ์ง์ ๋ํ ์์ธก์ด ๋ผ๋ฒจ์ ํตํด์ ์ ๋ต๊ณผ ๋น๊ตํด๋ณผ ์ ์๊ฒ๋๊ณ , ๊ทธ๋ ๊ฒ ํ์ต์ ์งํํด์ ์ฌ๋ฐ๋ฅธ ์ถ๋ ฅ์ ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ '๋ผ๋ฒจ'์ด ์ฌ๋์ด ์ง์ ์ฃผ๋ ํผ๋๋ฐฑ์ด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค์.
์ง๋ํ์ต ์ค์์๋ ๋ผ๋ฒจ์ด ์๋ ์ง๋ ํ์ต์๋ถ๋ฅ๋ผ๊ณ ํ๊ณ , ์ฐ์์ ์ธ ๊ฐ์ ์ถ๋ ฅํ๋ ๊ฒ์ ํ๊ท๋ผ๊ณ ํฉ๋๋ค. ๋ถ๋ฅ๋ ์์ ์์ด ์ํ์ด ์ํ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ ์์ ์ ๋๋ค. ์คํธ๋ฉ์ผ์ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ์ ๊ฒฝ์ฐ์๋ ์คํธ๋ฉ์ผ์ธ์ง ์๋์ง๋ฅผ ๋ฐ์ง๋ ๋ ๊ฐ์ง ๊ทธ๋ฃน์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ์ด์ง ๋ถ๋ฅ(binary classification)์ด๋ผ๊ณ ๋งํ๊ณ , mnist ๋ฐ์ดํฐ์ฒ๋ผ ๋ง์ ๊ทธ๋ฃน์ ๊ฐ์ง ๊ฒฝ์ฐ์๋ ๋ค์ค ๋ถ๋ฅ(multiclass classification)์ด๋ผ๊ณ ๋งํฉ๋๋ค.
์ ๊ทธ๋ฆผ์ ์ด๋ค ๋ฐ์ดํฐ๋ฅผ 2์ฐจ์ ํ๋ฉด์ ํ์ํด๋ ์ขํํ๋ฉด์ ๋๋ค. ์ ํ์๋ ๊ฒ์ฒ๋ผ ๋ถ์์์ ๊ณ ์์ด, ์ด๋ก์์ ๊ฐ์์ง ๋ฐ์ดํฐ๋ค์ด์ฃ . ์ด๋ ๊ฒ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ธฐ๊ณ, ์ฆ ์ปดํจํฐ๋ ์ด๋ค ๊ฒ์ด ๊ณ ์์ด์ด๊ณ ๊ฐ์์ง์ธ์ง ๋ถ๋ฅํ๋ ๋ฒ์ ํ์ตํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๋ฐ์ํ๋ ๊ฒ์ด ๋ฐ๋ก ๊ตต์ ์ค์ ์ผ๋ก ํํ๋ ๊ท์น, ๊ฒฐ์ ๊ฒฝ๊ณ(decision boundary)์ ๋๋ค. ์ด ๊ฒฝ๊ณ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๊ฒ ๋๋ ๊ฒ์ ๋๋ค.
ํ๊ท(regression)๋ ๋ถ๋ฅ์๋ ๋ฌ๋ฆฌ ์ฐ์์ ์ธ ์ถ๋ ฅ ๊ฐ์ ์์ธกํ๋ ๋ถ์์ ๋๋ค. ํ๊ท์๋ ๋ช ๊ฐ์ง ํ์์๊ฑด์ด ์๋๋ฐ, ์ ๋ ฅ(input), ์ถ๋ ฅ(outcome), ํ๊ฒ(target)์ด ์ฃผ์ด์ก์ ๋ ์ถ๋ ฅ๊ฐ์ ์์ธกํ๋ ๋ ๋ณ์์ ๊ด๊ณ๋ฅผ ์ฐพ์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด, ํ์๋ค์ ์๊ฐ ๋๋น ์ฑ์ ์ ์์ธกํ๋ ค๋ฉด ํ์ต์๊ฐ๊ณผ ์ฑ์ ์ด ์ ๋ ฅ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค. ํ์ต์๊ฐ๊ณผ ์ฑ์ ์ ๊ด๊ณ๋ฅผ ์ฐพ๊ณ , ํ์ตํด์ ์๊ฐ์ด ์ฃผ์ด์ง๋ฉด ์ํ ์ ์๋ฅผ ์์ธกํ์ฃ .
์ ๊ทธ๋ํ๋ ์ ํ ํ๊ท(linear regression)๋ฅผ ๋ํ๋ ๋๋ค. ์ ๋ ฅ๊ณผ ํ๊น์ด ์ฃผ์ด์ง๋ฉด ๋ฐ์ดํฐ์ ์ง์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ์ฅ ์ข์ ์ง์ ์ ๊ทธ์ ์ ์์ต๋๋ค. ์ด ์ง์ ์ ๊ธฐ์ธ๊ธฐ์ ์ ํธ์ ์ด์ฉํด์ ์๋ก์ด ์ ๋ ฅ์ ์์ธก์ ์ถ๋ ฅํ๋ ๊ฒ์ด์ฃ .
2-2. ๋น์ง๋ ํ์ต
๋น์ง๋ ํ์ต(unsupervised learning)์ ๋ผ๋ฒจํ ๋์ง ์๊ฑฐ๋ ๊ตฌ์กฐ๋ฅผ ์ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃน๋๋ค. ์ฃผ๋ก ์ด๋ง ๋ฌด์ํ ์์ ๋ฐ์ดํฐ์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ธฐ ์ํด ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ํ์ํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๋น์ง๋ ํ์ต์ ์ง๋ ํ์ต๊ณผ ๋ฌ๋ฆฌ ์ฒ์ ํ์ต์ ์ฌ์ฉ๋๋ Training ๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค. ์ปค๋ค๋ ๋ฐ์ดํฐ๋ฅผ ํด์ํ ํ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ฃ์ผ๋ฉด ์ถ๋ ฅ์ด ๋์ค๋ ์์์ ๋๋ค. ๋น์ง๋ ํ์ต์ ๋ ๋ถ์ผ๋ ๊ตฐ์ง(clustering)๊ณผ ์ฐจ์ ์ถ์(dimensionality reduction)์ ๋๋ค.
๊ตฐ์ง(clustering)์ ๊ทธ์ ์์ฌ์๋ ์ ๋ณด๋ค์ ์๋ฏธ์๋ ์๋ธ๊ทธ๋ฃน์ด๋ ํด๋ฌ์คํฐ๋ก ์กฐ์งํ๋ ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฒ์ ๋๋ค. ๊ฐ ๊ทธ๋ฃน๋ค์ ์ด๋ค ๊ณตํต์ ๋ค์ ๊ณต์ ํ๊ณ , ๋ค๋ฅธ ๊ทธ๋ฃน๋ค๊ณผ๋ ๋น์ทํ์ง ์๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฌ์ค ๊ตฐ์ง์ ์ง๋ํ์ต์ ๋ถ๋ฅ์ ์๋นํ ๋ฎ์์์ต๋๋ค. ๊ทธ๋์ ๊ตฐ์ง์ ๋น์ง๋ ๋ถ๋ฅ๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ์ฃ . ๊ฐ๋จํ ์๋ฅผ ๋ค๋ฉด, ๋ง๊ตฌ์ก์ด๋ก ์์ฌ์๋ ์์ฝํ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ๋ ๊ฐ๊ฐ์ ์ฝํ์ด ์ด๋ ์ฆ์์ ์ฌ์ฉํ๋์ง๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ทธ๋ฃน์ ํ์ฑํ ์๋ ์๊ณ , ์ฑ๋ถ์ ๋ฐ๋ผ์๋ ๊ทธ๋ฃน์ ์ง์ ์ ์์ต๋๋ค. ์ด ์ ๋ณด๋ค์ ๋ฐํ์ผ๋ก ์๋น์๋ค์๊ฒ ๋ณด๋ค ์๋ง์ ์์ฝํ์ ์ถ์ฒํ ์ ์๊ฒ ์ฃ .
์ฐจ์ ์ถ์(dimensionality reduction)์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์ ๋ฐ์ดํฐ๋ก ์์ถ์ํค๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ฐจ์ ์ถ์๋ฅผ ํ๋ ์ด์ ๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ณ์ฐ ์ฑ๋ฅ๊ณผ ์ ์ฅ๊ณต๊ฐ ๋๋ฌธ์ ๋๋ค. ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ก ์ธํด ์๋๊ฐ ๋๋ ค์ง๊ฑฐ๋ ์ ์ฅ๊ณต๊ฐ์ด ๋ชจ์๋ ๊ฒฝ์ฐ๋ ์์ฃผ ํํ๋ค๊ณ ํฉ๋๋ค. ๋น์ง๋ ์ฐจ์ ์ถ์๋ ์ก์ ๋ฐ์ดํฐ ์ ๊ฑฐ๋ฅผ ์ํด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ด์ง๋ง, ์ด ๋ฐ์ดํฐ๋ฅผ ์๋ผ๋ด๋ ๊ฒ์ด ์์ธก์ฑ๋ฅ์ ๊ฐ์์ํฌ ์ ์๋ค๋ ์ ์ญ์ ๊ณ ๋ คํด์ผํฉ๋๋ค. ์ฐจ์ ์ถ์๋ ์๋ฏธ์๋ ์ ๋ณด๋ค์ ์ ์งํ๋ฉด์ ๋ ์์ ์ฐจ์์ ๊ณต๊ฐ์ผ๋ก ์์ถํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
์ฐจ์ ์ถ์๋ ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ๋๋ฐ์๋ ์ ์ฉํฉ๋๋ค. ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ 1์ฐจ์, 2์ฐจ์ ๋ฑ์ ๊ณต๊ฐ์ผ๋ก ํฌ์ํด์ ์ฐ์ ๋๋ ํ์คํ ๊ทธ๋จ์ผ๋ก ์๊ฐํํ ์ ์์ต๋๋ค. ์ ๊ทธ๋ฆผ์ ๋น์ ํ ์ฐจ์ ์ถ์๋ฅผ ํตํด ๊ณ ์ฐจ์ ๋ฐ์ดํฐ (a)๋ฅผ 2D ๋ถ๋ถ๊ณต๊ฐ (b)๋ก ์์ถํ๋ ์์์ ๋๋ค.
2-3. ๊ฐํ ํ์ต
๊ฐํ ํ์ต์ ๋จธ์ ๋ฌ๋์ ๋ค๋ฅธ ์ข ๋ฅ์ ๋๋ค. ๊ฐํํ์ต์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์์คํ (agent)์ ์ฑ๋ฅ์ ํฅ์ํ๋ ๊ฒ์ด ๋ชฉ์ ์ด์ฃ . ๊ฐํํ์ต์ ์ฃผ์ ํค์๋๋ ๋ณด์์ ๋๋ค. ๊ฐํํ์ต์ ํผ๋๋ฐฑ์ ์ง๋ํ์ต๊ณผ๋ ๋ค๋ฅด๊ฒ ์ ๋ต์ด๋ ๊ฐ์ด ์๋๋๋ค. ์์คํ ์ด ํ๊ฒฝ๊ณผ ์ํธ์์ฉ์ ํตํด์ ๋ณด์์ด ์ต๋ํ๋๋ ํ๋์ ํ์ตํ๋ ๊ฒ์ด์ฃ . ์ด๋ ํผ๋๋ฐฑ์ด ๋ฐ๋ก ๋ณด์ํจ์๋ฅผ ํตํด ํ๋์ด ์ผ๋ง๋ ์ข์์ง๋ฅผ ์ธก์ ํ ๊ฐ์ด ๋ฉ๋๋ค.
๊ฐํํ์ต์๋ ์ฌ๋ฌ๊ฐ์ง ํ์ ๋ถ์ผ๊ฐ ์์ต๋๋ค. ๊ฐ์ฅ ์ ํฉํ ์์๋ ์ฒด์ค์ ๋๋ค. ์ฒด์ค๊ฒ์์ ํ ๋, ๋ณด์์ ๊ฒ์์ ์น๋ฆฌ๊ฐ ๋ฉ๋๋ค. ์์คํ ์ด ์ํธ์์ฉํด์ผํ ํ๊ฒฝ์ ์ฒด์ค๋ง์ด ์์ง์ด๋ ์ฒด์คํ์ ๋ณํ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๊ธ์ ์ ์ธ ์ด๋ฒคํธ๋ ์๋ ๋ง์ ์ก๋ ๊ฒ์ด๊ณ , ๋ถ์ ์ ์ธ ์ด๋ฒคํธ๋ ๋ด ๋ง์ด ์ก์๋จนํ๋ ๊ฒ์ด ๋๊ฒ ์ฃ . ๊ฐํํ์ต์ ์ด ๊ณผ์ ์ ๊ฑฐ์น๋ฉด์ ๋ณด์์ ์ต๋ํํ๋ ๋จ๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
์ ๊ฐ ๊ณต๋ถํ๊ณ ์๋ <๋จธ์ ๋ฌ๋ ๊ต๊ณผ์ with ํ์ด์ฌ, ์ฌ์ดํท๋ฐ, ํ ์ํ๋ก> ์์๋ ๊ฐํํ์ต์ ๋ฐ๋ก ์ฑํฐ๋ฅผ ๋์ด ๋ค๋ฃจ๊ณ ์์ง ์์ต๋๋ค. ์ดํ์ ์ ๊ฐ ๊ฐํํ์ต์ ๋ํด ๊ณต๋ถํ๊ฒ ๋๋ฉด [๋ผ์ดํธ ๋จธ์ ๋ฌ๋]์ด ์๋ ๋ค๋ฅธ ์นดํ ๊ณ ๋ฆฌ์์ ์ด์ผ๊ธฐํ๋๋ก ํ๊ฒ ์ต๋๋ค.
์ค๋ ๋ค๋ฃฐ ์ด์ผ๊ธฐ๋ ์ฌ๊ธฐ๊น์ง์ ๋๋ค. ์ด๋ ค์๋ณด์ด๋ ๊ทธ๋ฆผ๋ค๊ณผ ์ฉ์ด๋ค์ด ๋ฑ์ฅํ๋๋ฐ, ๊ธฐ์ตํ์ ์ผํ ์ ์ ์ง๋ํ์ต๊ณผ ๋น์ง๋ํ์ต, ๊ฐํํ์ต์ ์ด๋ก ์ ์ธ ์ฐจ์ด์ ๊น์ง์ ๋๋ค. ์ ๊ฐ ๋ค์๋ ์์๊ฐ ์ ์ ํ๋์ง, ๋์์ ๋์ จ์์ง ๊ถ๊ธํฉ๋๋ค. ๋ค์ ํฌ์คํธ์์๋ ๋จธ์ ๋ฌ๋์ ๊ธฐ๋ณธ ์ฉ์ด์ ํ๊ธฐ๋ฒ, ๋จธ์ ๋ฌ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์์, ๋จธ์ ๋ฌ๋์ ์ํ ํจํค์ง๋ฅผ ์๊ฐํด๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค. ์๊ณ ํ์ จ์ด์!