PCA
[라이트 머신러닝] Session 15. 커널 PCA를 이용한 비선형 매핑
C. 커널 PCA를 사용한 비선형 매핑여태까지 많은 머신 러닝 알고리즘은 입력 데이터가 선형적으로 구분이 가능하다는 가정을 합니다. 다른 알고리즘들-아달린, 로지스틱 회귀, SVM-은 선형적으로 완벽하게 분리되지 않는 이유를 잡음때문이라고 이야기합니다.실전에서는 더 자주 비선형 문제들을 맞닥뜨립니다. 이 경우에 항상 PCA나 LDA와 같은 차원 축소 기법이 최선이라고는 말할 수 없겠죠. 이제부터 알아볼 것은 PCA의 커널화 버전인 KPCA입니다. 1. 커널 함수와 커널 트릭앞선 세션에서 커널 SVM에 대해 이야기한 것을 떠올려보면, 비선형 문제를 풀기 위해 고차원 공간으로 데이터를 투영해 풀었습니다. k 고차원 부분 공간에 있는 샘플을 변환하기 위해 비선형 매핑 함수를 정의합니다. 이 함수를 d차원 보다..
[라이트 머신러닝] Session 14. LDA를 통한 지도학습방식 데이터 압축
선형 판별 분석(Linear Discriminant Analysis)은 규제가 없는 모델에서 오버피팅 정도를 줄이고 계산 효율정을 높이기 위해 사용되는 특성추출 기법입니다. LDA의 개념은 PCA와 상당히 유사합니다. PCA가 데이터셋의 분산이 최대인 성분축을 찾는 것이 목표라면 LDA는 클래스를 최적으로 구분할 수 있는 특성 부분 공간을 찾는 것입니다. 1. 주성분 분석 vs 선형 판별 분석 PCA와 LDA 모두 데이터셋의 차원 개수를 줄이는 선형 변환 기법이지만 PCA는 비지도, LDA는 지도학습이라는 점에서 다릅니다. 여기서 여러분은 LDA가 클래스 구분을 위해 특성 부분 공간을 찾는 것이기 때문에 더 분류에 뛰어나다고 생각하실 수 있는데요, 사실은 그렇지는 않습니다. 마르티네스는 PCA를 통한 전..
[라이트 머신러닝] Session 13. 비지도 차원축소! PCA!
이번 세션에 들어가기 전에, 저는 도통 이 책으로 이해가 안되서 따로 강의를 들어서 PCA에 대한 개념을 잡아왔으니 간단하게 먼저 설명을 드리고 들어가도록 하겠습니다. 부디 이 짧은 설명이 여러분이 이해하시는데 도움이 되길 바랍니다:) PCA는 입력 데이터의 구조는 최대한 보존하면서 차원을 감소시키는 기법입니다. 이때, 데이터의 분산이 데이터의 구조라고 할 수 있습니다. 이 데이터의 분산을 최대한으로 유지하는 저차원 벡터에 사영을 시키는 방식이죠. 예를 들어, 2차원에서 1차원으로 차원을 축소시킨다고 생각해봅시다. 우리는 일단 평균을 0으로 맞춘 데이터가 필요하고, 이 데이터를 공분산 행렬로 만들어줍니다. 그리고 이 공분산 행렬의 고유벡터를 기준으로 PCA를 실행하죠. 이렇게 되면 우리는 또 공분산 행렬..