모델 평가
[라이트 머신러닝] Session 18. ROC 곡선과 불균형 데이터 균형 맞추기!
A. 여러가지 성능 평가 지표 1. 오차 행렬 오차행렬(confusion matrix)은 학습 알고리즘의 성능을 행렬로 펼쳐둔 것입니다. 아래 그림과 같이 진짜 양성(True Positive, TP), 진짜 음성(True Negative, TV), 가짜 양성(False Positive, FP), 가짜 음성(False Negative, FN)의 개수를 적은 정방 행렬이죠. 이 행렬을 만들 때 물론 직접 세어서 계산할 수도 있지만 사이킷런의 함수 confusion_matrix 를 사용할 수도 있습니다. from sklearn.metrics import confusion_matrix pipe_svc.fit(X_train, y_train) y_pred = pipe_svc.predict(X_test) confma..
[라이트 머신러닝] Session 16. 파이프라인으로 묶고, 교차 검증으로 모델을 평가하자!
이전 세션들에서 테스트 세트처럼 새로운 데이터의 스케일을 조정하고 압축하기 위해 훈련 세트에서 사용한 파라미터를 재사용해야한다고 이야기했었는데요, 조금 더 쉬운 머신러닝을 위해 이번 세션에서 사이킷런의 Pipeline 클래스를 배워보도록 하겠습니다. 그리고 모델을 검증하기 위해 널리 쓰이고 있는 k-겹 교차검증 방법에 대해서도 알아보겠습니다. A. 파이프라인을 사용한 효율적인 워크플로 만들기 1. 위스콘신 유방암 데이터셋 위스콘신 데이터셋은 악성과 양성인 종양 샘플 569개가 포함되어 있습니다. 앞에서 두 열은 샘플의 ID와 진단결과가 들어있고, 3~32번째까지의 열에는 세포 핵의 이미지에서 계산된 30개 실수 값 특성이 들어있습니다. 일단 데이터를 받아오도록 할까요? 이 데이터셋에 대한 내용은 링크에서..