[라이트 머신러닝] Session 18. ROC 곡선과 불균형 데이터 균형 맞추기!

728x90

A. 여러가지 성능 평가 지표

1. 오차 행렬

오차행렬(confusion matrix)은 학습 알고리즘의 성능을 행렬로 펼쳐둔 것입니다. 아래 그림과 같이 진짜 양성(True Positive, TP), 진짜 음성(True Negative, TV), 가짜 양성(False Positive, FP), 가짜 음성(False Negative, FN)의 개수를 적은 정방 행렬이죠.

이 행렬을 만들 때 물론 직접 세어서 계산할 수도 있지만 사이킷런의 함수 confusion_matrix 를 사용할 수도 있습니다.


from sklearn.metrics import confusion_matrix

pipe_svc.fit(X_train, y_train)
y_pred = pipe_svc.predict(X_test)
confmat = confusion_matrix(y_true=y_test, y_pred=y_pred)
print(confmat)

이 코드를 실행해 얻은 배열이 분류기가 테스트 세트에서 일으킨 오류의 종류를 알려줍니다. 이제 matshow 함수를 통해 앞 그림과 같이 표현해보겠습니다.

fig, ax = plt.subplots(figsize=(2.5, 2.5))
ax.matshow(confmat, cmap=plt.cm.Blues, alpha=0.3)
for i in range(confmat.shape[0]):
    for j in range(confmat.shape[1]):
        ax.text(x=j, y=i, s=confmat[i, j], va='center', ha='center')

plt.xlabel('Predicted label')
plt.ylabel('True label')

plt.tight_layout()
plt.show()

앞선 세션에서 쓰고 있었던 유방암 데이터셋에서 클래스 1, 악성 종양이 양성 클래스입니다. 이 모델은 71개 악성 종양과 40개의 악성이 아닌 종양을 정확하게 구분했지만, 클래스 1인 샘플 두 개는 2로 잘못 분류했고 2인 샘플 하나는 1로 잘못 분류했음을 알 수 있습니다.

2. 분류 모델의 정밀도와 재현율 최적화

예측 오차(ERR)와 정확도(ACC)는 얼마나 많은 샘플을 잘못 분류했는지에 대한 정보를 알려줍니다. 오차는 잘못된 예측/전체 예측이고, 정확도는 옳은 예측/전체 예측입니다. 아래가 예측 오차를 계산하는 방법입니다.

아래 수식이 예측 정확도입니다.

진짜 양성 비율과 거짓 양성 비율을 클래스의 비율이 다른 경우에 유용합니다. 계산은 아래와 같습니다.

정확도(PRE)와 재현율(REC)는 진짜 양성과 진짜 음성 샘플의 비율과 관련있습니다. 사실 재현율은 진짜 양성 비율의 다른 말이죠. 실전에서는 정확도와 재현율을 합친 F1-점수를 자주 사용합니다.

이제 이런 성능 지표들을 사이킷런으로 구현해볼까요? sklearn.metrics에서 사용할 수 있습니다.

from sklearn.metrics import precision_score, recall_score, f1_score

print('정밀도: %.3f' % precision_score(y_true=y_test, y_pred=y_pred))
print('재현율: %.3f' % recall_score(y_true=y_test, y_pred=y_pred))
print('F1: %.3f' % f1_score(y_true=y_test, y_pred=y_pred))

혹은 GridSearchCV의 scoring 매개변수를 사용해서 정확도 대신 다른 지표를 사용할 수도 있습니다. scoring에 대한 자세한 내용은 링크를 참조하세요! (https://scikit-learn.org/stable/modules/model_evaluation.html)

사이킷런에서 양성 클래스는 항상 레이블이 1인 클래스입니다. 바꾸고 싶다면 make_scorer 함수를 사용하고, scoring 매개변수에 전달할 수 있습니다.

from sklearn.metrics import make_scorer

scorer = make_scorer(f1_score, pos_label=0)

c_gamma_range = [0.01, 0.1, 1.0, 10.0]

param_grid = [{'svc__C': c_gamma_range,
               'svc__kernel': ['linear']},
              {'svc__C': c_gamma_range,
               'svc__gamma': c_gamma_range,
               'svc__kernel': ['rbf']}]

gs = GridSearchCV(estimator=pipe_svc,
                  param_grid=param_grid,
                  scoring=scorer,
                  cv=10,
                  n_jobs=-1)
gs = gs.fit(X_train, y_train)
print(gs.best_score_)
print(gs.best_params_)

ROC(Receiver Operating Characteristic) 그래프는 분류기의 임계 값을 바꾸면서 계산해둔 FPR과 TPR 점수를 기반으로 분류 모델을 선택하는 도구라고 할 수 있습니다. ROC 그래프의 대각선은 랜덤 추측, 대각선 아래의 분류 모델은 랜덤 추측보다 결과가 낮은 것을 의미합니다. 완벽한 분류기는 ROC 그래프에서 TPR이 1이고 FPR이 0인 왼쪽 위 구석에 위치합니다.

ROC 곡선의 아랫 부분 면적을 ROC AUC(ROC Area under the curve)라고 하는데요, 이 부분을 계산하면 분류 모델의 성능을 종합할 수도 있습니다.

ROC 곡선과 비슷하게 분류 모델의 확률 임계 값을 바꾸면서 정밀도-재현율 곡선을 그릴 수 있습니다. 이 함수도 사이킷런에 구현되어있는데, 이 링크에서 확인하실 수 있습니다.(http://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html)

이제 위에 쭉 사용해온 위스콘신 데이터를 통해 ROC 곡선을 그려보도록 하겠습니다. 로지스틱 회귀 파이프라인을 사용하지만 조금 더 나은 곡선을 그리기 위해서 조금 어렵게 작업을 구성하였습니다.

from sklearn.metrics import roc_curve, auc
from scipy import interp

pipe_lr = make_pipeline(StandardScaler(),
                        PCA(n_components=2),
                        LogisticRegression(solver='liblinear',
                                           penalty='l2', 
                                           random_state=1, 
                                           C=100.0))

X_train2 = X_train[:, [4, 14]]


cv = list(StratifiedKFold(n_splits=3, 
                          random_state=1).split(X_train, y_train))

fig = plt.figure(figsize=(7, 5))

mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)
all_tpr = []

for i, (train, test) in enumerate(cv):
    probas = pipe_lr.fit(X_train2[train],
                         y_train[train]).predict_proba(X_train2[test])

    fpr, tpr, thresholds = roc_curve(y_train[test],
                                     probas[:, 1],
                                     pos_label=1)
    mean_tpr += interp(mean_fpr, fpr, tpr)
    mean_tpr[0] = 0.0
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr,
             tpr,
             label='ROC fold %d (area = %0.2f)'
                   % (i+1, roc_auc))


plt.plot([0, 1],
         [0, 1],
         linestyle='--',
         color=(0.6, 0.6, 0.6),
         label='random guessing')

mean_tpr /= len(cv)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
plt.plot(mean_fpr, mean_tpr, 'k--',
         label='mean ROC (area = %0.2f)' % mean_auc, lw=2)
plt.plot([0, 0, 1],
         [0, 1, 1],
         linestyle=':',
         color='black',
         label='perfect performance')

plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('false positive rate')
plt.ylabel('true positive rate')
plt.legend(loc="lower right")

plt.tight_layout()
plt.show()

사이킷런의 StratifiedKFold를 사용했습니다. 반복문 안에서 sklearn.metrics모듈의 roc_curve 함수를 이용해 pipe_lr 파이프 라인의 로지스틱 리그레이션 모델의 ROC를 계산해주었습니다.그리고 Scipy 의 interp함수로 각 폴드의 ROC 곡선을 보간해 평균을 구해주었습니다. 여기서 보간이라는 말이 생소하실텐데요, 보간은 두 점을 연결하는 방법을 의미합니다. 여기서 말하는 연결은 궤적을 생성한다는 뜻을 가지고 있습니다.

그리고 auc 함수로 곡선 아래 면적을 계산해주었습니다. 여기서 평균 ROC AUC(0.76)은 완벽하게 분류된 경우 0.5에서 1.0 사이의 값을 가집니다. ROC AUC 점수에만 관심이 있으면 sklearn.metrics 모듈의 roc_auc_score 함수를 사용할 수도 있다고 합니다.

이처럼 ROC AUC로 성능을 조사하면 불균형한 데이터에서 분류기의 성능이 어떤지 더 확실히 알 수 있습니다.

4. 다중 분류의 성능 지표

이번에 언급할 성능 지표는 이진 분류에 적용되는 이야기입니다. 사이킷런은 평균 지표에 마크로(macro)와 마이크로(micro) 평균 방식을 구현해 OvA(One-versus-All) 방식을 사용하는 다중 분류로 확장시킵니다. 마이크로 평균과 마크로 평균에 대해서 미리 비교해볼까요?

마이크로 평균은 클래스별로 TP, TN, FP, FN을 계산합니다. k개 클래스가 있는 경우 정밀도의 마이크로 평균은 아래와 같이 계산합니다.

마크로 평균은 간단하게 클래스 별 정밀도의 평균입니다. 식은 아래와 같습니다.

마이크로 평균은 각 샘플 혹은 예측에 같은 가중치를 부여하려고 할 때 사용합니다. 마크로 평균은 모든 클래스에 동일한 가중치를 부여해 분류기의 전반적 성능을 평가하죠. 이 경우에는 가장 높은 빈도를 자랑하는 클래스 레이블에서의 성능이 중요합니다.

사이킷 런에서 이진 성능 지표로 다중 분류 모델을 평가하면 정규화가 기본적으로 적용되거나 가중치가 적용된 마크로 평균이 적용됩니다. 마크로 평균은 평균 계산 시에 각 클래스의 샘플 개수를 가중해 계산해줍니다. 레이블마다 샘플 개수가 다를 때 유용하죠.

마크로 평균이 기본값이지만 sklearn.metrics 모듈 아래의 측정 함수들은 average 매개변수로 평균을 계산할 수 있습니다. precision_score 이나 maker_scorer 함수입니다.

pre_scorer = make_scorer(score_func=precision_score, 
                         pos_label=1, 
                         greater_is_better=True, 
                         average='micro')

B. 불균형한 클래스 다루기

자, 앞선 세션과 단락에서 계속 불균형한 클래스를 언급해왔지만 적절한 처리 방법에 대해서는 이야기하지 않았던 것 같아요. 클래스 불균형은 굉장히 자주 나타나는 문제입니다. 스팸 필터링, 질병 차단 등을 예시로 들 수 있습니다.

계속 사용중인 유방암 데이터셋이 90%는 건강한 환자라고 가정해보겠습니다. 이 경우에는 모든 샘플에 대해 양성 종양이라고 예측하기만 해도 테스트 세트에서 정확도가 90%가 되겠죠? 이 경우에는 정확도는 높다고 해도 잘 학습한 경우는 당연히 아닙니다.

일단, 불균형한 데이터셋을 다룰 때 도움을 줄 수 있는 기법을 알아보기 전에 212개 악성 종양과 357개 양성 종양을 가진 유방암 데이터 셋에서 불균형 데이터를 만들어보겠습니다.

X_imb = np.vstack((X[y == 0], X[y == 1][:40]))
y_imb = np.hstack((y[y == 0], y[y == 1][:40]))

y_pred = np.zeros(y_imb.shape[0])
np.mean(y_pred == y_imb) * 100

이런 데이터에서는 정확도를 사용하는 것보다 다른 지표를 사용해 모델을 비교하는 것이 좋습니다. 주요 관심 대상이 무엇인지에 따라 정확도 대신 재현율, ROC 곡선 등을 사용할 수 있습니다. 예를 들어 추가 검사가 필요한 악성 종양 환자를 구별하는 것이 관심 대상이라면 재현율 지표를 선택하는 게 맞겠죠.

모델 평가와는 별개로 클래스 불균형은 훈련하는 동안 알고리즘 자체에 영향을 미칩니다. 훈련하는 동안 처리한 샘플에서 비용함수의 합을 최적화하기 때문에, 결과가 다수 클래스 쪽으로 편향되기 쉽습니다. 비용을 최소화하기 위해서 데이터 셋에서 가장 빈도높은 클래스의 예측을 최적화하는 모델을 학습하는 것이죠.

불균형한 클래스를 다루는 방법 한 가지는 소수 클래스에서 발생한 예측 오류에 큰 비용을 부여하는 것입니다. class_weight 매개변수를 class_weight='balanced'로 설정해서 조정할 수 있습니다.

널리 쓰이는 다른 방법은 소수 클래스 샘플을 늘리거나 다수 클래스 샘플을 줄이거나 인공적으로 훈련 샘플을 생성하는 것입니다. 실전에서는 여러 전략을 시도해서 적절한 기법을 선택하는 것이 좋습니다.

사이킷런 라이브러리는 데이터에서 중복을 허용함으로써 소수 클래스 샘플을 늘리는 resample 함수를 제공합니다. 다음 코드는 불균형한 유방암 데이터에서 소수 클래스를 선택해 다른 클래스와 동일할 때까지 새로운 샘플을 반복적으로 추출합니다.

from sklearn.utils import resample

print('샘플링하기 전의 클래스 1의 샘플 개수:', X_imb[y_imb == 1].shape[0])

X_upsampled, y_upsampled = resample(X_imb[y_imb == 1],
                                    y_imb[y_imb == 1],
                                    replace=True,
                                    n_samples=X_imb[y_imb == 0].shape[0],
                                    random_state=123)

print('샘플링한 후의 클래스 1의 샘플 개수:', X_upsampled.shape[0])

X_bal = np.vstack((X[y == 0], X_upsampled))
y_bal = np.hstack((y[y == 0], y_upsampled))

y_pred = np.zeros(y_bal.shape[0])
np.mean(y_pred == y_bal) * 100

샘플을 추출한 후 클래스 0의 원본 샘플과 업샘플링된 클래스 1을 연결해 균형잡힌 데이터 셋을 얻을 수 있습니다. 그 후 다수 클래스를 예측하는 규칙이 50% 정확도를 달성한 것을 알 수 있습니다.

다운 샘플링을 위해서는 resample 함수를 사용해 클래스레이블 1과 0을 서로 바꿔주면 됩니다.

세션 16부터 18까지 모델 평가와 하이퍼파라미터 튜닝의 사례와 방법들을 알아보았습니다. 세 세션에서 공부한 방법들을 적절히 이용해 앞으로 모델이 얼마나 잘하고 있는지, 혹은 모델을 선택해야할 때 등등에 사용할 수 있습니다! 다음 세션부터는 앙상블 기법에 대해서 알아보게 될텐데요, 비교적 흥미로운 내용들을 다루게 될테니 기대하세요! 다음번에 뵙겠습니다 :)

728x90

저작자표시 (새창열림)

'🐬 ML & Data > 🎫 라이트 머신러닝' 카테고리의 다른 글

[라이트 머신러닝] Session 19. 앙상블의 정의와 다수결 투표! (0)	2020.03.08
[라이트 머신러닝] Session 17. 학습과 검증 곡선, 그리고 그리드 서치 (0)	2020.02.28
[라이트 머신러닝] Session 16. 파이프라인으로 묶고, 교차 검증으로 모델을 평가하자! (0)	2020.02.26
[라이트 머신러닝] Session 15. 커널 PCA를 이용한 비선형 매핑 (0)	2020.02.24
[라이트 머신러닝] Session 14. LDA를 통한 지도학습방식 데이터 압축 (0)	2020.02.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[라이트 머신러닝] Session 18. ROC 곡선과 불균형 데이터 균형 맞추기!

A. 여러가지 성능 평가 지표

1. 오차 행렬

2. 분류 모델의 정밀도와 재현율 최적화

3. ROC 곡선 그리기

4. 다중 분류의 성능 지표

B. 불균형한 클래스 다루기

'🐬 ML & Data > 🎫 라이트 머신러닝' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역