[라이트 머신러닝] Session 12. 순차 특성 선택 알고리즘과 랜덤 포레스트 특성 중요도 사용

darly213 2020. 2. 16. 00:56

728x90

이번 세션에서는 순차 특성 선택을 하는 방법과 랜덤 포레스트에서 특성 중요도를 사용하는 방법을 알아보겠습니다. 가볼까요?

1. 순차 특성 선택 알고리즘

모델 복잡도를 줄이는 방법을 Session 11에서 소개했었는데요, 다른 방법은 특성 선택을 통한 차원 축소(dimensionality reduction)가 있습니다. 규제가 없는 모델에서 유용하죠. 차원 축소에는 주요 카테고리인 특성 선택(feature selection)과 특성 추출(feature extraction)이 있습니다.

특성 선택은 특성 중에서 선택하는 것이고, 추출은 특성에서 얻은 정보들로 새 특성을 만드는 것입니다. 특성 선택에 있어서 중요한 것은 문제에 가장 관련이 높은 특성 부분집합을 자동선택하는 것입니다. 이번에는 특성 선택 알고리즘인 순차 특성 선택(sequential feature selection) 알고리즘에 대해 알아보겠습니다. 순차 특성 선택 알고리즘은 탐색 알고리즘(greedy search algorithm)으로 d 차원이었던 특성공간을 d보다 작은 k 차원으로 축소시킵니다.

순차 특성 알고리즘 중 전통적인 것은 순차 후진 선택(sequential backward selection, SBS)입니다. SBS는 초기 특성의 부분공간으로 차원을 축소시킵니다.

SBS 알고리즘은 새 특성의 부분공간이 목표한 특성 개수가 될 때까지 전체 특성에서 순차적으로 특성을 제거합니다. 이때 특성의 제거 기준을 위해 최소화할 기준 함수가 필요합니다. 기준함수에서 계산한 값은 제거 전후의 모델의 성능 차이입니다. 가장 기준 값이 큰 특성을 제거하게 되겠죠. 간단히 네 단계로 정리해보겠습니다.

알고리즘을 k=d (d는 전체 특성공간의 차원)로 초기화합니다.
조건 x = argmax J(Xk - x)를 최대화하는 특성 x'를 결정합니다.
특성 집합에서 특성 x'를 제거합니다.
k가 목표한 개수가 되면 종료하거나 2로 돌아갑니다.

SBS 알고리즘은 사이킷런에 구현되어있지 않습니다. 파이썬으로 직접 구현한 코드는 아래와 같습니다.

from sklearn.base import clone
from itertools import combinations
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split


class SBS():
    def __init__(self, estimator, k_features, scoring=accuracy_score,
                 test_size=0.25, random_state=1):
        self.scoring = scoring
        self.estimator = clone(estimator)
        self.k_features = k_features
        self.test_size = test_size
        self.random_state = random_state

    def fit(self, X, y):
        
        X_train, X_test, y_train, y_test = \
            train_test_split(X, y, test_size=self.test_size,
                             random_state=self.random_state)

        dim = X_train.shape[1]
        self.indices_ = tuple(range(dim))
        self.subsets_ = [self.indices_]
        score = self._calc_score(X_train, y_train, 
                                 X_test, y_test, self.indices_)
        self.scores_ = [score]

        while dim > self.k_features:
            scores = []
            subsets = []

            for p in combinations(self.indices_, r=dim - 1):
                score = self._calc_score(X_train, y_train, 
                                         X_test, y_test, p)
                scores.append(score)
                subsets.append(p)

            best = np.argmax(scores)
            self.indices_ = subsets[best]
            self.subsets_.append(self.indices_)
            dim -= 1	
            
        	self.scores_.append(scores[best])
        self.k_score_ = self.scores_[-1]

        return self

    def transform(self, X):
        return X[:, self.indices_]

    def _calc_score(self, X_train, y_train, X_test, y_test, indices):
        self.estimator.fit(X_train[:, indices], y_train)
        y_pred = self.estimator.predict(X_test[:, indices])
        score = self.scoring(y_test, y_pred)
        return score

여기서 목표한 특성 개수 k는 k_feature 매개변수입니다. accuracy_score 함수를 사용해 모델의 성능을 평가하고, fit 메서드의 반복문 안에서 itertools.combination 함수에 의해 생성된 특성 조합을 평가하고 줄입니다. 그리고 X_test 에 기초한 조합의 정확도 점수를 self.scores_리스트에 모읍니다. 이 점수로 나중에 결과를 평가합니다. 최종으로 만들어진 특성의 열 인덱스는 self.indices_에 할당됩니다. 이것은 transform에서 선택된 특성으로 구성된 새로운 배열을 반환할 때 쓰입니다.

이제 사이킷런의 KNN 분류기를 통해서 확인해볼까요?

import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)

# 특성을 선택합니다.
sbs = SBS(knn, k_features=1)
sbs.fit(X_train_std, y_train)

# 특성 조합의 성능 그래프를 출력합니다.
k_feat = [len(k) for k in sbs.subsets_]

plt.plot(k_feat, sbs.scores_, marker='o')
plt.ylim([0.7, 1.02])
plt.ylabel('Accuracy')
plt.xlabel('Number of features')
plt.grid()
plt.tight_layout()
plt.show()

fit 안에서 SBS가 데이터셋을 훈련과 테스트로 나누기는 하지만 여전히 이 코드에서는 X_train 데이터만 주입합니다. 이때 SBS의 fit 메서드가 나누는 데이터셋 중 테스트 세트를 검증세트(validation set)이라고 부르기도 합니다. 이 경우에는 훈련 데이터와 테스트 데이터를 미리 분리해놓아야합니다.

SBS로 각 단계에서 가장 좋은 특성조합의 점수를 모아놓았으므로 이 코드를 실행하면 검증 세트로 계산한 KNN 분류기의 정확도를 확인할 수 있습니다.

위 그래프에서 확인할 수 있듯이 KNN 분류기의 정확도는 특성 개수가 줄었을 때 향상됩니다. 그렇다면 이제 원래 테스트 세트에서의 KNN 분류기 성능을 평가해보도록 하겠습니다.

knn.fit(X_train_std, y_train)
print('훈련 정확도:', knn.score(X_train_std, y_train))
print('테스트 정확도:', knn.score(X_test_std, y_test)

훈련 세트에서는 97% 정도의 정확도를, 테스트 세트에서는 96% 정도의 정확도를 보여주네요. 그럼 선택된 세 개의 특성에서의 성능도 확인해볼까요?

knn.fit(X_train_std[:, k3], y_train)
print('훈련 정확도:', knn.score(X_train_std[:, k3], y_train))
print('테스트 정확도:', knn.score(X_test_std[:, k3], y_test))

전체 특성의 1/4도 안되는 특성을 사용했지만 테스트 세트의 정확도는 크게 떨어졌다고 하긴 힘들어보입니다. 이 세 개의 특성의 판별정보가 원래 데이터셋보다 그리 작지 않다는 뜻입니다.

Wine 데이터셋은 원래도 그리 크지 않은 데이터셋이라 데이터셋을 훈련과 테스트로 나눈 것과 다시 훈련과 검증으로 나눈 것에 영향을 많이 받습니다.

여기서 알 수 있는 점은 특성 개수를 줄이는 것이 KNN 모델의 성능을 높이진 않지만 테이터 크기를 줄일 수 있었다는 점이고, 그 때문에 더 간단한 모델을 얻을 수 있었다는 점입니다.

2. 랜덤 포레스트의 특성 중요도 사용

이전 세션에서 앙상블을 소개할 때 잠깐 등장했던 랜덤 포레스트를 기억하시나요? 랜덤 포레스트를 사용하면 결정 트리에서 계산한 평균 불손도를 감소시킴으로써 특성의 중요도를 확인할 수 있습니다. 사이킷런에서 RandomForestClassifier 모델을 훈련하고 feature_importances_속성에서 특성 중요도 값을 확인할 수 있습니다.

from sklearn.ensemble import RandomForestClassifier

feat_labels = df_wine.columns[1:]

forest = RandomForestClassifier(n_estimators=500,
                                random_state=1)

forest.fit(X_train, y_train)
importances = forest.feature_importances_

indices = np.argsort(importances)[::-1]

for f in range(X_train.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30, 
                            feat_labels[indices[f]], 
                            importances[indices[f]]))

plt.title('Feature Importance')
plt.bar(range(X_train.shape[1]), 
        importances[indices],
        align='center')

plt.xticks(range(X_train.shape[1]), 
           feat_labels[indices], rotation=90)
plt.xlim([-1, X_train.shape[1]])
plt.tight_layout()
plt.show()

위 코드를 실행하면 각 특성의 상대적 중요도에 따른 순위를 표로 보여줍니다. 이 중요도는 합이 1이 되도록 정규화 되어있습니다. 500개 결정 트리에서 가장 판별력이 좋은 특성은 proline부터 alcohol까지입니다. 이 그래프에서 상위 특성 중 두 개는 위에서 구현한 SBS 알고리즘에서 선택한 3개의 특성에 들어있습니다.

랜덤 포레스트에서 두 개 이상의 특성이 서로 상관관계가 깊다면, 하나는 아주 잘 잡아내지만 다른 정보는 잘 찾아내지 못할 수 있습니다. 만약 특성 중요도 값보다 모델의 성능에만 관심이 있다면 무시하셔도 좋습니다만, 알아두셔도 좋습니다.

사이킷런의 SelectFromModel은 모델 훈련이 끝난 다음에 사용자가 정한 값을 기반으로 특성을 선택합니다. 나중에 등장할 Pipeline의 단계에서 RondomForestClassifier를 특성 선택기로 사용할 때 유용합니다. 아래 코드는 사용자 지정 값, 즉 임계값을 0.1로 해 특성을 중요한 5개로 줄여줍니다.

from sklearn.feature_selection import SelectFromModel

sfm = SelectFromModel(forest, threshold=0.1, prefit=True)
X_selected = sfm.transform(X_train)
print('이 임계 조건을 만족하는 샘플의 수:', X_selected.shape[1])
# 이 임계 조건을 만족하는 샘플의 수: 5

for f in range(X_selected.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30, 
                            feat_labels[indices[f]], 
                            importances[indices[f]]))

여기까지 순차 특성 선택 알고리즘과 랜덤 포레스트에 대해서 알아보았습니다. 주로 차원 축소나 데이터의 크기를 줄이는 기법들이었는데요, 다음으로 기다리고 있는 세 개의 세션들에서도 차원 축소를 사용한 데이터 압축을 다룰 예정입니다. 그럼 저는 다음 세션에서 PCA를 들고 돌아오도록 하겠습니다. 다음 세션에서 봬요!

728x90

저작자표시 (새창열림)