[라이트 머신러닝] Session 6. 사이킷런 입문!

darly213 2020. 2. 3. 20:35

728x90

이번 세션에서는 사이킷런 라이브러리를 이용해서 퍼셉트론을 훈련해봄으로써 사이킷런을 시작하도록 하겠습니다. 이번 세션도 전과 마찬가지로 저는 Google Colab으로 실습합니다. Colab에는 이미 사이킷런이 설치되어있으므로 별도의 설치없이 사용하시면 됩니다!

https://colab.research.google.com

Google Colaboratory

colab.research.google.com

1. 데이터 주입과 표준화

이번 세션에서는 세션 4와 5에서 구현한 것과 비슷한 퍼셉트론 모델을 사용할 것입니다. 사용할 붓꽃 데이터 셋은 이미 사이킷런에 포함되어있으므로, 따로 다운받을 필요는 없습니다.

꽃 샘플 중에 꽃입 길이와 너비를 행렬 X에, 꽃 품종을 벡터 Y에 할당합니다.

from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target
print('class label', np.unique(y))

np.unique함수는 iris.target에 있는 세 개의 붓꽃 종류를 반환합니다. 결과로 class label [0 1 2] 라는 내용이 나오고, 꽃의 라벨이 0과 1과 2라는 것을 확인할 수 있죠. 각각 Iris-setasa, Iris-versicolor, Iris-virginica 입니다. 사이킷런의 함수와 클래스 메소드들은 문자열 형태의 클래스 레이블들을 다룰 수 있습니다. 이렇게 나누는 데에 정수형태(0, 1, 2처럼)가 권장되는 이유는 실수를 피할 수 있고, 메모리 영역이 작기 때문입니다.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1, stratify = y)

print('label count of y: ', np.bincount(y))
print('label count of y_train: ', np.bincount(y_train))
print('label count of y_test: ', np.bincount(y_test))

사이킷런의 model_selection 모듈의 train_test_split 함수를 이용해 X와 y의 배열을 랜덤하게 나누고, 30%는 테스트 데이터로, 70%는 훈련 데이터로 나누어숩니다. 배열을 랜덤하게 나누는 이유는 간단합니다. 배열을 섞지않고 호로록 돌려버리면 테스트 데이터는 setasa만으로, 훈련 데이터는 다른 두 꽃들만으로 나뉠 수가 있습니다. 그럼 학습이 제대로 이루어지지 않겠죠?

stratify = y는 계층화를 의미합니다. 계층화는 train_test_split 함수가 나눠놓은 클래스 레이블 비율을 입력 데이터 셋과 동일하게 맞추는 과정입니다. numpy에 있는 bincount함수를 이용하면 배열에 있는 값의 등장 횟수를 확인할 수 있습니다. 위 코드를 돌려보세요!

이전 세션에서 이야기했던 것처럼 최적화 알고리즘은 특성 스케일을 조정해주어야합니다. 이 과정을 표준화라고 합니다. 아래 코드를 이용해서 특성을 표준화해봅시다.

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

processing 모듈에서 standard scaler 클래스를 로드한 다음 새로운 객체 standard scaler을 sc로 할당합니다. 이는 표기의 간편화를 위한 작업이기도 합니다. fit메소드를 이용해서 각 특성 차원마다 샘플 평균과 표준편차를 계산하고, 이 두가지를 transform에서 훈련세트 표준화를 실시합니다. 훈련과 테스트 세트의 샘플이 서로 같은 비율로 표준화해주죠.

2. 훈련!

데이터 표준화 이후에 드디어! 퍼셉트론 모델을 훈련시킵니다. 사이킷런 알고리즘은 대부분 OvR(one-versus-rest)방식을 채틱하여 다중분류를 지원합니다. 아래 코드는 세 개의 붓꽃 클래스를 한 번에 알고리즘에 넣습니다.

from sklearn.linear_model import Perceptron

ppn = Perceptron(max_iter = 40, eta0 = 0.1, tol = 1e-3, random_state = 1)
ppn.fit(X_train_std, y_train)

사이킷런에 포함된 퍼셉트론은 앞선 세션에서 직접 구현한 퍼셉트론과 거의 유사합니다. linear_model에서 퍼셉트론 클래스를 로드한 다음, ppn 변수에 퍼셉트론을 담음으로써 객체럴 생성한 후 fit 메서드를 통해서 퍼셉트론 모델을 훈련합니다. eta는 학습률을, max_iter은 epoch를 뜻힙니다. tol은 종료조건을 지정하나 이는 경고메세지를 피하기 위함이므로 굳이 깊게 알 필요는 없습니다.

그 다음은 predict 메소드를 사용해서 예측을 만들어냅니다. 코드는 아래와 같습니다.

y_pred = ppn.predict(X_test_std)
print('잘못 분류된 샘플 개수 : %d' %(y_test != y_pred).sum())

from sklearn.metrics import accuracy_score
print('정확도 : %.2f' %accuracy_score(y_test, y_pred))

이 경우 잘못 분류된 샘플은 하나가 되고, 정확도는 0.98, 98%가 나옵니다. 사이킷런의 분류기(classfier)는 정확도를 계산하는 score 메소드를 갖고 있습니다. 이를 이용하면 아래와 같이도 쓸 수 있습니다.

print('정확도 : %.2f' % ppn.score(X_test_std, y_test))

3. 그래프와 결정경계를 통한 시각화

앞선 세션에서 만든 plot_decision_regions 함수를 이용해서 그래프를 시각화하도록 하겠습니다. 다른 점은 여기서는 샘플을 작은 원으로 표시하는 것 뿐입니다.

from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt


def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):

    # 마커와 컬러맵을 설정합니다.
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # 결정 경계를 그립니다.
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.3, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.8, 
                    c=colors[idx],
                    marker=markers[idx], 
                    label=cl, 
                    edgecolor='black')

    # 테스트 샘플을 부각하여 그립니다.
    if test_idx:
        X_test, y_test = X[test_idx, :], y[test_idx]

        plt.scatter(X_test[:, 0],
                    X_test[:, 1],
                    c='',
                    edgecolor='black',
                    alpha=1.0,
                    linewidth=1,
                    marker='o',
                    s=100, 
                    label='test set')

수정된 함수에 표시한 테스트 샘플 인덱스를 아래와 같이 지정해줍니다.

X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))

plot_decision_regions(X=X_combined_std, y=y_combined,
                      classifier=ppn, test_idx=range(105, 150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')

plt.tight_layout()
plt.show()

이렇게 위와같이 예쁜 선형결계 그래프까지 사이킷런을 통해서 완성해보았습니다. 앞에서도 이야기했듯 모든 코드를 이해할 필요는 없으나, 언급된 함수의 쓰임 정도는 꼭 알아두시는 것을 추천합니다! 다음 시간에는 로지스틱 회귀를 소개하고, 구현해보도록 하겠습니다! 다음 시간에 봬요! :)

728x90

저작자표시 (새창열림)