파이프라인
[라이트 머신러닝] Session 16. 파이프라인으로 묶고, 교차 검증으로 모델을 평가하자!
이전 세션들에서 테스트 세트처럼 새로운 데이터의 스케일을 조정하고 압축하기 위해 훈련 세트에서 사용한 파라미터를 재사용해야한다고 이야기했었는데요, 조금 더 쉬운 머신러닝을 위해 이번 세션에서 사이킷런의 Pipeline 클래스를 배워보도록 하겠습니다. 그리고 모델을 검증하기 위해 널리 쓰이고 있는 k-겹 교차검증 방법에 대해서도 알아보겠습니다. A. 파이프라인을 사용한 효율적인 워크플로 만들기 1. 위스콘신 유방암 데이터셋 위스콘신 데이터셋은 악성과 양성인 종양 샘플 569개가 포함되어 있습니다. 앞에서 두 열은 샘플의 ID와 진단결과가 들어있고, 3~32번째까지의 열에는 세포 핵의 이미지에서 계산된 30개 실수 값 특성이 들어있습니다. 일단 데이터를 받아오도록 할까요? 이 데이터셋에 대한 내용은 링크에서..