누락 데이터 처리

    [라이트 머신러닝] Session 10. 누락 데이터와 범주형 데이터 다루기

    이번 세션에서는 데이터 전처리 중에서 누락 데이터와 범주형 데이터를 다루는 방법에 대해서 알아보도록 하겠습니다! 1. 누락된 데이터 다루기 실제 모델에서는 여러 이유로 값이 누락된 샘플이 있는 경우가 허다합니다. 보통 누락된 값은 데이터 테이블에 빈 공간이나 예약된 문자열(NULL, NaN)으로 채워집니다. 그럼 이제 샘플을 제거하거나 다른 샘플이나 특성에서 누락된 값을 대체하는 방법을 소개하겠습니다. 첫번째 과정은 당연히 누락된 값을 식별하는 것이겠죠. 일단 예제 데이터셋을 만들어보도록 하겠습니다. read_csv함수는 csv포맷 데이터를 판다스의 데이터 프레임으로 읽어옵니다. 여기 예제에서는 누락 데이터는 NaN으로 표시됩니다. 그리고 아래 코드에 쓰인 StringIO 는 csv_data에 저장된 문..