머신러닝의 실습(분류모형)
1. 실습환경
머신러닝의 실습을 간편하게 하기 위해서 주로 주피터 노트북을 사용합니다. 주피터는 기본적으로 파이선 환경이며 인터넷브라우저를 통해서 이용할 수 있습니다.
머신러닝뿐만 아니라 파이선을 이용한 다양한 경우에 자주 사용되므로 익숙하게 해둘 필요가 있습니다.
2. 실습 데이터 가져오기
머신러닝에 사용할 데이터는 직접 만들기보다는 UCI등의 데이터 리포지터리에서 받아와 사용하는 것이 효율적입니다. 자주 사용되는 자료는 bank marketing data입니다. 다른 자료여도 상관없으므로 원하는 자료를 다운받아줍니다.
받은 데이터는 csv파일을 주로 사용하게 됩니다. 파일 입출력으로 사용하기 편하기 때문입니다.
3. 분류모형
분류모형은 지도 학습 중에서 주어진 데이터를 기반으로 범주형 타겟 값에 따라 분류하고 예측하는 모형을 말합니다. 이때 정분류율은 분류 모형에서 실제 타겟을 정확하게 예측한 비율입니다.
교차검증은 훈련용 데이터로 모델링을 하고 테스트 데이터로 모형의 성능을 파악하는 검증방법입니다.
4. 데이터 전처리
분류모형을 사용하여 분석할 데이터를 전처리 해줘야 합니다. 먼저 DataFrame으로 파일을 읽고 x, y 변수를 지정해줍니다. 그 다음 데이터의 크기를 정해주는 스케일링을 해준 뒤 훈련데이터를 분류(데이터 파티셔닝) 해줍니다.
5. 분류모형 평가지표
분류 모형의 성능이 어떤지 평가할 필요가 있습니다. 이때 사용되는 것이 혼동행렬(confusion matrix), 정분류율(accuracy), 정밀도(precision), 재현율(recall), 특이도(specificity)입니다.