본문 바로가기

AI Theory/key concept of AI

과적합과 과소적합

목차

     

     

    머신러닝은 목적 변수의 예측을 위해 여러 설명 변수를 이용해 모델을 만들고 테스트 데이터에 적용하는 일련의 과정을 거침.

     

    그러나 테스트 데이터에는 목적 변수가 없음. 따라서 예측의 정확도를 파악 불가

     

    학습 데이터는 학습에 사용된 것이므로 또한 예측의 정확도를 측정하는데 사용하는 것이 부적절

     

    과적합(overfitting)

    • 학습 데이터를 너무 과하게 학습하여 학습 데이터에만 지나치게 적절한 모델
    • 이미 알고 있는 데이터에만 최적화되어 있을 뿐 미지의 데이터에 대한 정확도는 떨어짐

     

    과소적합(underfitting)

    • 학습이 불충분하게 진행
    • 데이터에 맞는 학습이 충분하지 않아 정확도가 낮음

     

    과적합을 피하기 위해서는 학습 데이터의 일부늘 검증 데이터로 분리하여 이를 이용해 모델을 검증

     

    검증 데이터의 작성법

    • 홀드 아웃: 데이터를 일정비율로 학습 데이터와 검증 데이터로 분할
    • 교차 검증(cross validation): 데이터 전체를 임의의 블록 수로 분할해서 그 중 블록 한개만 검증데이터로 만들고 나머지는 학습 데이터로 만듬. 분할된 블럭의 수만큼 반복. 홀드아웃보다 더 좋은 방법
    • 잭나이프법(leave-one-out): 데이터 수가 적을 때 이용하는 검증방법. 전체 테스트 중 하나를 검증 데이터로, 나머지를 학습데이터로 설정하며 이 과정을 전체 데이터 수만큼 방법

     

    일반적으로 교차검증 사용

    데이터가 너무 커서 시간이 걸릴 때는 홀드 아웃을 사용하기도 함