과적합(overfitting)

CODEDRAGON Development/Big Data, R, ...

반응형


 

과적합(overfitting)

·         과잉적합 과최적화 오버피팅 과대 평가 과학습

·         과적합에는 과대적합과 과소적합이 있지만 구분하지 않을 경우 과대적합을 과적합이라고 하기도 합니다.

·         비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다.

·         과적합은 제한된 샘플(혹은 훈련에 사용한 한정된 데이터) 너무 특화 되어, 새로운 샘플에 대한 예측 결과가 오히려 나빠지거나 오차가 매우 커지거나 학습의 효과가 나타나지 않는 경우 말합니다.

·         과거 데이터로 모델링한 결과 모델를 현재와 미래 데이터에 동일 모델로 분석했을때 결과가 안좋게 나오는것을 말합니다.

 

 

·         데이터를 분리하지 않고 전체 데이터를 모델링과 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징(Signal) 외에 데이터에 우연히 포함된 노이즈(Noise)까지 반영한 모델을 만들게 위험이 있으며  이를 과적합이라고 합니다.

·         가진 정보를 모두 사용해서 만들어진 모델이 지나치게 복잡하여 학습 데이터에 대해서는 올바른 결과를 출력하지만 실제 데이터가 입력되었을 올바른 결과를 출력하지 못하는 것을 말합니다. (학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 맞지 않게 됩니다.)

·         모델이 training set 너무 정확하게 학습되어져 test set 대해서는 오차가 크게 발생하는 것을 말합니다.

·         when test error is much higher than trainning error.

 


 

https://en.wikipedia.org/wiki/Overfitting

https://zetawiki.com/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9