과적합(overfitting) 예시

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

과적합(overfitting)

과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터) 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 우를 말합니다.

 

https://codedragon.tistory.com/8362

 

 

 

 

 

과적합 예시


 

 

(a) 같은 훈련 데이터가 존재한다고 가정하겠습니다.

 

(b) 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 있음을 있습니다.

 

반면, (d) 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 같은 경우, 새로운 데이터 주어지는 경우는 오차가 커질 확률이 높습니다. (과적합)

 

(c) (b) (d) 경우와 비교해보았을 , 비록 약간의 오차가 존재하지만 예측모델이 훈련 데이터 세트 상의 데이터에 대한 특성 나타내고 있으며 새로운 데이터에 대해서도 좋은 결과가 나올 가능성이 높음 있습다.

 

 

 

빅데이터 분석모델을 구축하면서 과적합의 문제는 항시 존재한다고 있으나 이를 해결하는 방법 또한 마땅치 않은 것이 현실입니다. 이는 분석모델을 만드는 사용되는 훈련 데이터 세트는 실제 데이터의 부분집합이며, 훈련 데이터 세트만을 가지고 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 또한 불가능하기 때문입니다.