과적합 발생 원인, 과적합을 해결하기 어려운 이유

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

 

과적합 발생 원인

·       학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다.

·       학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향)

·       학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류)

·       과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 있습니다.

·       고려하는 변수가 지나치게 많을 발생할 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 값들이 모델에 미치는 영향이 커짐, 극단적인 값이 평균에 영향을 주게 됩니다.)

·       모델이 너무 복잡 경우 발생할 있습니다.

·       오류가 거의 0 가까운 모델이라 할지라도 실제 눈으로 예측하는 관계와는 차이가 발생 있기 때문에 교차 타당성 검증을 수행해야 합니다.

·       보통 훈련 집합을 이용하여 적합(fitting) 하게 되는데 이때, 예측 모델이 훈련이 아주 되었다고 하더라도 과적합(Overffing) 문제가 발생됩니다.

 

 

 

모델이 복잡한 경우

https://codedragon.tistory.com/8423

 

 

 

 

 

과적합을 해결하기 어려운 이유

·       학습 데이터는 실제 데이터의 부분 집합이고, 실제 데이터를 모두 수집하는 것은 불가능한 경우가 많습니다.

·       실제 데이터를 모두 수집하더라도 모든 데이터를 학습시키는 것이 불가능한 경우가 많습니다.

·       학습 데이터만으로는 실제 데이터와의 오차가 커지는 지점을 정확하게 알기 어렵습니다.