과적합 발생 원인, 과적합을 해결하기 어려운 이유

과적합 발생 원인, 과적합을 해결하기 어려운 이유

CODEDRAGON ㆍDevelopment/AI

과적합 발생 원인

· 학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다.

· 학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향)

· 학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류)

· 과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 수 있습니다.

· 고려하는 변수가 지나치게 많을 때 발생할 수 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 각 값들이 모델에 미치는 영향이 커짐, 즉 극단적인 값이 평균에 영향을 주게 됩니다.)

· 모델이 너무 복잡한 경우 발생할 수 있습니다.

· 오류가 거의 0에 가까운 모델이라 할지라도 실제 눈으로 예측하는 관계와는 큰 차이가 발생할 수 있기 때문에 교차 타당성 검증을 수행해야 합니다.

· 보통 훈련 집합을 이용하여 적합(fitting)을 하게 되는데 이때, 예측 모델이 훈련이 아주 잘 되었다고 하더라도 과적합(Overffing) 문제가 발생됩니다.

모델이 복잡한 경우

과적합을 해결하기 어려운 이유

· 학습 데이터는 실제 데이터의 부분 집합이고, 실제 데이터를 모두 수집하는 것은 불가능한 경우가 많습니다.

· 실제 데이터를 모두 수집하더라도 모든 데이터를 학습시키는 것이 불가능한 경우가 많습니다.

· 학습 데이터만으로는 실제 데이터와의 오차가 커지는 지점을 정확하게 알기 어렵습니다.

CodeDragon