CODEDRAGON ㆍDevelopment/Big Data, R, ...
과적합 발생 원인
· 학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다.
· 학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향)
· 학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류)
· 과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 수 있습니다.
· 고려하는 변수가 지나치게 많을 때 발생할 수 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 각 값들이 모델에 미치는 영향이 커짐, 즉 극단적인 값이 평균에 영향을 주게 됩니다.)
· 모델이 너무 복잡한 경우 발생할 수 있습니다.
· 오류가 거의 0에 가까운 모델이라 할지라도 실제 눈으로 예측하는 관계와는 큰 차이가 발생할 수 있기 때문에 교차 타당성 검증을 수행해야 합니다.
· 보통 훈련 집합을 이용하여 적합(fitting)을 하게 되는데 이때, 예측 모델이 훈련이 아주 잘 되었다고 하더라도 과적합(Overffing) 문제가 발생됩니다.
모델이 복잡한 경우
https://codedragon.tistory.com/8423
과적합을 해결하기 어려운 이유
· 학습 데이터는 실제 데이터의 부분 집합이고, 실제 데이터를 모두 수집하는 것은 불가능한 경우가 많습니다.
· 실제 데이터를 모두 수집하더라도 모든 데이터를 학습시키는 것이 불가능한 경우가 많습니다.
· 학습 데이터만으로는 실제 데이터와의 오차가 커지는 지점을 정확하게 알기 어렵습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
3.Summary - 3.빅데이터 적재모듈 개발하기 (0) | 2019.12.08 |
---|---|
Hadoop - download for windows (0) | 2019.12.07 |
1.Summary - 1.빅데이터 분석시스템 설계하기 (0) | 2019.12.07 |
결측치가 발생하는 이유 (0) | 2019.12.06 |
의사결정나무 분석과정 (0) | 2019.12.06 |