CODEDRAGON ㆍDevelopment/Big Data, R, ...
과적합(overfitting)
과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터)에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 경우를 말합니다.
https://codedragon.tistory.com/8362
과적합 예시
(a)와 같은 훈련 데이터가 존재한다고 가정하겠습니다.
(b)와 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 클 수 있음을 알 수 있습니다.
반면, (d)의 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 이 같은 경우, 새로운 데이터가 주어지는 경우는 오차가 커질 확률이 높습니다↑. (과적합)
(c)를 (b)와 (d)의 경우와 비교해보았을 때, 비록 약간의 오차가 존재하지만 예측모델이 훈련 데이터 세트 상의 데이터에 대한 특성을 잘 나타내고 있으며 새로운 데이터에 대해서도 좋은 결과가 나올 가능성이 높음↑을 알 수 있습다.
빅데이터 분석모델을 구축하면서 과적합의 문제는 항시 존재한다고 볼 수 있으나 이를 해결하는 방법 또한 마땅치 않은 것이 현실입니다. 이는 분석모델을 만드는 데 사용되는 훈련 데이터 세트는 실제 데이터의 부분집합이며, 훈련 데이터 세트만을 가지고 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 것 또한 불가능하기 때문입니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
2.Summary - 2-텍스트 데이터 분석 수행방법 계획하기 (0) | 2020.01.04 |
---|---|
CART 이해 (0) | 2020.01.04 |
수행 내용-빅데이터 저장 계획 수립하기 (0) | 2020.01.03 |
가설 검정 방법 (0) | 2020.01.03 |
빅데이터 품질 요소 및 품질 전략 (0) | 2020.01.02 |