CODEDRAGON ㆍDevelopment/Big Data, R, ...
과적합 판단
특정케이스가 아닌 일반적인(general) 결과가 나오도록 해야 합니다.
· 모델 비교
· 모델의 복잡성에 따른 오류 발생 빈도
모델 비교
검정색 점들이 있을 때, 그 점들을 대표하는 곡선을 추정하는 경우로 동일한 학습 데이터로 학습된 3개의 모델 비교해 보겠습니다.
구분 |
설명 |
Model A |
· 너무 단순화된 모델 · 처리 속도 빠름 · 직선으로 단순하게 추정을 하는 경우로 얼핏 보기에도 오류가 많음을 알 수 있습니다. |
Model B |
· 실제와 가장 유사한 모델 · 주어진 점들의 특성을 잘 나타내고 있습니다. · 정확성이 높음 · 약간의 오차는 있지만 새로운 샘플들이 들어올 때는 좋은 결과가 나올 수도 있습니다. |
Model C |
· 복잡성이 너무 높은 과접합된 모델 · 모든 점들을 그대로 살려 오차가 없이 추정을 하는 경우입니다. · 모든 점을 연결한 모델이 만들어 지면 새로운 데이터 들어왔을 때 다시 모든 점을 연결한 모델을 만들게 되어 복잡성이 높아지게 됩니다. · 주어진 샘플(훈련 데이터)에 대해서는 최적의 결과를 나타낼 수 있지만, 새로운 샘플이 주어지는 경우는 엉터리 결과가 나올 수도 있습니다. |
모델의 복잡성에 따른 오류 발생 빈도
· 모델의 복잡성이 높을수록 훈련 데이터에 대해서는 오류가 적어집니다.
· 실제 데이터에 대해서 일정 수준 이상의 복잡성은 오류를 증가시킵니다.
· 그러므로 정확한 모델을 생성하기 위해서는 복잡성을 적절한 수준으로 유지할 필요가 있습니다.
· 적절한 복잡성 수준이 넘어간 것으로 과적합으로 볼 수 있습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
붓꽃(Iris sanguinea) - Iris setosa, Iris virginica, Iris versicolor, 붓꽃 구조 (0) | 2019.10.11 |
---|---|
데이터 탐색, 데이터 탐색 방법 (0) | 2019.10.11 |
역전파 알고리즘(back-propagation Algorithm), 가중치 감소(weight decay) (0) | 2019.10.09 |
표준 편차(Standard deviation) (0) | 2019.10.08 |
자연어 (Natural Language), 자연어 처리(NLP; Natural Language Processing) (0) | 2019.09.27 |