과적합 도식도
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
과적합 도식도
· 검은색 직선으로 표현된 Model 1은 단순한 직선으로 데이터의 (X, Y)의 관계를 표현한 모델입니다. 반면 녹색선으로 표현한 Model 2는 높은 차수의 다항식으로 데이터를 모델링한 것입니다. 단순히 주어진 데이터에 대한 정확도로만 따지면 Model 1이 Model 2에 비해 정확하지 않습니다.
· 데이터의 분포를 보면 복잡한 곡선으로부터 나온 데이터가 아니라 단순 선형 관계로부터 나온 데이터일 가능성이 높아 보입니다. 즉, Model 1이 Model 2에 비해 좀 더 일반적인 모델일 가능성이 있고, 따라서 새로운 점이 위치할 만한 좌표를 더 잘 표현하는 모델일 수 있습니다.
· 반면 모델 2는 데이터를 관찰하면서 끼어든 노이즈(Noise)를 모델에 반영하여 관찰 데이터 자체는 충실히 표현하지만 데이터에 내제된 일반적인 구조를 표현하는 데는 실패했습니다.
· 이러한 가정들이 참이라고 할 때 Model 2에는 과적합이 발생했다고 말합니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
아프리오리(Apriori) 알고리즘 동작원리 (0) | 2019.10.25 |
---|---|
XOR(exclusive OR) 문제 및 해결 (0) | 2019.10.24 |
과적합 방지 방법 (cross validation) (0) | 2019.10.21 |
Bias & Variance (0) | 2019.10.19 |
Cross-Entropy(CE) (0) | 2019.10.18 |