CODEDRAGON ㆍDevelopment/Big Data, R, ...
과적합(overfitting)
· 과잉적합 ≒ 과최적화 ≒ 오버피팅 ≒ 과대 평가 ≒ 과학습
· 과적합에는 과대적합과 과소적합이 있지만 구분하지 않을 경우 과대적합을 과적합이라고 하기도 합니다.
· 비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다.
· 과적합은 제한된 샘플(혹은 훈련에 사용한 한정된 데이터)에 너무 특화가 되어, 새로운 샘플에 대한 예측의 결과가 오히려 나빠지거나 오차가 매우 커지거나 학습의 효과가 나타나지 않는 경우를 말합니다.
· 과거 데이터로 모델링한 결과 모델를 현재와 미래 데이터에 동일 모델로 분석했을때 결과가 안좋게 나오는것을 말합니다.
· 데이터를 분리하지 않고 전체 데이터를 모델링과 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징(Signal) 외에 데이터에 우연히 포함된 노이즈(Noise)까지 반영한 모델을 만들게 될 위험이 있으며 이를 과적합이라고 합니다.
· 가진 정보를 모두 사용해서 만들어진 모델이 지나치게 복잡하여 학습 데이터에 대해서는 올바른 결과를 출력하지만 실제 데이터가 입력되었을 때 올바른 결과를 출력하지 못하는 것을 말합니다. (학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 잘 맞지 않게 됩니다.)
· 모델이 training set에 너무 정확하게 학습되어져 test set에 대해서는 오차가 크게 발생하는 것을 말합니다.
· when test error is much higher than trainning error.
https://en.wikipedia.org/wiki/Overfitting
https://zetawiki.com/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9
'Development > Big Data, R, ...' 카테고리의 다른 글
tm_map() (0) | 2020.01.02 |
---|---|
불용어 처리(Stopword Removal) (0) | 2020.01.01 |
신경망 발전 (0) | 2020.01.01 |
다중공선성 종류 (0) | 2019.12.30 |
'연구스토리 in 하버드'…비머가 만난 하버드 의대의 한국인들 - AI와 의학을 접목하는 최첨단 연구 (0) | 2019.12.29 |