달력

12

« 2019/12 »

  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  


 

과적합(overfitting)

·         과잉적합 과최적화 오버피팅 과대 평가 과학습

·         과적합에는 과대적합과 과소적합이 있지만 구분하지 않을 경우 과대적합을 과적합이라고 하기도 합니다.

·         비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다.

·         , 제한된 샘플(혹은 훈련에 사용한 한정된 데이터) 너무 특화가 되어, 새로운 샘플에 대한 예측의 결과가 오히려 나빠지거나 학습의 효과가 나타나지 않는 경우를 말한다.

·         과거 데이터로 모델링한 결과 모델를 현재와 미래 데이터에 동일 모델로 분석했을때 결과가 안좋게 나오는것을 말합니다.

 

 

·         데이터를 분리하지 않고 전체 데이터를 모델링과 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징(Signal) 외에 데이터에 우연히 포함된 노이즈(Noise)까지 반영한 모델을 만들게 위험이 있으며  이를 과적합이라고 합니다.

·         가진 정보를 모두 사용해서 만들어진 모델이 지나치게 복잡하여 학습 데이터에 대해서는 올바른 결과를 출력하지만 실제 데이터가 입력되었을 올바른 결과를 출력하지 못하는 것을 말합니다. (학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 맞지 않게 됩니다.)

·         모델이 training set 너무 정확하게 학습되어져 test set 대해서는 오차가 크게 발생하는 것을 말합니다.

·         when test error is much higher than trainning error.

 

·         과적합이면 너무 복잡한 모델을 만들어서 데이터를 일반화하기 어렵습니다.

·         통계모델이 다른 상황에 일반화되지 못하는 것을 의미합니다.

·         통계모델이 과도하게 샘플데이터 맞춤형으로 만들어져 오히려 현실과 맞지 않게 되므로 과적합된 모델은 예측력이 떨어지므로 반드시 주의해야 합니다.

 

·         모델이 실제 변수간의 관계보다는 과거 학습 데이터(Training data) 노이즈를 설명하게 되는 경우를 표현합니다.

·         모델이 과거의 데이터, 학습된 데이터를 너무 과하게 설명한 나머지 실제 변수 간의 관계를 나타낼 오류를 발생하게 됩니다.

·         학습되지 않은 데이터(추정치) 대해서는 올바른 설명(예측) 주지 못합니다.

 

 

 

https://en.wikipedia.org/wiki/Overfitting

https://zetawiki.com/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9

 

 

'Development > Big Data, R, ...' 카테고리의 다른 글

정분류율 & 오분류율  (0) 2019.11.10
일반 분류기 vs 컨볼루션 신경망  (0) 2019.11.10
과적합(overfitting)  (0) 2019.11.09
Jitter(지터)  (0) 2019.11.09
Bayesian networks, 베이즈 네트워크  (0) 2019.11.08
열 벡터(column vector)  (0) 2019.11.07
Posted by codedragon codedragon

댓글을 달아 주세요