과적합 판단

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

과적합 판단

특정케이스가 아닌 일반적인(general) 결과가 나오도록 해야 합니다.

 

·         모델 비교

·         모델의 복잡성에 따른 오류 발생 빈도

 

 

모델 비교

검정색 점들이 있을 , 점들을 대표하는 곡선을 추정하는 경우 동일한 학습 데이터로 학습된 3개의 모델 비교 보겠습니다.

 

구분

설명

Model A

·         너무 단순화된 모델

·         처리 속도 빠름

·         직선으로 단순하게 추정을 하는 경우로 얼핏 보기에도 오류가 많음을 있습니다.

Model B

·         실제와 가장 유사한 모델

·         주어진 점들의 특성을 나타내고 있습니다.

·         정확성이 높음

·         약간의 오차는 있지만 새로운 샘플들이 들어올 때는 좋은 결과가 나올 수도 있습니다.

Model C

·         복잡성이 너무 높은 과접합된 모델

·         모든 점들을 그대로 살려 오차가 없이 추정을 하는 경우입니다.

·         모든 점을 연결한 모델이 만들어 지면 새로운 데이터 들어왔을 다시 모든 점을 연결한 모델을 만들게 되어 복잡성이 높아지게 됩니다.

·         주어진 샘플(훈련 데이터) 대해서는 최적의 결과를 나타낼 있지만, 새로운 샘플이 주어지는 경우는 엉터리 결과가 나올 수도 있습니다.

 


 

 

 

 

 

모델의 복잡성에 따른 오류 발생 빈도

·         모델의 복잡성이 높을수록 훈련 데이터에 대해서는 오류가 적어집니다.

·         실제 데이터에 대해서 일정 수준 이상의 복잡성은 오류를 증가시킵니다.

·         그러므로 정확한 모델을 생성하기 위해서는 복잡성을 적절한 수준으로 유지할 필요가 있습니다.

·         적절한 복잡성 수준이 넘어간 것으로 과적합으로 있습니다.