모형평가 - Step1: 데이터를 추출, 데이터를 추출 하는 이유, 모델 생성시 문제점, 데이터의 적정 수준 유지, 모델 복잡도에 따른 정확도 그래프

CODEDRAGON Development/Big Data, R, ...

반응형



 

Step1: 데이터를 추출

분류 분석 모형의 평가를 위해서는 먼저 전체 자료(raw data)에서 모형 구축을 위한 훈련용 데이터(training data) 모형의 성과를 검증하기 위한 검증용 데이터(test data) 추출합니다.

 

 

데이터를 추출 하는 이유

모델을 만들 데이터는 평가 목적으로 사용할 없습니다.

학습시 모델이 훈련 데이터를 전부 기억할 있으므로 훈련 데이터에 속한 어떤 데이터라도 정확히 맞출 있기 때문입니다. 이렇게 데이터를 기억한다는 것은 모델을 일반화하지 않았다는 뜻입니다(다른 말로는 새로운 데이터에 대해서는 작동하지 않는다는 것입니다).

 

 

 

모델 생성시 문제점

주어진 데이터에서만 높은 성과를 보이는 모형의 과적합화(Overfitting)문제를 해결하기 위한 단계로 잘못된 가설을 가정하게 되는 2 오류의 발생을 방지 있습니다.

주어진 데이터 전체를 사용해 모델을 만들 경우, 해당 데이터에는 동작하지만 새로운 데이터에는 좋지 않은 성능을 보이는 모델을 만들 가능성 습니. 이러한 현상이 발생하는 주요 이유 하나가 과적합 때문입니.

 

 

 

데이터의 적정 수준 유지

데이터가 무조건 많은 것도 적은 것도 좋치 않습니다.

머신러닝에서 학습 알고리즘은 적절한 수준을 유지 필요가 있습니다.

데이터를 통해 만들어진 모델이 지나치게 단순하거나 또는 지나치게 복잡하면 실제 데이터가 입력되었을 정확한 출력을 기대하기 어렵기 때문입니다.

 

 

모델을 복잡하게 수록 훈련 데이터에 대해서는 정확히 예측할 있습니다. 그러나 너무 복잡해지면 훈련 데이터의 너무 민감해져 새로운 데이터에 일반화되지 못합니다.

 

만들 모델은 일반화 성능이 최대가 되는 최적점에 있는 모델을 찾아 생성하는 것이 좋습니다.

 

<모델 복잡도에 따른 정확도 그래프>

모델의 복잡도는 다른 요인도 있지만 데이터가 많아 수록 복잡도가 증가하게 됩니다.

해당 데이터를 통해 모델의 일반화가 잘되었는지, 예측을 하는 지는 정확도로 표시할 있습니다.

과대적합과 과소적합의 절충점이 최적점이 됩니다.