CODEDRAGON ㆍDevelopment/AI
모형을 평가하는 지표
· 지표1 - 정분류율, 오분류율
· 지표2 - 민감도, 특이도
· 지표3 - 정확도, 재현율
· 지표4 - F1지표, Fβ지표
오분류표를 활용하여 모형을 평가하는 지표1
· 정분류율(Accuracy, recognitionrate)
· 오분류율(Error rate, misclassification rate)
정분류율(Accuracy, recognitionrate)
전체 관측치중 실제값과 예측치가 일치한 정도를 나타냅니다.
정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표입니다.
오분류율(Error rate, misclassification rate)
모형이 제대로 예측하지 못한 관측치를 평가하는 지표입니다.
오분류율은 전체 관측치 중 실제값과 예측치가 다른 정도를 나타내며 1-accuracy또는 다음과 같은 식으로 평가됩니다.
오분류표를 활용하여 모형을 평가하는 지표2
대부분의 분류 분석 대상은 소수집단에 대한 예측 실패의 비용이 다수 집단에 대한 예측 실패의 비용보다 큽니다.
예를 들어 암환자 분류 모형의 경우 암환자는 소수 집단인데 반해 이를 잘못 예측했을 경우의 비용이 다수 집단인 건강한 환자를 잘못 예측한 경우보다 훨씬 크게 됩니다. 따라서 이러한 범주 불균형 문제(Class imbalance problem)를 가지고 있는 데이터에 대한 분류 분석 모형의 평가지표는 중요한 분류 범주만을 다루어야 합니다. 이를 위하여 사용되는 평가지표는 민감도(Sensitivity)와 특이도(Specificity)가 있습니다.
· 민감도(Sensitivity)
· 특이도(Specificity)
민감도(Sensitivity)
실제값이 True인 관측치 중 예측치가 적중한 정도를 나타냅니다.
특이도(Specificity)
실제값이 False인 관측치 중 예측치가 적중한 정도를 나타냅니다.
오분류표를 활용하여 모형을 평가하는 지표3
· 정확도(Precision)
· 재현율(Recall)
정확도(Precision)
True로 예측한 관측치 중 실제값이 True인 정도를 나타내는 정확성(Exactness)지표입니다.
재현율(Recall)
실제값이 True인 관측치 중 예측치가 적중한 정도를 나타내는 민감도(Sensitivity)와 동일한 지표로 모형의 완전성(Completeness)를 평가하는 지표입니다.
오분류표를 활용하여 모형을 평가하는 지표4
정확도와 재현율은 모형의 평가에 대표적으로 사용되는 지표이긴 하지만 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있습니다.
암환자의 분류 분석 모형에서 대부분의 사람은 암환자로 예측하였다고 가정하면 높은 정확도를 가지게 되지만 재현율은 현저히 낮은 값을 보이게 됩니다. 이러한 효과를 보정하여 하나의 지표로 나타낸 것이 F1지표(F1 score)와 Fβ지표입니다.
· F1지표(F1 score)
· Fβ지표
F1지표(F1 score)
정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균하게 됩니다.
Fβ지표
Fβ지표에서 β는 양수로 β의 값만큼 재현율에 가중치를 주어 평균하게 됩니다.
ex |
의미 |
F2 |
재현율에 정확도의 2배만큼 가중치를 부여합니다. |
F0.5 |
재현율에 정확도의 0.5배만큼 가중치를 부여합니다. |
'Development > AI' 카테고리의 다른 글
EM 알고리즘의 적용과정 (0) | 2018.03.07 |
---|---|
Error: $ operator is invalid for atomic vectors - 해결방법 (0) | 2018.03.06 |
에러: inherits(doc, "TextDocument") is not TRUE (0) | 2018.03.05 |
금융공학 V: Introduction to financial Engineering with R (0) | 2018.03.05 |
오차 (Error) vs 잔차 (Residual) (0) | 2018.03.04 |