CODEDRAGON ㆍDevelopment/Big Data, R, ...
imbalanced data
· imbalanced data는 각 측정항목이 동일한 크기의 dataset을 가지지 못한 것을 의미합니다. (total)
· A는 220개인데 B, C, D는 10개밖의 input을 가지고 있어 모두 동일한 크기의 dataset을 가지고 있지 못합니다. 이 경우가 imbalanced data가 됩니다.
MODEL 1 |
Predictions |
output |
output |
output |
output |
Predict data |
Actual class |
|
A |
B |
C |
D |
total |
input |
A |
110 |
80 |
10 |
20 |
220 |
input |
B |
3 |
9 |
0 |
2 |
10 |
input |
C |
0 |
1 |
8 |
1 |
10 |
input |
D |
0 |
1 |
0 |
9 |
10 |
Actual data |
total |
113 |
91 |
18 |
32 |
250 |
MODEL 2 |
Predictions |
output |
output |
output |
output |
Predict data |
Actual class |
|
A |
B |
C |
D |
total |
input |
A |
217 |
2 |
0 |
1 |
220 |
input |
B |
7 |
1 |
0 |
2 |
10 |
input |
C |
7 |
1 |
1 |
1 |
10 |
input |
D |
2 |
4 |
3 |
1 |
10 |
Actual data |
total |
233 |
8 |
4 |
5 |
250 |
Accuracy Comparison
구분 |
Accuracy 계산식 |
MODEL 1 Accuracy |
(110+9+8+9)/250=0.544 |
MODEL 2 Accuracy |
(217+1+1+1)/250=0.88 |
Result
MODEL1 0.544 < MODEL2 0.88
Accuracy로 생성된 모델을 판단하면 MODEL2가 MODEL1보다 Accuracy가 더 커서 더 좋은 모델이라고 판단할 수 있어 MODEL2를 채택하게 됩니다.
하지만 A, B, C, D 전체의 예측률을 보면 MODEL1이 전반적으로 잘 맞추고 있어 MODEL1이 MODEL2보다 더 좋아 MODEL1 를 선택하는 것이 좋습니다.
imbalanced data에서 사용할 수 있는 F1 core 지표를 확인해야 합니다.
|
MODEL1 |
MODEL2 |
Accuracy |
0.544 |
0.88 |
A |
110 |
217 |
B |
9 |
1 |
C |
8 |
1 |
D |
9 |
1 |
|
MODEL1 |
MODEL2 |
Accuracy |
0.544 |
0.88 |
A |
110 |
217 |
B |
9 |
1 |
C |
8 |
1 |
D |
9 |
1 |
'Development > Big Data, R, ...' 카테고리의 다른 글
SMOTE(Synthetic Minority Oversampling Technique), SMOTE 수행 단계 (0) | 2019.12.20 |
---|---|
1.Summary - 1.저장모델 설계하기 (0) | 2019.12.19 |
2.Summary - 2.빅데이터 분석시스템 구성하기 (0) | 2019.12.17 |
공공 인공지능 오픈 API·DATA 서비스 포털 (0) | 2019.12.17 |
SC-FEGAN (0) | 2019.12.16 |