imbalanced data

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

imbalanced data

·         imbalanced data 측정항목이 동일한 크기의 dataset 가지지 못한 의미합니다. (total)

·         A 220개인데 B, C, D 10개밖의 input 가지고 있어 모두 동일한 크기의 dataset 가지고 있지 못합니다. 경우가 imbalanced data 됩니다.

 

 

MODEL 1

Predictions

output

output

output

output

Predict data

Actual class

 

A

B

C

D

total

input

A

110

80

10

20

220

input

B

3

9

0

2

10

input

C

0

1

8

1

10

input

D

0

1

0

9

10

Actual data

total

113

91

18

32

250

 

 

 

MODEL 2

Predictions

output

output

output

output

Predict data

Actual class

 

A

B

C

D

total

input

A

217

2

0

1

220

input

B

7

1

0

2

10

input

C

7

1

1

1

10

input

D

2

4

3

1

10

Actual data

total

233

8

4

5

250

 

 

 

Accuracy Comparison

구분

Accuracy 계산식

MODEL 1 Accuracy

(110+9+8+9)/250=0.544

MODEL 2 Accuracy

(217+1+1+1)/250=0.88

 

 

 

Result

MODEL1 0.544 < MODEL2 0.88

Accuracy 생성된 모델을 판단하면 MODEL2 MODEL1보다 Accuracy 커서 좋은 모델이라고 판단할 있어 MODEL2 채택하게 됩니다.

하지만 A, B, C, D 전체의 예측률을 보면 MODEL1 전반적으로 맞추고 있어 MODEL1 MODEL2보다 좋아 MODEL1 선택하는 것이 좋습니다.

imbalanced data에서 사용할 있는 F1 core 지표를 확인해야 합니다.

 

 

MODEL1

MODEL2

Accuracy

0.544

0.88

A

110

217

B

9

1

C

8

1

D

9

1

 

 

 

MODEL1

MODEL2

Accuracy

0.544

0.88

A

110

217

B

9

1

C

8

1

D

9

1