엔트로피 지수(Entropy index)

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

엔트로피 지수(Entropy index)

·       Entropy  Measure

·       무질서도에 대한 측정 지표입니다.

·       확률 변수의 불확실성을 수치로 나타낸 것입니다.

 

·       의사결정나무에서 엔트로피 지수가 가장 작은 예측 변수와 이 때의 최적분리에 의해 자식마디를 형성합니다.

 

·       엔트로피가 0일 때, 출력은 매우 확실한 상태입니다.(CASE1/CASE2)

·       엔트로피는 출력에 대해서 아무런 정보를 갖고 있지 않을 때 (어떠한 출력값도 동등한 확률로 나옴) 최고 값을 가집니다.(CASE3)

 

 

 


 

동전 던지기의 앞/뒤 확률이 같은 경우 

클래스가 두 개인 문제에서 하나의 클래스의 발생 확률에 대한 엔트로피의 변화

 

 

CASE

확률

설명

CASE1

X=0, Y=0

뒤면만 나오는 경우

CASE2

X=1, Y=0

앞면만 나오는 경우

CASE3

X=0.5, Y=1

1/2, 1/2 어떤 면이 나올지 모르는 경우 최고값이 1 값을 가집니다.

 

 

 

 

 

엔트로피 지수 정의식

데이터세트 T k개의 범주로 분할되고 범주 비율이 p1 , ..., pk 이면 다음과 같이 정의할 수 있습니다.

 


 

T

데이터 세트

k

목표변수의 범주의

p

범주비율

 

 



 

2개의 범주가 (0.5, 0.5) 비율로 구성(T0)


 

 


 

5개의 범주가 (0.2, 0.2, 0.2, 0.2, 0.2) 비율로 구성(T1)