CODEDRAGON ㆍDevelopment/Big Data, R, ...
엔트로피 지수(Entropy index)
· ≒ Entropy Measure
· 무질서도에 대한 측정 지표입니다.
· 확률 변수의 불확실성을 수치로 나타낸 것입니다.
· 의사결정나무에서 엔트로피 지수가 가장 작은 예측 변수와 이 때의 최적분리에 의해 자식마디를 형성합니다.
· 엔트로피가 0일 때, 출력은 매우 확실한 상태입니다.(CASE1/CASE2)
· 엔트로피는 출력에 대해서 아무런 정보를 갖고 있지 않을 때 (어떠한 출력값도 동등한 확률로 나옴) 최고 값을 가집니다.(CASE3)
동전 던지기의 앞/뒤 확률이 같은 경우
클래스가 두 개인 문제에서 하나의 클래스의 발생 확률에 대한 엔트로피의 변화
CASE |
확률 |
설명 |
CASE1 |
X=0, Y=0 |
뒤면만 나오는 경우 |
CASE2 |
X=1, Y=0 |
앞면만 나오는 경우 |
CASE3 |
X=0.5, Y=1 |
앞 1/2, 뒤1/2로 어떤 면이 나올지 모르는 경우 최고값이 1의 값을 가집니다. |
엔트로피 지수 정의식
데이터세트 T가 k개의 범주로 분할되고 범주 비율이 p1 , ..., pk 이면 다음과 같이 정의할 수 있습니다.
T |
데이터 세트 |
k |
목표변수의 범주의 수 |
p |
범주비율 |
2개의 범주가 (0.5, 0.5) 비율로 구성(T0)
5개의 범주가 (0.2, 0.2, 0.2, 0.2, 0.2) 비율로 구성(T1)
'Development > Big Data, R, ...' 카테고리의 다른 글
rstudio::global 2021 - 이번년도 온라인 무료 (0) | 2021.01.15 |
---|---|
불확실성 측정지표(Uncertainty measure) (0) | 2020.12.29 |
k평균 클러스터링 특징 (0) | 2020.12.14 |
머신러닝 사례(기계학습 활용) (0) | 2020.12.04 |
lines() (0) | 2020.12.04 |