Cross-Entropy(CE)

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

Information theory에서 엔트로피

확률분포의 무작위성(randomness) 설명하는 용도로 사용됩니다.

확률분포 p 갖는 랜덤 변수 X 표현하기 위한 최소의 비트 수를 나타냅니다.

 


 


 

 

 

 

Cross-Entropy(CE)

·         Log loss

·         1997 Rubinstein 희소 사건의 확률을 추정하기 위한 용도로 발표 되었습니다.

·         후에 희소 사건뿐만 아니라, 일반적인 조합 최적화(combinatorial optimization)에도 적용이 가능하다는 것이 밝혀지면서 널리 쓰이게 되었습니다.

 

·         원래 엔트로피(Entropy) 클라우지우스가 열역학 2 법칙, "열은 높은 온도에서 낮은 온도로만 흐른다" 것을 설명하기 위해 고안된 개념이지만, 1877 볼츠만에 의해서 확률적인 방법으로 새롭게 정의가 되었으며, 열과 관계 없는 자연 현상도 설명할 있게 되었습니다.

 

·         2개의 확률 분포의 차이 나타내는 용도로 정의되었습니다.

 

 

 

·         현재는 분야를 가리지 않고 쓰이는 용어가 되었으며 (심지어는 철학에서도), 자연의 변화의 방향을 가리킬 사용됩니다.

 

 

https://en.wikipedia.org/wiki/Cross_entropy

 

 

 

두개의 확률 분포가 얼마나 가까운지 혹은 먼지를 나타내며,

2개의 확률 분포 p m 대한 CE 아래와 같이 나타낸다.

 

 

 


 

 

p m 같다면, Entropy 식이 같아진다는 것을 수가 있습니다. , 차이가 클수록 값이 나오고, 두개가 같아질 최소값이 나오게 됩니다.

 

수식을 생각을 해보면,

cost function처럼 기대값과 실제 연산값의 차가 클수록 결과가 나오고, 항상 이기 때문에 cost function으로 사용이 가능함을 있습니다.

 

 

 

 

 

 

Cross-entropy 간단한

랜덤 변수 X 실제 분포가 p이고, 이것을 m1 m2 추정한 경우라고 하면, 어느 것이 좋은 추정일까?

 

A

B

C

D

p

0.4

0.1

0.25

0.25

m1

0.25

0.25

0.25

0.25

m2

0.4

0.1

0.1

0.4

 

Cross-entropy 구하여 수치적 관점에서만 살펴보면

그럼, Entropy H(p) = 1.86이고, Cross-entropy H(p, m1) = 2이고, H(p, m2) = 2.02입니다.

결과만 놓고 본다면, m1 좋은 추정이 됩니다.

 

 

 


반응형

'Development > Big Data, R, ...' 카테고리의 다른 글

과적합 방지 방법 (cross validation)  (0) 2019.10.21
Bias & Variance  (0) 2019.10.19
초음파 광물 데이터  (0) 2019.10.17
평균 제곱 오차(MSE; Mean Squared Error)  (0) 2019.10.16
교사 학습 방법  (0) 2019.10.16