CODEDRAGON ㆍDevelopment/AI
Information theory에서 엔트로피
확률분포의 무작위성(randomness)을 설명하는 용도로 사용됩니다.
확률분포 p를 갖는 랜덤 변수 X를 표현하기 위한 최소의 비트 수를 나타냅니다.
Cross-Entropy(CE)
· ≒ Log loss
· 1997년 Rubinstein이 희소 사건의 확률을 추정하기 위한 용도로 발표 되었습니다.
· 후에 희소 사건뿐만 아니라, 일반적인 조합 최적화(combinatorial optimization)에도 적용이 가능하다는 것이 밝혀지면서 널리 쓰이게 되었습니다.
· 원래 엔트로피(Entropy)는 클라우지우스가 열역학 제2의 법칙, 즉 "열은 높은 온도에서 낮은 온도로만 흐른다"는 것을 설명하기 위해 고안된 개념이지만, 1877년 볼츠만에 의해서 확률적인 방법으로 새롭게 정의가 되었으며, 열과 관계 없는 자연 현상도 설명할 수 있게 되었습니다.
· 2개의 확률 분포의 차이를 나타내는 용도로 정의되었습니다.
· 현재는 분야를 가리지 않고 쓰이는 용어가 되었으며 (심지어는 철학에서도), 자연의 변화의 방향을 가리킬 때 사용됩니다.
https://en.wikipedia.org/wiki/Cross_entropy
두개의 확률 분포가 얼마나 가까운지 혹은 먼지를 나타내며,
2개의 확률 분포 p와 m에 대한 CE는 아래와 같이 나타낸다.
p와 m이 같다면, Entropy와 식이 같아진다는 것을 알 수가 있습니다. 즉, 차이가 클수록↑ 큰 값이 나오고, 두개가 같아질 때 최소값이 나오게 됩니다.
위 수식을 잘 생각을 해보면,
cost function처럼 기대값과 실제 연산값의 차가 클수록 큰 결과가 나오고, 항상 양이기 때문에 cost function으로 사용이 가능함을 알 수 있습니다.
Cross-entropy의 간단한 예
랜덤 변수 X의 실제 분포가 p이고, 이것을 m1과 m2로 추정한 경우라고 하면, 어느 것이 더 좋은 추정일까?
|
A |
B |
C |
D |
p |
0.4 |
0.1 |
0.25 |
0.25 |
m1 |
0.25 |
0.25 |
0.25 |
0.25 |
m2 |
0.4 |
0.1 |
0.1 |
0.4 |
Cross-entropy를 구하여 수치적 관점에서만 살펴보면
그럼, Entropy H(p) = 1.86이고, Cross-entropy H(p, m1) = 2이고, H(p, m2) = 2.02입니다.
결과만 놓고 본다면, m1이 좀 더 좋은 추정이 됩니다.
'Development > AI' 카테고리의 다른 글
과적합 방지 방법 (cross validation) (0) | 2019.10.21 |
---|---|
Bias & Variance (0) | 2019.10.19 |
초음파 광물 데이터 (0) | 2019.10.17 |
평균 제곱 오차(MSE; Mean Squared Error) (0) | 2019.10.16 |
교사 학습 방법 (0) | 2019.10.16 |