Cross-Entropy(CE)

Cross-Entropy(CE)

CODEDRAGON ㆍDevelopment/AI

Information theory에서 엔트로피

확률분포의 무작위성(randomness)을 설명하는 용도로 사용됩니다.

확률분포 p를 갖는 랜덤 변수 X를 표현하기 위한 최소의 비트 수를 나타냅니다.

Cross-Entropy(CE)

· ≒ Log loss

· 1997년 Rubinstein이 희소 사건의 확률을 추정하기 위한 용도로 발표 되었습니다.

· 후에 희소 사건뿐만 아니라, 일반적인 조합 최적화(combinatorial optimization)에도 적용이 가능하다는 것이 밝혀지면서 널리 쓰이게 되었습니다.

· 원래 엔트로피(Entropy)는 클라우지우스가 열역학 제2의 법칙, 즉 "열은 높은 온도에서 낮은 온도로만 흐른다"는 것을 설명하기 위해 고안된 개념이지만, 1877년 볼츠만에 의해서 확률적인 방법으로 새롭게 정의가 되었으며, 열과 관계 없는 자연 현상도 설명할 수 있게 되었습니다.

· 2개의 확률 분포의 차이를 나타내는 용도로 정의되었습니다.

· 현재는 분야를 가리지 않고 쓰이는 용어가 되었으며 (심지어는 철학에서도), 자연의 변화의 방향을 가리킬 때 사용됩니다.

https://en.wikipedia.org/wiki/Cross_entropy

두개의 확률 분포가 얼마나 가까운지 혹은 먼지를 나타내며,

2개의 확률 분포 p와 m에 대한 CE는 아래와 같이 나타낸다.

p와 m이 같다면, Entropy와 식이 같아진다는 것을 알 수가 있습니다. 즉, 차이가 클수록↑ 큰 값이 나오고, 두개가 같아질 때 최소값이 나오게 됩니다.

위 수식을 잘 생각을 해보면,

cost function처럼 기대값과 실제 연산값의 차가 클수록 큰 결과가 나오고, 항상 양이기 때문에 cost function으로 사용이 가능함을 알 수 있습니다.

Cross-entropy의 간단한 예

랜덤 변수 X의 실제 분포가 p이고, 이것을 m1과 m2로 추정한 경우라고 하면, 어느 것이 더 좋은 추정일까?

	A	B	C	D
p	0.4	0.1	0.25	0.25
m1	0.25	0.25	0.25	0.25
m2	0.4	0.1	0.1	0.4

Cross-entropy를 구하여 수치적 관점에서만 살펴보면

그럼, Entropy H(p) = 1.86이고, Cross-entropy H(p, m1) = 2이고, H(p, m2) = 2.02입니다.

결과만 놓고 본다면, m1이 좀 더 좋은 추정이 됩니다.

저작자표시 비영리 (새창열림)

'Development > AI' 카테고리의 다른 글

과적합 방지 방법 (cross validation) (0)	2019.10.21
Bias & Variance (0)	2019.10.19
초음파 광물 데이터 (0)	2019.10.17
평균 제곱 오차(MSE; Mean Squared Error) (0)	2019.10.16
교사 학습 방법 (0)	2019.10.16

CodeDragon

CodeDragon

태그

최근글

댓글

공지사항

아카이브

'Development > AI' 카테고리의 다른 글

관련글

티스토리툴바