달력

10

« 2019/10 »

'2019/10/18'에 해당되는 글 2

  1. Cross-Entropy(CE)
  2. 아이리스 데이터(iris dataset)



 

 

Information theory에서 엔트로피

확률분포의 무작위성(randomness) 설명하는 용도로 사용됩니다.

확률분포 p 갖는 랜덤 변수 X 표현하기 위한 최소의 비트 수를 나타냅니다.

 


 


 

 

 

 

Cross-Entropy(CE)

·         Log loss

·         1997 Rubinstein 희소 사건의 확률을 추정하기 위한 용도로 발표 되었습니다.

·         후에 희소 사건뿐만 아니라, 일반적인 조합 최적화(combinatorial optimization)에도 적용이 가능하다는 것이 밝혀지면서 널리 쓰이게 되었습니다.

 

·         원래 엔트로피(Entropy) 클라우지우스가 열역학 2 법칙, "열은 높은 온도에서 낮은 온도로만 흐른다" 것을 설명하기 위해 고안된 개념이지만, 1877 볼츠만에 의해서 확률적인 방법으로 새롭게 정의가 되었으며, 열과 관계 없는 자연 현상도 설명할 있게 되었습니다.

 

·         2개의 확률 분포의 차이 나타내는 용도로 정의되었습니다.

 

 

 

·         현재는 분야를 가리지 않고 쓰이는 용어가 되었으며 (심지어는 철학에서도), 자연의 변화의 방향을 가리킬 사용됩니다.

 

 

https://en.wikipedia.org/wiki/Cross_entropy

 

 

 

두개의 확률 분포가 얼마나 가까운지 혹은 먼지를 나타내며,

2개의 확률 분포 p m 대한 CE 아래와 같이 나타낸다.

 

 

 


 

 

p m 같다면, Entropy 식이 같아진다는 것을 수가 있습니다. , 차이가 클수록 값이 나오고, 두개가 같아질 최소값이 나오게 됩니다.

 

수식을 생각을 해보면,

cost function처럼 기대값과 실제 연산값의 차가 클수록 결과가 나오고, 항상 이기 때문에 cost function으로 사용이 가능함을 있습니다.

 

 

 

 

 

 

Cross-entropy 간단한

랜덤 변수 X 실제 분포가 p이고, 이것을 m1 m2 추정한 경우라고 하면, 어느 것이 좋은 추정일까?

 

A

B

C

D

p

0.4

0.1

0.25

0.25

m1

0.25

0.25

0.25

0.25

m2

0.4

0.1

0.1

0.4

 

Cross-entropy 구하여 수치적 관점에서만 살펴보면

그럼, Entropy H(p) = 1.86이고, Cross-entropy H(p, m1) = 2이고, H(p, m2) = 2.02입니다.

결과만 놓고 본다면, m1 좋은 추정이 됩니다.

 

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

과적합 방지 방법 (cross validation)  (0) 2019.10.21
Bias & Variance  (0) 2019.10.19
Cross-Entropy(CE)  (0) 2019.10.18
초음파 광물 데이터  (0) 2019.10.17
평균 제곱 오차(MSE; Mean Squared Error)  (0) 2019.10.16
교사 학습 방법  (0) 2019.10.16
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

아이리스 데이터(iris dataset)

·         아이리스 품종 예측 데이터

·         150ro 샘플과 4개의 속성과 하나의 클래스로 구성되어있습니다.

·         https://codedragon.tistory.com/4970

 

 

https://archive.ics.uci.edu/ml/datasets/Iris


 

 

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/


 

 

 

index

attribute

1

sepal length in cm

꽃받침 길이

2

sepal width in cm

꽃받침 넓이

3

petal length in cm

꽃잎 길이

4

petal width in cm

꽃잎 넓이

5

class

Iris Setosa, Iris Versicolour, Iris Virginica

 

 

 

 

 












직접 다운로드

iris.csv



bezdekIris.data

iris.data

iris.names

 

 

Posted by codedragon codedragon

댓글을 달아 주세요