달력

1

« 2020/1 »

  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  




 

NaN

·       NumPy에서는 정의할 수 없는 숫자를 표현하기 위한 np.nan(not a number)함수를 제공합니다.

·       0 0으로 나누는 경우 np.nan이 됩니다.

 

 



'Development > Python' 카테고리의 다른 글

newaxis  (0) 2020.01.06
enumerate()  (0) 2020.01.05
NaN (not a number)  (0) 2020.01.04
Graphviz  (0) 2020.01.03
reshape(), -1  (0) 2020.01.03
벡터 연산(Vectorized Computation)  (0) 2020.01.03
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

 

텍스트 분석 절차 6단계

텍스트 분석을 위한 전체적인 절차

 


 

https://codedragon.tistory.com/9971

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

CART 이해

 

쇼핑몰에서는 충성고객(LC: Loyal Customer) 탈퇴고객(CC: Churn

Customer) 구분하는 규칙을 생성하고자 합니다.

 

10명의 고객을 대상으로 성별과 결혼유무 어느 변수가 분류를 잘하

변수인지 찾고, 분류규칙을 찾고자 할때 CART 사용할 있습니다.

MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다.

 

 

 

 

Step by Step

·         데이터 분포 확인

·         성별에 따른 Gini index

·         결혼유무에 따른 Gini index

·         CART 계산

 

 

 

 

 

 

데이터 분포 확인


 

 

 

 

 

성별에 따른 Gini index

 

 


 

 

Gini index

formula

G(상위)

abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095

G()

abs( 1-sqrt(5/6)-sqrt(1/6) ) =0.32111921963914

G()

abs( 1-sqrt(0/4)-sqrt(4/4) ) = 0 

G(성별)

( (6/10)x0.32 ) + ( (4/10)x0 ) = 0.192

 

 

 

 

 

 

 

결혼유무에 따른 Gini index

 

 


 

 

Gini index

formula

G(상위)

abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095

G(기혼)

abs( 1-sqrt(2/5)-sqrt(3/5) ) = 0.407052201275159

G(미혼)

abs( 1-sqrt(3/5)-sqrt(2/5) ) = 0.407052201275159

G(결혼유무)

( (5/10)x0.40 ) + ( (5/10)x0.40 ) = 0.4 

 

 

 

 

 

 

CART 계산 비교

 




Posted by codedragon codedragon

댓글을 달아 주세요



 

 

과적합(overfitting)

과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터) 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 우를 말합니다.

 

https://codedragon.tistory.com/8362

 

 

 

 

 

과적합 예시


 

 

(a) 같은 훈련 데이터가 존재한다고 가정하겠습니다.

 

(b) 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 있음을 있습니다.

 

반면, (d) 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 같은 경우, 새로운 데이터 주어지는 경우는 오차가 커질 확률이 높습니다. (과적합)

 

(c) (b) (d) 경우와 비교해보았을 , 비록 약간의 오차가 존재하지만 예측모델이 훈련 데이터 세트 상의 데이터에 대한 특성 나타내고 있으며 새로운 데이터에 대해서도 좋은 결과가 나올 가능성이 높음 있습다.

 

 

 

빅데이터 분석모델을 구축하면서 과적합의 문제는 항시 존재한다고 있으나 이를 해결하는 방법 또한 마땅치 않은 것이 현실입니다. 이는 분석모델을 만드는 사용되는 훈련 데이터 세트는 실제 데이터의 부분집합이며, 훈련 데이터 세트만을 가지고 실제 데이터의 오차가 증가하는 지점을 정확히 예측하는 또한 불가능하기 때문입니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

The Official Raspberry Pi Projects Book VOLUME 1

 

http://bit.ly/363jBGz



Projects_Book_v1.z01

Projects_Book_v1.z03

Projects_Book_v1.zip

Projects_Book_v1.z02


 

 


Posted by codedragon codedragon

댓글을 달아 주세요