CART 이해

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

 

CART 이해

 

쇼핑몰에서는 충성고객(LC: Loyal Customer) 탈퇴고객(CC: Churn

Customer) 구분하는 규칙을 생성하고자 합니다.

 

10명의 고객을 대상으로 성별과 결혼유무 어느 변수가 분류를 잘하

변수인지 찾고, 분류규칙을 찾고자 할때 CART 사용할 있습니다.

MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다.

 

 

 

 

Step by Step

·         데이터 분포 확인

·         성별에 따른 Gini index

·         결혼유무에 따른 Gini index

·         CART 계산

 

 

 

 

 

 

데이터 분포 확인


 

 

 

 

 

성별에 따른 Gini index

 

 


 

 

Gini index

formula

G(상위)

abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095

G()

abs( 1-sqrt(5/6)-sqrt(1/6) ) =0.32111921963914

G()

abs( 1-sqrt(0/4)-sqrt(4/4) ) = 0 

G(성별)

( (6/10)x0.32 ) + ( (4/10)x0 ) = 0.192

 

 

 

 

 

 

 

결혼유무에 따른 Gini index

 

 


 

 

Gini index

formula

G(상위)

abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213562373095

G(기혼)

abs( 1-sqrt(2/5)-sqrt(3/5) ) = 0.407052201275159

G(미혼)

abs( 1-sqrt(3/5)-sqrt(2/5) ) = 0.407052201275159

G(결혼유무)

( (5/10)x0.40 ) + ( (5/10)x0.40 ) = 0.4 

 

 

 

 

 

 

CART 계산 비교