전체 글(14830)
-
3.Summary - 3. 빅데이터 모델 평가 검증하기
과적합(overfitting)· 과적합은 제한된 샘플(혹은 훈련에 사용한 한정된 데이터)에 너무 특화가 되어, 새로운 샘플에 대한 예측의 결과가 오히려 나빠지거나 오차가 매우 커지거나 학습의 효과가 나타나지 않는 경우를 말합니다.· 비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다. https://codedragon.tistory.com/8362https://codedragon.tistory.com/8416https://codedragon.tistory.com/10000https://codedragon.tistory.com/9763https://codedragon.tistory.com/9456
-
K-평균 클러스터링 절차
K-평균 클러스터링 절차 K-평균 클러스터링의 알고리즘의 수행 절차입니다.
-
1.Summary - 1. 가설 설정하기
가설 검정 방법 일반적으로 가설검정 방법은 대립가설의 형태에 따라서 양측검정과 단측검정이 있습니다. 양측검정(two-tailed testing) 단측검정(one-tailed testing) https://codedragon.tistory.com/10016 https://codedragon.tistory.com/10012 가설검정의 단계
-
NaN (not a number)
NaN· NumPy에서는 정의할 수 없는 숫자를 표현하기 위한 np.nan(not a number)함수를 제공합니다.· 0을 0으로 나누는 경우 np.nan이 됩니다.
-
2.Summary - 2-텍스트 데이터 분석 수행방법 계획하기
텍스트 분석 절차 6단계 텍스트 분석을 위한 전체적인 절차 https://codedragon.tistory.com/9971
-
CART 이해
CART 이해 쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn Customer)을 구분하는 규칙을 생성하고자 합니다. 총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다. Step by Step· 데이터 분포 확인· 성별에 따른 Gini index· 결혼유무에 따른 Gini index· CART 계산 데이터 분포 확인 성별에 따른 Gini index Gini index formula G(상위) abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213..