2020/01/04(5)
-
NaN (not a number)
NaN· NumPy에서는 정의할 수 없는 숫자를 표현하기 위한 np.nan(not a number)함수를 제공합니다.· 0을 0으로 나누는 경우 np.nan이 됩니다.
-
2.Summary - 2-텍스트 데이터 분석 수행방법 계획하기
텍스트 분석 절차 6단계 텍스트 분석을 위한 전체적인 절차 https://codedragon.tistory.com/9971
-
CART 이해
CART 이해 쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn Customer)을 구분하는 규칙을 생성하고자 합니다. 총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다. Step by Step· 데이터 분포 확인· 성별에 따른 Gini index· 결혼유무에 따른 Gini index· CART 계산 데이터 분포 확인 성별에 따른 Gini index Gini index formula G(상위) abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213..
-
과적합(overfitting) 예시
과적합(overfitting) 과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터)에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 경우를 말합니다. https://codedragon.tistory.com/8362 과적합 예시 (a)와 같은 훈련 데이터가 존재한다고 가정하겠습니다. (b)와 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 클 수 있음을 알 수 있습니다. 반면, (d)의 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 이 같은 경우, 새로운 데이터가 주어지는 경우는 오차가 커질 확률이 높습니다↑. (과적합) (c)를 (b)와 (d)의 경우와 비교해보았을 때, 비록 ..
-
질문시 읽어주세요, 댓글 관리
꼼꼼히 댓글을 확인하면서 질문에대한 해결에 도움이 될 수 있도록 답글을 달면서 운영하고 있습니다. 그런데, 댓글로인해 기분과 의지가 다운되는 상태가 지속되어서 (멘탈이 말랑말랑해서 ㅠㅠ;;) 언제까지가 될지는 모르지만 당분간 댓글 확인을 하지 않겠습니다. 많이 응원해주시면 빠르게 돌아오도록 하겠습니다. I'll be back……………………………………………………………… one day. 유튜브스튜디오의 "채널 댓글" 의 "내가 응답하지 않은 댓글"에 올라온 순서대로 답변드립니다. 영상의 수가 많아지면서 질문의 수도 많아졌고 계속 증가하고 있습니다. 댓글 확인과 답변에 많은 시간이 들어가고 있습니다. 질문할 때 아래의 내용을 따라주시면 제가 답변드리는데 많은 도움이 될 것 같습니다. 구독과 좋아요는 자주 체크..