Development(7985)
-
CART 이해
CART 이해 쇼핑몰에서는 충성고객(LC: Loyal Customer)와 탈퇴고객(CC: Churn Customer)을 구분하는 규칙을 생성하고자 합니다. 총 10명의 고객을 대상으로 성별과 결혼유무 중 어느 변수가 더 분류를 잘하는 변수인지 찾고, 분류규칙을 찾고자 할때 CART를 사용할 수 있습니다.두 MODEL1, MODEL 2중에 좋은 분류규칙을 찾은 것을 CART통해 좋은 성능을 내는 모델을 찾아냅니다. Step by Step· 데이터 분포 확인· 성별에 따른 Gini index· 결혼유무에 따른 Gini index· CART 계산 데이터 분포 확인 성별에 따른 Gini index Gini index formula G(상위) abs( 1-sqrt(5/10)-sqrt(5/10) )=0.414213..
-
과적합(overfitting) 예시
과적합(overfitting) 과적합이란 제한된 훈련 데이터 세트(모델 훈련에 사용한 한정된 데이터)에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 경우를 말합니다. https://codedragon.tistory.com/8362 과적합 예시 (a)와 같은 훈련 데이터가 존재한다고 가정하겠습니다. (b)와 같이 단순히 직선으로 추정하는 경우는 훈련 데이터뿐만 아니라 실제 데이터에서도 오차가 클 수 있음을 알 수 있습니다. 반면, (d)의 경우를 살펴보면 예측모델 함수가 훈련 데이터 세트 상의 모든 데이터를 오차가 없이 추정하는 경우입니다. 이 같은 경우, 새로운 데이터가 주어지는 경우는 오차가 커질 확률이 높습니다↑. (과적합) (c)를 (b)와 (d)의 경우와 비교해보았을 때, 비록 ..
-
Graphviz
Graphviz · 그래프, 다이어그램을 그려주는 오픈소스 도구 · Open source Graph Visualization Software https://graphviz.gitlab.io/
-
reshape(), -1
reshape() · 배열의 모양(크기) 변경할 때 사용합니다. · 만들어진 배열의 내부 데이터는 보존한 채로 형태만 바꾸려면 reshape()함수를 사용합니다. · 기존 배열과 새로운 배열의 아이템 개수는 항상 동일해야 합니다. https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.reshape.html # 배열의 길이가 5인 1차원 배열 x = np.arange(7) print(x) [0 1 2 3 4 5 6] # 행, 열의 갯수가 (1, 7)인 2차원 배열 x_reshape1 = x.reshape(1, 7) print(x_reshape1) [[0 1 2 3 4 5 6]] # 행, 열의 갯수가 (7, 1)인 2차원 배열 x_reshape..
-
수행 내용-빅데이터 저장 계획 수립하기
수행 내용-빅데이터 저장 계획 수립하기 수행 tip 빅데이터 저장계획을 수립하는 데는 저장 시스템을 구축하는 주체가 되는 조직 구성원의 참여와 피드백이 필수적입니다. 수행 순서
-
벡터 연산(Vectorized Computation)
벡터 연산(Vectorized Computation) · 벡터화 연산 ≒ Array Programming 이라고도 합니다. · 벡터 또는 리스트를 한 번에 연산하는 것을 말합니다. · 배열 객체에 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리합니다. · 벡터 연산을 사용하면 for문 등을 사용해 값을 하나씩 처리해나가는 대신 벡터나 리스트를 한 번에 처리할 수 있어 더 효율적이고 편리합니다. · 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용할 수 있습니다.