CODEDRAGON ㆍDevelopment/Big Data, R, ...
의사결정나무 구조
· 의사 결정 나무는 각 노드마다 질문을 던지고 그 응답에 따라 가지를 쳐서 데이터를 분리합니다.
· 데이터가 얼마나 잘 분리되었는지는 불순도(impurity)라는 기준으로 평가하며, 가장 좋은 질문은 한 노드의 데이터를 두 개의 자식 노드로 분리했을 때 자식 노드들의 불순도가 가장 낮아지는 질문입니다.
구분 |
설명 |
노드 (node) |
· 원, 삼각형, 사각형과 같은 도형으로 표현 |
뿌리마디 (root node) |
· 맨 위의 마디 · 노드 중 분류의 시작점에 해당하는 최상단에 위치한 노드 · 분류(또는 예측)대상이 되는 모든 자료집단을 포함합니다.
|
부모마디 (parent node) |
· 상위마디 · 주어진 마디의 상위마디 · 상위의 마디가 하위마디로 분기 될 떄의 상위 마디 |
자식마디 (child node) |
· 하위 마디 · 하나의 마디로부터 분리되어 나간 2개 이상의 마디들 |
중간마디 (Internal Node) |
· 부모마디와 자식마디가 모두 있는 마디 |
최종마디 (terminal node) |
· 잎사귀 노드 ≒ 리프 노드(leaf node) ≒ 끝마디 · 더 이상 분기되지 않는 마디 · 더 이상 자식 노드가 없는 제일 하단의 노드
|
가지 (Branch) |
· 뿌리마디로부터 끝마디까지 연결된 마디들 |
깊이 (Depth) |
· 뿌리마디부터 끝마디까지의 중간마디들의 수 |
가지분할 (Split) |
· 나무의 가지를 생성하는 과정 |
가지치기 (Pruning) |
· 생성된 가지를 잘라내어 모형을 단순화하는 과정 |
가지치기(Pruning)
끝마디가 너무 많으면 모형이 과대 적합된 상태로 현실문제에 적용할 수 있는 적절한 규칙이 나오지 않게됩니다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려한 수준의 가지치기 규칙을 제공해야 합니다. 즉, overfitting을 막아주어야 합니다.
방법 |
설명 |
pre-pruning |
tree 생성을 사전에 중단합니다. |
post-pruning |
데이터 포인트가 적은 node를 삭제하거나 병합합니다. |
'Development > Big Data, R, ...' 카테고리의 다른 글
상관계수(Correlation Coefficient), 상관계수 값 해석 (0) | 2019.11.20 |
---|---|
의사결정나무 수행 단계 (0) | 2019.11.19 |
기계학습 방법(알고리즘 분류) (0) | 2019.11.18 |
랜덤포레스트(Random forest) (0) | 2019.11.17 |
선형 회귀(Linear Regression) (0) | 2019.11.16 |