의사결정나무 구조

의사결정나무 구조

CODEDRAGON ㆍDevelopment/AI

의사결정나무 구조

· 의사 결정 나무는 각 노드마다 질문을 던지고 그 응답에 따라 가지를 쳐서 데이터를 분리합니다.

· 데이터가 얼마나 잘 분리되었는지는 불순도(impurity)라는 기준으로 평가하며, 가장 좋은 질문은 한 노드의 데이터를 두 개의 자식 노드로 분리했을 때 자식 노드들의 불순도가 가장 낮아지는 질문입니다.

구분

설명

노드

(node)

· 원, 삼각형, 사각형과 같은 도형으로 표현

뿌리마디

(root node)

· 맨 위의 마디

· 노드 중 분류의 시작점에 해당하는 최상단에 위치한 노드

· 분류(또는 예측)대상이 되는 모든 자료집단을 포함합니다.

부모마디

(parent node)

· 상위마디

· 주어진 마디의 상위마디

· 상위의 마디가 하위마디로 분기 될 떄의 상위 마디

자식마디

(child node)

· 하위 마디

· 하나의 마디로부터 분리되어 나간 2개 이상의 마디들

중간마디

(Internal Node)

· 부모마디와 자식마디가 모두 있는 마디

최종마디

(terminal node)

· 잎사귀 노드 ≒ 리프 노드(leaf node) ≒ 끝마디

· 더 이상 분기되지 않는 마디

· 더 이상 자식 노드가 없는 제일 하단의 노드

가지

(Branch)

· 뿌리마디로부터 끝마디까지 연결된 마디들

깊이

(Depth)

· 뿌리마디부터 끝마디까지의 중간마디들의 수

가지분할

(Split)

· 나무의 가지를 생성하는 과정

가지치기

(Pruning)

· 생성된 가지를 잘라내어 모형을 단순화하는 과정

가지치기(Pruning)

끝마디가 너무 많으면 모형이 과대 적합된 상태로 현실문제에 적용할 수 있는 적절한 규칙이 나오지 않게됩니다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려한 수준의 가지치기 규칙을 제공해야 합니다. 즉, overfitting을 막아주어야 합니다.

방법	설명
pre-pruning	tree 생성을 사전에 중단합니다.
post-pruning	데이터 포인트가 적은 node를 삭제하거나 병합합니다.

728x90

저작자표시 비영리 (새창열림)

'Development > AI' 카테고리의 다른 글

상관계수(Correlation Coefficient), 상관계수 값 해석 (0)	2019.11.20
의사결정나무 수행 단계 (0)	2019.11.19
기계학습 방법(알고리즘 분류) (0)	2019.11.18
랜덤포레스트(Random forest) (0)	2019.11.17
선형 회귀(Linear Regression) (0)	2019.11.16

CodeDragon

CodeDragon

태그

최근글

댓글

공지사항

아카이브

'Development > AI' 카테고리의 다른 글

관련글

티스토리툴바