의사결정나무 구조

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

의사결정나무 구조

·         의사 결정 나무는 노드마다 질문을 던지고 응답에 따라 가지를 쳐서 데이터를 분리합니다.

·         데이터가 얼마나 분리되었는지는 불순도(impurity)라는 기준으로 평가하며, 가장 좋은 질문은 노드의 데이터를 개의 자식 노드로 분리했을 자식 노드들의 불순도가 가장 낮아지는 질문입니다.

 


 

구분

설명

노드

(node)

·         , 삼각형, 사각형과 같은 도형으로 표현

뿌리마디

(root node)

·         위의 마디

·         노드 분류의 시작점에 해당하는 최상단에 위치한 노드

·         분류(또는 예측)대상이 되는 모든 자료집단을 포함합니다.

 

부모마디

(parent node)

·         상위마디

·         주어진 마디의 상위마디

·         상위의 마디가 하위마디로 분기 떄의 상위 마디

자식마디

(child node)

·         하위 마디

·         하나의 마디로부터 분리되어 나간 2 이상의 마디들

중간마디

(Internal Node)

·         부모마디와 자식마디가 모두 있는 마디

최종마디

(terminal node)

·         잎사귀 노드 리프 노드(leaf node) 끝마디

·         이상 분기되지 않는 마디

·         이상 자식 노드가 없는 제일 하단의 노드

 

가지

(Branch)

·         뿌리마디로부터 끝마디까지 연결된 마디들

깊이

(Depth)

·         뿌리마디부터 끝마디까지의 중간마디들의

가지분할

(Split)

·         나무의 가지를 생성하는 과정

가지치기

(Pruning)

·         생성된 가지를 잘라내어 모형을 단순화하는 과정

 

 

 

가지치기(Pruning)

끝마디가 너무 많으면 모형이 과대 적합된 상태로 현실문제에 적용할 있는 적절한 규칙이 나오지 않게됩니다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려한 수준의 가지치기 규칙을 제공해야 합니다. , overfitting 막아주어야 합니다.

 

방법

설명

pre-pruning

tree 생성을 사전에 중단합니다.

post-pruning

데이터 포인트가 적은 node 삭제하거나 병합합니다.