Development/Big Data, R, ...(885)
-
지니 불순도 곡선
지니 불순도 곡선 · 지니 불순도는 p=0 또는 p=1일 때 0이며 p=1/2일 때 가장 큰 값을 가지는 포물선입니다. · 불순도 함수식과 연관해서 생각해보면 노드에 특정 분류 i만 있거나 특정 분류 i가 전혀 없을 때 I(A)가 작은 값을 가지며, 여러 분류가 섞여 있을 때 큰 값을 갖게 됩니다.
-
반복적 분리 과정
반복적 분리 과정 · 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 한 '순수(Pure)'하게 동질적(Homogenous)이 되도록 하는 과정입니다. · 최종 직사각형에 포함된 변수가 모두 동일한 집단에 속하게 됩니다. 반복적 분리 과정을 통해 각 영역에는 순수한 데이터로만 분류되어 졌습니다. 반복적 분리 순서 단계 설명 1 변수 중 하나인 xi가 선택되고 xi의 값 즉, si(분할기준)가 p차원의 공간을 두 개의 부분으로 나누도록 선정합니다. 2 다시 변수를 선정해서 같은 방식으로 나눕니다. 3 원하는 순수도에 도달할 때까지 반복 수행합니다.
-
확률 이해
확률 이해 바구니의 3마리의 아기개, 고양이가 있습니다. 바구니에서 한마리를 꺼낼 때 개일 확률과 고양이일 확률은 다음과 같습니다. P(dog) = 2/3 P(cat) = 1/3
-
교차검증(Cross-validation) ≒ 교차 유효성 검사 ≒ 교차 평가 ≒ 교차 타당성(검증) ≒ 교차 타당화
교차검증(Cross-validation)방법· ≒ 교차 유효성 검사 ≒ 교차 평가 ≒ 교차 타당성(검증) ≒ 교차 타당화· 1~n개의 데이터를 랜덤(무작위)하게 n등분하여, 데이터를 Training/Validation으로 나눈 다음 교차하여 확인하는 방법입니다.· 주어진 데이터의 일부를 학습시켜 모델을 생성하고, 나머지 일부(비학습 데이터)는 모델을 검증하는 데 사용하는 방법입니다.· 연구 결과에 대한 타당성을 해당 연구에 사용하지 않은 표본(sample)으로 평가해보는 타당화 방법을 지칭합니다.· 교차빈도에 대한 통계적 유의성을 검증해 주는 통계분석 기법입니다.· 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계기법입니다.· 명목이나 서열수준과 같..
-
이상치의 개념도
이상치의 개념도 선형회귀 곡선회귀
-
결측값(Missing data), 결측값 처리
결측값(Missing data) · ≒ 결측치(Missing Value) · NA(Not Available) 로 표시되어 집니다. · 변수 값을 조사나 측정하지 못했을 경우나 변수 값에 대한 정보를 모르는 경우를 의미합니다. · 샘플에서 누락된 변수값을 지칭합니다. · 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생합니다. 결측값 처리