CODEDRAGON ㆍDevelopment/Big Data, R, ...
교차검증(Cross-validation)방법
· ≒ 교차 유효성 검사 ≒ 교차 평가 ≒ 교차 타당성(검증) ≒ 교차 타당화
· 1~n개의 데이터를 랜덤(무작위)하게 n등분하여, 데이터를 Training/Validation으로 나눈 다음 교차하여 확인하는 방법입니다.
· 주어진 데이터의 일부를 학습시켜 모델을 생성하고, 나머지 일부(비학습 데이터)는 모델을 검증하는 데 사용하는 방법입니다.
· 연구 결과에 대한 타당성을 해당 연구에 사용하지 않은 표본(sample)으로 평가해보는 타당화 방법을 지칭합니다.
· 교차빈도에 대한 통계적 유의성을 검증해 주는 통계분석 기법입니다.
· 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계기법입니다.
· 명목이나 서열수준과 같은 범주형 수준의 변인들에 대한 케이스들의 교차빈도에 대한 기술통계량을 제공합니다.
· 두 범주 변인 간 관계가 상호 독립 관계인지 혹은 상호 연관성을 맺고 있는지를 검증하는 방법입니다.
· 데이터가 충분하지 못한 경우에는 교차 평가를 시행합니다.
· 데이터 추출시 문제들을 개선하는 한 가지 방법이 교차 검증입니다.
· 교차 검증은 훈련 데이터와 테스트 데이터를 분리하여 모델을 만드는 방법 중 가장 자주 사용하는 기법입니다.
· 데이터를 동일한 크기로 분류 후, 하나를 검증 데이터로 쓰고 나머지를 학습 데이터로 활용하여 훈련과 테스트를 반복하는 기법입니다.
· 교차검증은 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석모형을 평가하는 방법입니다.
· train set의 일부를 train 목적으로 사용하고 나머지를 validation 용도로 사용합니다. 그리고 train 목적과 validation 용도의 비율을 변경해가면서 반복 수행하여 오차율을 줄여나가는 방법입니다.
· 대표적인 기법인 k-fold 교차검증이 있습니다.
https://en.wikipedia.org/wiki/Cross-validation_(statistics)
'Development > Big Data, R, ...' 카테고리의 다른 글
반복적 분리 과정 (0) | 2019.12.05 |
---|---|
확률 이해 (0) | 2019.12.05 |
이상치의 개념도 (0) | 2019.12.04 |
결측값(Missing data), 결측값 처리 (0) | 2019.12.04 |
데이터 마이닝 기법 (0) | 2019.12.04 |