CODEDRAGON ㆍDevelopment/Big Data, R, ...
결측값(Missing data)
· ≒ 결측치(Missing Value)
· NA(Not Available) 로 표시되어 집니다.
· 변수 값을 조사나 측정하지 못했을 경우나 변수 값에 대한 정보를 모르는 경우를 의미합니다.
· 샘플에서 누락된 변수값을 지칭합니다.
· 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생합니다.
결측값 처리
구분 |
설명 |
연산 불가 |
· 데이터에 결측치가 있는 경우 값이 존재하지 않으므로 해당 변숫값을 사용한 계산을 수행할 수 없습니다. · 결측치가 있는 경우 {rpart}는 NA를 대신하는 변수인 surrogate 변수를 사용하여 결측치 문제를 해결합니다. · 랜덤 포레스트 모델은 NA가 존재하는 경우 곧바로 에러를 발생시킵니다. 이 경우 NA를 다른 값으로 대체해주는 rfImpute{randomForest} 함수를 사용하여 처리할 수 있습니다. |
처리 속도 |
· 결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적입니다. · 가능하면 결측값은 제외하고 처리하는 게 적합하지만 결측값 자체가 의미가 있는 경우도 있습니다. · 결측값을 어떻게 처리하느냐는 전체 작업 속도에 많은 영향을 주기 때문에 이 부분을 자동화하면 업무 효율성이 매우 향상됩니다. |
'Development > Big Data, R, ...' 카테고리의 다른 글
교차검증(Cross-validation) ≒ 교차 유효성 검사 ≒ 교차 평가 ≒ 교차 타당성(검증) ≒ 교차 타당화 (0) | 2019.12.05 |
---|---|
이상치의 개념도 (0) | 2019.12.04 |
데이터 마이닝 기법 (0) | 2019.12.04 |
데이터 마이닝 vs 기계학습 (0) | 2019.12.04 |
교사 학습 알고리즘(Supervised Learning Algorithm) (0) | 2019.12.04 |