결측값(Missing data), 결측값 처리

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

결측값(Missing data)

·         결측치(Missing Value)

·         NA(Not Available) 표시되어 집니다.

·         변수 값을 조사나 측정하지 못했을 경우나 변수 값에 대한 정보를 모르는 경우를 의미합니다.

·         샘플에서 누락된 변수값을 지칭합니다.

·         결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생합니다.

 

 

 

 

 

 

결측값 처리

구분

설명

연산 불가

·         데이터에 결측치가 있는 경우 값이 존재하지 않으므로 해당 변숫값을 사용한 계산을 수행할 없습니다.

·         결측치가 있는 경우 {rpart} NA 대신하는 변수인 surrogate 변수를 사용하여 결측치 문제를 해결합니다.

·         랜덤 포레스트 모델은 NA 존재하는 경우 곧바로 에러를 발생시킵니다. 경우 NA 다른 값으로 대체해주는 rfImpute{randomForest} 함수를 사용하여 처리할 있습니다.

처리 속도

·         결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적입니다.

·         가능하면 결측값은 제외하고 처리하는 적합하지만 결측값 자체가 의미가 있는 경우도 있습니다.

·         결측값을 어떻게 처리하느냐는 전체 작업 속도에 많은 영향을 주기 때문에 부분을 자동화하면 업무 효율성이 매우 향상됩니다.