결측값 대체 방법

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

결측값 대체 방법

평균 대체, 빈도 대체, 회귀대체를 있으며 값을 대체하는 가장 간단한 방법은 데이터의 평균이나 중앙값을 취하는 것입니다.

 

·       더미 대체

·       평균 대체

·       빈도 대체

·       회귀대체

·       중심 경향 값으로 대체

·       랜덤 추출(분포 기반)

·       다중 대체(Multiple Imputation)

 

 

 

 

더미 대체

·       누락된 값을 더미 값 또는 대표값으로 대체합니다.

·       더미는 대체로 0으로 채워줍니다.

 

이름

나이

몸무게

헌혈횟수

홍길동

39

160cm

 

50kg

2

도레미

27

175cm

45kg

NA

이순신

25

185cm

72kg

10

 

이름

나이

몸무게

헌혈횟수

홍길동

39

160cm

 

50kg

2

도레미

27

175cm

45kg

0

이순신

25

185cm

72kg

10

 

 

 

 

 

평균 대체

·       누락된 값이 숫자이면 평균으로 대체합니다.

·       누락값을 0으로 대체할 경우 데이터의 의미가 없어지는 경우 사용합니다.

·       데이터값이 없는 경우에 비해 오류는 줄어들게 됩니다.

 


이름

나이

몸무게

로그인횟수

홍길동

39

160cm

 

50kg

2

도레미

27

175cm

45kg

NA

이순신

25

185cm

72kg

10

 

이름

나이

몸무게

헌혈횟수

홍길동

39

160cm

 

50kg

2

도레미

27

175cm

45kg

6

이순신

25

185cm

72kg

10

 

 

 

 

 

빈도 대체

누락된 값이 범주이면 가장 빈도가 높은 항목으로 대체합니다.

 


이름

나이

몸무게

신체등급

홍길동

39

160cm

 

50kg

6

도레미

27

175cm

45kg

NA

이순신

25

185cm

72kg

1

김철수

32

155cm

47kg

1

 

이름

나이

몸무게

신체등급

홍길동

39

160cm

 

50kg

6

도레미

27

175cm

45kg

1

이순신

25

185cm

72kg

1

김철수

32

155cm

47kg

1

 

 

 

 

회귀대체(Regression Imputation)

·       회귀 함수를 사용하여 누락된 값을 대체합니다.

·       변수 내의 값들의 평균이 아닌 관측치의 특성을 고려하여 대체합니다.

·       실제로 평균값보다 적어나 값을 가지는 경향이 있을 회귀분석을 통한 예측값을 사용합니다.

 


이름

나이

몸무게

신체등급

홍길동

39

160cm

 

50kg

6

도레미

27

175cm

45kg

1

이순신

25

NA

72kg

1

김철수

32

155cm

47kg

1

 

이름

나이

몸무게

신체등급

홍길동

39

160cm

 

50kg

6

도레미

27

175cm

45kg

1

이순신

25

185cm

72kg

1

김철수

32

155cm

47kg

1

 

 

 

 

 

중심 경향 값으로 대체

·       평균, 중앙값, 최빈값 등으로 대체합니다.

·       ex)최대/최소값을 제외하고 피겨스케이팅 점수 계산

 

 

 

 

 

랜덤 추출(분포 기반)

랜덤에 의해 자주 나타나는 값으로 대체합니다.

 

 

 

 

 

다중 대체(Multiple Imputation)

다양한 모델을 여러 반복한 값으로 대체합니다.

 


반응형