CODEDRAGON ㆍDevelopment/AI
결측값 대체 방법
평균 대체, 빈도 대체, 회귀대체를 할 수 있으며 값을 대체하는 가장 간단한 방법은 데이터의 평균이나 중앙값을 취하는 것입니다.
· 더미 대체
· 평균 대체
· 빈도 대체
· 회귀대체
· 중심 경향 값으로 대체
· 랜덤 추출(분포 기반)
· 다중 대체(Multiple Imputation)
더미 대체
· 누락된 값을 더미 값 또는 대표값으로 대체합니다.
· 더미는 대체로 0으로 채워줍니다.
전 |
|
||||||||||||||||||||
후 |
|
평균 대체
· 누락된 값이 숫자이면 평균으로 대체합니다.
· 누락값을 0으로 대체할 경우 데이터의 의미가 없어지는 경우 사용합니다.
· 데이터값이 없는 경우에 비해 오류는 줄어들게 됩니다.
전 |
|
||||||||||||||||||||
후 |
|
빈도 대체
누락된 값이 범주이면 가장 빈도가 높은 항목으로 대체합니다.
전 |
|
|||||||||||||||||||||||||
후 |
|
회귀대체(Regression Imputation)
· 회귀 함수를 사용하여 누락된 값을 대체합니다.
· 변수 내의 값들의 평균이 아닌 각 관측치의 특성을 고려하여 대체합니다.
· 실제로 평균값보다 적어나 큰 값을 가지는 경향이 있을 때 회귀분석을 통한 예측값을 사용합니다.
전 |
|
|||||||||||||||||||||||||
후 |
|
중심 경향 값으로 대체
· 평균, 중앙값, 최빈값 등으로 대체합니다.
· ex)최대/최소값을 제외하고 피겨스케이팅 점수 계산
랜덤 추출(분포 기반)
랜덤에 의해 자주 나타나는 값으로 대체합니다.
다중 대체(Multiple Imputation)
다양한 모델을 여러 번 반복한 값으로 대체합니다.
'Development > AI' 카테고리의 다른 글
2.Summary - 2.빅데이터 저장관리시스템 구성하기 (0) | 2019.12.13 |
---|---|
4.Summary - 4.실시간 수행모듈 개발하기 (0) | 2019.12.13 |
결측값 대체(Missing Value Imputation) (0) | 2019.12.12 |
해당 레코드 모두 삭제 (0) | 2019.12.12 |
결측값 처리방법 (0) | 2019.12.12 |