CODEDRAGON ㆍDevelopment/Big Data, R, ...
데이터 전처리(Data preprocessing)
· 데이터 정제 (Data Cleaning and Text Preprocessing)
· ≒ 데이터 클리닝(data cleaning)
· 기계가 텍스트를 이해할 수 있도록 텍스트를 정제합니다.
· 전처리는 단순히 비정형 데이터를 정형데이터로 변경하는 것뿐 아니라 전체 입력 정보 중 실제로 출력 데이터의 결정에 영향을 미칠만한 핵심 정보를 선택하거나 복수의 입력 데이터를 조합하여 새로운 입력 데이터를 만드는 것도 전처리에서 이루어집니다.
· 전처리 과정은 최종 예측 성능에 큰 영향을 끼칩니다.
· 데이터 정제를 먼저 하고 나서 테스트 데이터를 분리하거나, 데이터를 분리한 다음 정제하는 방법을 택할 수도 있습니다.
데이터 전처리 철차
단계 |
설명 |
데이터 정리 (데이터 정제) |
· 누락된 값 채우기, · 이상 값 제거 · 데이터 문자 정리 |
데이터 변환 |
· 데이터 변환 (데이터 정규화를 통해 노이즈를 줄입니다.) · 데이터 축소 |
데이터 전처리 방법
우수한 품질의 입력데이터를 위해 다음과 같은 처리 절차를 가집니다.
· 값이 누락된 데이터 처리
· 특이점 제거
· 데이터 변환
· 데이터 축소
'Development > Big Data, R, ...' 카테고리의 다른 글
분류 분석 모형 (0) | 2019.11.14 |
---|---|
베이지안 네트워크가 활용된 사례 (0) | 2019.11.14 |
데이터 정제 방법 (0) | 2019.11.13 |
데이터 정제 (0) | 2019.11.12 |
동전 던지기 (0) | 2019.11.12 |