텍스트 데이터 전처리
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
텍스트 데이터 전처리
구분 |
설명 |
정규화 (normalization) |
입니닼ㅋㅋ -> 입니다 ㅋㅋ 샤릉해, 따랑해, 싸랑해 -> 사랑해
|
토큰화 (tokenization) |
|
어근화 (stemming) |
입니다 -> 이다
|
어구 추출 (phrase extraction) |
한국어를 처리하는 예시입니다 -> 한국어, 처리, 예시, 처리하는 예시
|
불용어 처리 (Stopword Removal) |
|
음소표기법 (Lemmatization) |
'Development > Big Data, R, ...' 카테고리의 다른 글
선형 회귀분석로 분류시 문제점 (0) | 2020.01.27 |
---|---|
6.Summary - 6. 학습결과 적용하기 (0) | 2020.01.27 |
말뭉치(Corpus) (0) | 2020.01.25 |
신뢰도(conviction) (0) | 2020.01.24 |
Moravec's Paradox (모라벡의 역설) (0) | 2020.01.23 |