불용어 처리(Stopword Removal)
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
불용어 처리(Stopword Removal)
· 일반적으로 코퍼스(Corpus)에서 자주 나타나는 단어는 학습 모델에서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못합니다.
· 예를 들어 조사, 접미사, i, me, my, it, this, that, is, are 등과 같은 단어는 빈번하게 등장하지만, 실제 의미를 파악하는 데 크게 기여하지 않습니다.
· 불용어는 to또는 the와 같은 용어들을 포함하고 있으며 사전 처리 단계에서 제거하는 것이 좋습니다.
· 형태소 분석 결과로 입력된 단어들에 대하여 불용어 사전(불용어가 저장된 데이터베이스)을 참조하여 불필요한 키워드를 제거합니다. 즉, 형태소 분석 결과를 불용어 사전에서 검색하여 일치하는 내용이 나타나면 그 내용을 삭제하여 최적의 가용어만 추출합니다.
· 일반적으로 불용어 처리를 위한 한국어 불용어 사전은 조사, 어미 등을 포함하고 있으며, 영어 불용어 사전은 관사, 전치사, be 동사 등을 포함하고 있습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
비즈니스 도메인과 원천데이터 정보 (0) | 2020.01.02 |
---|---|
tm_map() (0) | 2020.01.02 |
과적합(overfitting) (0) | 2020.01.01 |
신경망 발전 (0) | 2020.01.01 |
다중공선성 종류 (0) | 2019.12.30 |