불용어 처리(Stopword Removal)

CODEDRAGON Development/Big Data, R, ...

반응형


 

불용어 처리(Stopword Removal)

·       일반적으로 코퍼스(Corpus)에서 자주 나타나는 단어는 학습 모델에서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못합니다.

·       예를 들어 조사, 접미사, i, me, my, it, this, that, is, are 등과 같은 단어는 빈번하게 등장하지만, 실제 의미를 파악하는 크게 기여하지 않습니다.

·       불용어는 to또는 the와 같은 용어들을 포함하고 있으며 사전 처리 단계에서 제거하는 것이 좋습니다.

 

·       형태소 분석 결과로 입력된 단어들에 대하여 불용어 사전(불용어가 저장된 데이터베이스)을 참조하여 불필요한 키워드를 제거합니다. , 형태소 분석 결과를 불용어 사전에서 검색하여 일치하는 내용이 나타나면 그 내용을 삭제하여 최적의 가용어만 추출합니다.

·       일반적으로 불용어 처리를 위한  한국어 불용어 사전은 조사, 어미 등을 포함하고 있으며, 영어 불용어 사전은 관사, 전치사, be 동사 등을 포함하고 있습니다.

 

반응형

'Development > Big Data, R, ...' 카테고리의 다른 글

비즈니스 도메인과 원천데이터 정보  (0) 2020.01.02
tm_map()  (0) 2020.01.02
과적합(overfitting)  (0) 2020.01.01
신경망 발전  (0) 2020.01.01
다중공선성 종류  (0) 2019.12.30