가용어, 불용어, 키워드 개념
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
가용어, 불용어, 키워드 개념
· 텍스트로 이루어진 문서(혹은 문장)들은 단어나 단어의 집합인 문자열로 표현됩니다.
· 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어, 즉 문서와 관련 성이 없는 것으로 간주하는 단어들을 "불용어"라 합니다. 반면에 문서를 구성하는 단어 중 에서 불용어가 아닌 단어들이 "가용어"입니다. 특히 가용어 중에서도 문서의 중심이 되는 주제어 등을 "키워드"라 부릅니다.
구분 | 설명 |
불용어 | · ≒제외어 · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어 · 문서와 관련 성이 없는 것으로 간주하는 단어들 · 불용어들은 문서 내에서 발생 빈도가 높아서 "키워드"로 오해할 수 있으나, 해당 문서의 정보를 정확히 표현하지 못하기 때문에 일반적으로 불용어로 간주합니다. |
가용어 | · 문서를 구성하는 단어 중 에서 불용어가 아닌 단어들 |
키워드 | · 가용어 중에서도 문서의 중심이 되는 주제어들 · 키워드 선정은 분석하고자 하는 목적 및 데이터 세트(set)의 특성에 따르지만, 일반적으로 문서 내에서 발생 빈도가 높은 단어들을 키워드로 선정합니다. |
한국어와 영어의 불용어 비교
한국어의 경우, 대표적인 불용어로 "조사"를 들 수 있습니다.
"나는 보리밥을 먹었다" |
사용되고 있는 조사인 "는", "을"은 문장의 정보를 표현하지 못하며, 일반적으로 많은 문서에서 사용되고 있는 단어들입니다.
영어의 경우, 대표적인 불용어는 "관사", "전치사" 등이 있습니다.
예를 들어, "a", "the", "on", "with" 등은 문서(혹은 문장)의 주제와 관련성이 낮으며, 한국어의 "조사"와 마찬가지로 많은 문서에서 자주 사용되고 있습니다.
'Development > Big Data, R, ...' 카테고리의 다른 글
드롭아웃(drop out) (0) | 2021.08.25 |
---|---|
주성분 분석(PCA; Principal Component Analysis) (0) | 2021.08.18 |
데이터 수집 불가 원인 및 대안 (0) | 2021.08.09 |
시그모이드 함수(Sigmoid function) (0) | 2021.08.03 |
빅데이터에서의 데이터, 데이터 시각화(Data Visualization) (0) | 2021.08.02 |