텍스트 마이닝의 문제점(한계)
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
텍스트 마이닝의 문제점(한계)
텍스트 마이닝의 문제점은 크게 두 가지가 있습니다.
문제점 |
설명 |
자연어에 영향을 많이 받는다 |
· 자연어란 사람이 쓰는 말로 한국어, 일본어, 독일어, 영어 등을 의미합니다. · 자연어 중 한글이나 한국어 처리에서 문제가 있는 분야는 광학문자판독(OCR, Optical Character Recognition), 음성인식(Speech Recognition) 그리고 감성분석(Sentimental Analysis) 등이 있습니다. |
분석 결과물 자체로 어떤 성과를 보기 어렵다 |
· 분석 결과물 자체를 그대로 비즈니스 모델에 적용해서 뭔가를 만들어 성과를 보기 어렵다는 의미입니다. · 워드 클라우드는 자주 볼 수 있는 분석 결과물 시각화 방법으로 단어들이 둥둥 떠 있고 단어끼리 선을 연결하여 시각화하는 방법입니다. |
'Development > Big Data, R, ...' 카테고리의 다른 글
DecisionTree vs RandomForest (0) | 2019.11.02 |
---|---|
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사 (0) | 2019.11.02 |
확률론 (0) | 2019.10.31 |
스캐터 플롯(scatter plot) (0) | 2019.10.31 |
k-최근접 이웃 알고리즘 단계 (0) | 2019.10.30 |