w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
CODEDRAGON ㆍDevelopment/Big Data, R, ...
반응형
w.elnn.kr
딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다.
이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다.
Word2Vec 알고리즘 |
인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. |
CORPUS |
실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의 단어로 구성된 말뭉치를 생성할 수 있었습니다. |
EXAMPLES |
한국 - 서울 + 파리 = ? 컴퓨터공학 - 자연과학 + 인문학 = ? 사랑 + 이별 = ? |
'Development > Big Data, R, ...' 카테고리의 다른 글
is.na() (0) | 2019.01.27 |
---|---|
eyesight.csv - 약을 복용하기 전/후의 시력 데이터 셋 (0) | 2019.01.22 |
AI 기업이 가장 많은 도시 TOP5 - 2018년 7월 (0) | 2019.01.12 |
khaiii(Kakao Hangul Analyzer III) - 카카오에서 개발한 세 번째 형태소분석기 (0) | 2019.01.12 |
summary() 함수의 결과 - 회귀모델, 해석하기 (0) | 2019.01.06 |