w.elnn.kr

w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트

CODEDRAGON ㆍDevelopment/AI

딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다.

이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다.

Word2Vec 알고리즘

인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다.

CORPUS

실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의 단어로 구성된 말뭉치를 생성할 수 있었습니다.

EXAMPLES

한국 - 서울 + 파리 = ?

컴퓨터공학 - 자연과학 + 인문학 = ?

사랑 + 이별 = ?

728x90

is.na() (0)	2019.01.27
eyesight.csv - 약을 복용하기 전/후의 시력 데이터 셋 (0)	2019.01.22
AI 기업이 가장 많은 도시 TOP5 - 2018년 7월 (0)	2019.01.12
khaiii(Kakao Hangul Analyzer III) - 카카오에서 개발한 세 번째 형태소분석기 (0)	2019.01.12
summary() 함수의 결과 - 회귀모델, 해석하기 (0)	2019.01.06

CodeDragon