w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

 

w.elnn.kr

딥러닝 자연어처리의 워드 임베딩(word embedding) 한글로 테스트할 수 있는 사이트입니다.

이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘) 우리말에 적용해 실험 공간입니다.

 

Word2Vec 알고리즘

인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다.

CORPUS

실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 45 종류, 4.2 개의 단어로 구성된 말뭉치를 생성할 있었습니다.

EXAMPLES

한국 - 서울 + 파리 = ?

컴퓨터공학 - 자연과학 + 인문학 = ?

사랑 + 이별 = ?

 

http://w.elnn.kr/search/