The journal of the institute of internet, broadcasting and communication : JIIBC, v.18 no.5, 2018년, pp.25 - 30
Recently with the development of Internet technology, a lot of research area such as retrieval and extracting data have getting important for providing the information efficiently and quickly. Especially, the technique of analyzing and finding the semantic similar words for given korean word such as...
단어 임베딩이란 무엇인가? | 단어 임베딩은 단어들을 표현을 하기 위해서 수치화하여 벡터의 형태로 변경하는 방법이다. 대표적으로 사용되는 방법은 주어진 단어들을 리스트로 만들어서 해당 단어의 유무를 ‘1’ 또는 ‘0’으로 표현하는 BOW(Bag of Words)가 있다. | |
전처리 과정에서는 어떤 작업을 하는가? | 전처리 과정에서는 주어진 문장들의 의미 있는 정보만을 남기기 위하여 숫자, 조사, 기호등과 같은 분석에 불필요한 불용어들을 제거하고 Park, Eunjeong L(2014) 연구에서 배포한 형태소 분석기를 사용하여 2단계에서 군집화를 위한 작업을 한다[16]. 형태소 분석기는 한국어 문장을 읽어 각 단어에 해당하는 명사, 동사, 조사 등과 같은 품사들로 분류 해주는 기능을 해주며, 본 논문에서는 형태소 분석기를 이용하여 명사, 형용사 위주로 추출을 하여 군집화를 진행하기 위한 과정에 사용한다. | |
단어 임베딩이 대표적으로 사용되는 방법은? | 단어 임베딩은 단어들을 표현을 하기 위해서 수치화하여 벡터의 형태로 변경하는 방법이다. 대표적으로 사용되는 방법은 주어진 단어들을 리스트로 만들어서 해당 단어의 유무를 ‘1’ 또는 ‘0’으로 표현하는 BOW(Bag of Words)가 있다. 하지만 BOW는 단순한 단어의 유무를 수치적으로 표현한 방법으로 실제적으로 그 단어의 특징이나 의미적인 부분 까지는 표현을 하지 못한다. |
