[논문]Word2vec을 활용한 문서의 의미 확장 검색방법

김우주; 김동희; 장희원

doi:10.5392/jkca.2016.16.10.687

Word2vec을 활용한 문서의 의미 확장 검색방법
Semantic Extention Search for Documents Using the Word2vec 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.16 no.10, 2016년, pp.687 - 692

김우주 (연세대학교 정보산업공학과) , 김동희 (한국철도기술연구원) , 장희원 (연세대학교 정보산업공학과)

초록
AI-Helper

기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

Abstract ▼ AI-Helper

Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of document search based on document queries. In particular, it uses centrality vectors, instead of tf-idf vectors, to represent query documents, combined with the Word2vec method to capture the semantic similarity in contained words. This scheme improves the performance of document search and provides a way to find documents not only lexically, but semantically close to a query document.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 벡터공간모델의 이러한 단점을 보완하기 위해 단어 간 유사도를 사용하여 출현하지 않은 단어의 특성 값을 간접평가하고 같은 문서내의 유사한 단어의 출현에도 가중치를 주는 방법을 제안하고자 한다. 단어 간 유사도를 구하기 위해서 Word2vec 알고리즘을 사용하여 단어들이 가지는 의미 또한 고려하고자 하였다.
방법론의 전체적인 도식은 [그림 4]와 같다. 본 연구의 목적인 문서 간 검색 시스템은 먼저 검색 대상이 되는 문서들을 TF-IDF를 활용해 문서에 포함된 단어들과 그 중요도를 나타내는 벡터공간모델[8][9]의 형태로 저장을 하고 쿼리 문서를 입력받아 변환시키고 이 문서들과의 유사도 비교를 통해 최종적으로 검토해야할 문서들을 추천해 주게 된다. 쿼리 문서의 변환 과정은 패이지랭크 알고리즘을 통해 TF-IDF 벡터와 같은 형태로 문서의 단어별 중요도를 추출하게 되고 단어 간 유사도를 활용해 문서의 의미를 확장시킨다.

제안 방법

실험은 철도기술 연구원의 바이모달(BTS) 연구요약서를 쿼리 문서로 활용하여 총 78개의 법령과의 유사도를 비교하였다. 78개의 문서 중 22개의 문서는 관련이 있고, 12개의 문서는 애매한 문서, 나머지 문서는 관련이 없는 문서로 연구계획서와의 유사도의 크기로 순위를 측정하였다. [그림 1]과 같은 전체 과정에서 78개의 문서를 문서 셋으로 설정하고 TF-IDF벡터 상태로 저장하고 쿼리문서를 벡터공간모델로 변환하여 평가지표는 랭크합, 가중 랭크 합, 11-point average precision을 활용하였다.
PMI를 계산할 때 사용하는 단어의 출현확률을 구하기 위해서 네이버 검색결과를 활용했다. 각각의 단어의 출현 문서 개수와 단어의 동시출현 문서 개수로 PMI를 계산하였다.
[4-6]은 neural network를 사용하여 language model을 구축할 수 있고 [10]은 Deep neural network를 사용하여 다양한 language model이 구축가능하다고 하였다. 그 과정은 [그림 2]처럼 t번째 등장한 단어 W를 통해 전후의 등장한 단어들로 단어들의 뭉치를 만들고 t-2번째, t-1번째, t+1번째, t+2번째 등장하는 단어들을 추측할 수 있는 가중치를 학습시킴으로써 단어의 의미를 표현하고자 하였다. [7]에서는 기존의 [4-6]의 연구에 binary-tree개념을 사용하여 발전된 language model을 제시하기도 하였다.
기존의 키워드 기반의 검색방법론과 달리 본 연구에서는 문서기반 검색방법론을 제시하였다. 연구의 단어의 유사도를 사용하여 문서의 특징벡터를 확장하는 과정은 제안한 내용에서 사용한 Centrality 뿐만 아니라 TF-IDF와 같은 기존의 벡터공간모델을 활용하는 방법론에도 적용가능하다.
본 연구는 벡터공간모델의 이러한 단점을 보완하기 위해 단어 간 유사도를 사용하여 출현하지 않은 단어의 특성 값을 간접평가하고 같은 문서내의 유사한 단어의 출현에도 가중치를 주는 방법을 제안하고자 한다. 단어 간 유사도를 구하기 위해서 Word2vec 알고리즘을 사용하여 단어들이 가지는 의미 또한 고려하고자 하였다.
첫째로 단어의 출현순서가 나타내는 의미를 고려하지 못한다. 두괄식 글의 경우 처음에 나온 문장이 전체를 대표할 수 있다고 할 수 있지만 본 연구에서 제안한 방법론은 단어의 출현 순서에 따른 가중치를 고려하지 못한다. 또한 문서 대 문서 검색의 특성상 서로 비교하는 문서의 크기가 커지면 커질수록 일치하지 않는 단어가 늘어날 것이고 유사도를 실제보다 낮게 평가될 수 있다.
관련연구에서 설명했듯이 쿼리 문서의 단어별 유사도를 패이지랭크 알고리즘을 통해 구하기 위해서는 문서를 그래프로 변환하는 과정이 필요하다. 본 연구에서는 [그림 5]와 같이 문서에 포함된 단어를 각각 노드로 보았고 단어 간의 관계를 확률적으로 계산해주는 PMI 지수를 활용해 노드 간의 관계를 표현하였다.
페이지랭크[1] 알고리즘은 네트워크 그래프에서 노드들의 중요도를 측정해주는 알고리즘이다. 본 연구에서는 쿼리 문서가 포함하고 있는 단어들의 중요도를 판단하기 위하여 페이지랭크를 활용하였다. 쿼리 문서에 포함된 단어들을 하나의 노드로 생각하고 단어 간의 관계를 확률적으로 계산해주는 PMI(point-wise mutual index) 지수를 노드사이의 관계, 즉 엣지로 설정하였다.
단어벡터의 위치는 각 단어의 의미를 나타내고 있기 때문에 각 단어의 상관관계는 벡터의 거리로 표현할 수 있다. 연구에서는 단어 간의 유사도를 Word2vec을 통해 추출한 단어벡터들로 코사인 유사도를 구해 거리가 얼마나 가까운지로 평가한다.
앞에서 페이지랭크를 활용해 쿼리 문서에 속한 단어들의 중요도를 평가하였고 Word2vec을 활용해 단어의 유사도 행렬을 구할 수 있었다. 우리는 이를 활용하여 행렬 곱을 통해 쿼리 확장을 시도하였다. 사용한 수식은 다음과 같다.
본 연구에서는 쿼리 문서가 포함하고 있는 단어들의 중요도를 판단하기 위하여 페이지랭크를 활용하였다. 쿼리 문서에 포함된 단어들을 하나의 노드로 생각하고 단어 간의 관계를 확률적으로 계산해주는 PMI(point-wise mutual index) 지수를 노드사이의 관계, 즉 엣지로 설정하였다.

대상 데이터

실험은 철도기술 연구원의 바이모달(BTS) 연구요약서를 쿼리 문서로 활용하여 총 78개의 법령과의 유사도를 비교하였다. 78개의 문서 중 22개의 문서는 관련이 있고, 12개의 문서는 애매한 문서, 나머지 문서는 관련이 없는 문서로 연구계획서와의 유사도의 크기로 순위를 측정하였다.

이론/모형

PMI를 계산할 때 사용하는 단어의 출현확률을 구하기 위해서 네이버 검색결과를 활용했다. 각각의 단어의 출현 문서 개수와 단어의 동시출현 문서 개수로 PMI를 계산하였다.
78개의 문서 중 22개의 문서는 관련이 있고, 12개의 문서는 애매한 문서, 나머지 문서는 관련이 없는 문서로 연구계획서와의 유사도의 크기로 순위를 측정하였다. [그림 1]과 같은 전체 과정에서 78개의 문서를 문서 셋으로 설정하고 TF-IDF벡터 상태로 저장하고 쿼리문서를 벡터공간모델로 변환하여 평가지표는 랭크합, 가중 랭크 합, 11-point average precision을 활용하였다. 랭크합은 관련된 문서들의 순위 합을 나타내고 가중 랭크 합은 12개의 애매한 문서에 대한 가중치를 0.
쿼리 확장을 위해서 단어의 유사도를 활용한다. 앞에서 페이지랭크를 활용해 쿼리 문서에 속한 단어들의 중요도를 평가하였고 Word2vec을 활용해 단어의 유사도 행렬을 구할 수 있었다. 우리는 이를 활용하여 행렬 곱을 통해 쿼리 확장을 시도하였다.
변환이 완료된 쿼리 문서의 Extended Centrality와 검색대상이 되는 문서 셋의 TF-IDF 벡터들과의 유사도를 구하고 이 유사도를 기준으로 유사한 문서를 추천한다. 유사도비교에는 코사인 유사도를 활용하였다. [그림 9]와 같이 단어 간 유사도를 활용하여 비슷한 단어를 사용한 문서와의 유사도를 정당하게 평가할 수 있다.

성능/효과

바이모달(BTS) 연구서를 사용한 검색결과는 [그림 10][그림 11]과 같다. 사용한 세 지표 모두 Occurrence보다 Centrality가 Centrality보다 Extended Centrality가 더 좋은 성능을 가지고 있음을 나타낸다.

후속연구

기존의 키워드 기반의 검색방법론과 달리 본 연구에서는 문서기반 검색방법론을 제시하였다. 연구의 단어의 유사도를 사용하여 문서의 특징벡터를 확장하는 과정은 제안한 내용에서 사용한 Centrality 뿐만 아니라 TF-IDF와 같은 기존의 벡터공간모델을 활용하는 방법론에도 적용가능하다. 단어의 유사도를 찾기 위해서 사용한 Word2vec은 문맥으로 단어의 의미를 학습하는 stochastic language models의 성질을 가지고 있기 때문에 단어의 유사도는 의미상으로, 문맥상으로 가까울 수록 높게 측정되고, 이를 Centrality와 같은 쿼리 문서의 벡터공간모델에 적용하면 [그림 9]와 같이 단어의 의미를 고려해서 유사한 문서를 찾을 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 논문에서 Word2vec을 활용해서 단어간 유사도를 추출하는 과정에서 전체 문서에 대해 진행하는 이유는 무엇인가?	Word2vec을 활용해서 단어 간 유사도를 추출하는 과정은 지금까지와 달리 전체 문서에 대해서 진행한다. 이는 대상 단어가 많을수록 정확한 문맥을 통해 단어벡터를 학습시킬 수 있기 때문이다. [그림 2]와 같이 단어를 넣고 그 단어를 통해 주변문맥에 맞는 단어를 정확히 추측할 수 있게 학습을 시키게 된다.
	벡터공간모델에 기반을 둔 검색의 특징은 무엇인가?	정보검색의 대표적인 방법인 벡터공간모델에 기반을 둔 검색은 질의에 나타난 키워드들(입력 문서의 단어들)을 인덱스로 하여 해당 단어가 이 문서에서 어느 정도의 가중치를 가지고 있는가를 기준으로 우선순위를 부여한다. 대표적인 벡터공간모델인 TF-IDF는 문서에 등장한 단어들의 중요도를 나타내는 특성 값을 사용하여 문서의 특성벡터를 형성한다.
	페이지랭크 알고리즘은 무엇인가?	페이지랭크[1] 알고리즘은 네트워크 그래프에서 노드들의 중요도를 측정해주는 알고리즘이다. 본 연구에서는 쿼리 문서가 포함하고 있는 단어들의 중요도를 판단하기 위하여 페이지랭크를 활용하였다.

참고문헌 (10)

S. Brin and L. Page, "The Anatomy of a Large-scale Hypertextual Web Search Engine," Computer Networks and ISDN Systems, Vol.33, pp.107-117, 1998.
T. Mikolov, K. Chen, G. Corrado, and J, Dean "Efficient estimation of word representations in vector space," arXiv preprint arXiv:1301.3781, 2013.
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Distributed representations of words and phrases and theier compositionality," Advances in neural information processing systems, 2013.
Yoshua Bengio, New distributed probabilistic language models. Dept. IRO, University de Montreal, Montreal, QC, Canada, Tech. Rep, 1215, 2002.
Yoshua Bengio and Samy Bengio, "Modeling high-dimensional discrete data with multi-layer neural networks," In NIPS, Vol.99, pp.400-406, 1999.
Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Janvin, "A neural probabilistic language model," The Journal of Machine Learning Research, Vol.3, pp.1137-1155, 2003.
Yoshua Bengio and Jean-Sebastien Senecal, et al. Quick training of probabilistic neural nets by importance sampling, In AISTATS Conference, 2003.
Gerard Salton, Anita Wong, and Chung-Shu Yang, "A vector space model for automatic indexing," Communication of the ACM, Vol.18, No.11, pp.613-620, 1975.

상세보기
David Dubin, The most inuential paper gerard salton never wrote, 2004.
Ronan Collobert and Jason Weston, A unied architecture for natural language processing: Deep neural networks with multitask learning, In Proceedings of the 25th international conference on Machine learning, pp.160-167, ACM, 2008.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증