$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Word2vec을 활용한 문서의 의미 확장 검색방법
Semantic Extention Search for Documents Using the Word2vec 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.16 no.10, 2016년, pp.687 - 692  

김우주 (연세대학교 정보산업공학과) ,  김동희 (한국철도기술연구원) ,  장희원 (연세대학교 정보산업공학과)

초록
AI-Helper 아이콘AI-Helper

기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

Abstract AI-Helper 아이콘AI-Helper

Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 벡터공간모델의 이러한 단점을 보완하기 위해 단어 간 유사도를 사용하여 출현하지 않은 단어의 특성 값을 간접평가하고 같은 문서내의 유사한 단어의 출현에도 가중치를 주는 방법을 제안하고자 한다. 단어 간 유사도를 구하기 위해서 Word2vec 알고리즘을 사용하여 단어들이 가지는 의미 또한 고려하고자 하였다.
  • 방법론의 전체적인 도식은 [그림 4]와 같다. 본 연구의 목적인 문서 간 검색 시스템은 먼저 검색 대상이 되는 문서들을 TF-IDF를 활용해 문서에 포함된 단어들과 그 중요도를 나타내는 벡터공간모델[8][9]의 형태로 저장을 하고 쿼리 문서를 입력받아 변환시키고 이 문서들과의 유사도 비교를 통해 최종적으로 검토해야할 문서들을 추천해 주게 된다. 쿼리 문서의 변환 과정은 패이지랭크 알고리즘을 통해 TF-IDF 벡터와 같은 형태로 문서의 단어별 중요도를 추출하게 되고 단어 간 유사도를 활용해 문서의 의미를 확장시킨다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
본 논문에서 Word2vec을 활용해서 단어간 유사도를 추출하는 과정에서 전체 문서에 대해 진행하는 이유는 무엇인가? Word2vec을 활용해서 단어 간 유사도를 추출하는 과정은 지금까지와 달리 전체 문서에 대해서 진행한다. 이는 대상 단어가 많을수록 정확한 문맥을 통해 단어벡터를 학습시킬 수 있기 때문이다. [그림 2]와 같이 단어를 넣고 그 단어를 통해 주변문맥에 맞는 단어를 정확히 추측할 수 있게 학습을 시키게 된다.
벡터공간모델에 기반을 둔 검색의 특징은 무엇인가? 정보검색의 대표적인 방법인 벡터공간모델에 기반을 둔 검색은 질의에 나타난 키워드들(입력 문서의 단어들)을 인덱스로 하여 해당 단어가 이 문서에서 어느 정도의 가중치를 가지고 있는가를 기준으로 우선순위를 부여한다. 대표적인 벡터공간모델인 TF-IDF는 문서에 등장한 단어들의 중요도를 나타내는 특성 값을 사용하여 문서의 특성벡터를 형성한다.
페이지랭크 알고리즘은 무엇인가? 페이지랭크[1] 알고리즘은 네트워크 그래프에서 노드들의 중요도를 측정해주는 알고리즘이다. 본 연구에서는 쿼리 문서가 포함하고 있는 단어들의 중요도를 판단하기 위하여 페이지랭크를 활용하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. S. Brin and L. Page, "The Anatomy of a Large-scale Hypertextual Web Search Engine," Computer Networks and ISDN Systems, Vol.33, pp.107-117, 1998. 

  2. T. Mikolov, K. Chen, G. Corrado, and J, Dean "Efficient estimation of word representations in vector space," arXiv preprint arXiv:1301.3781, 2013. 

  3. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Distributed representations of words and phrases and theier compositionality," Advances in neural information processing systems, 2013. 

  4. Yoshua Bengio, New distributed probabilistic language models. Dept. IRO, University de Montreal, Montreal, QC, Canada, Tech. Rep, 1215, 2002. 

  5. Yoshua Bengio and Samy Bengio, "Modeling high-dimensional discrete data with multi-layer neural networks," In NIPS, Vol.99, pp.400-406, 1999. 

  6. Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Janvin, "A neural probabilistic language model," The Journal of Machine Learning Research, Vol.3, pp.1137-1155, 2003. 

  7. Yoshua Bengio and Jean-Sebastien Senecal, et al. Quick training of probabilistic neural nets by importance sampling, In AISTATS Conference, 2003. 

  8. Gerard Salton, Anita Wong, and Chung-Shu Yang, "A vector space model for automatic indexing," Communication of the ACM, Vol.18, No.11, pp.613-620, 1975. 

  9. David Dubin, The most inuential paper gerard salton never wrote, 2004. 

  10. Ronan Collobert and Jason Weston, A unied architecture for natural language processing: Deep neural networks with multitask learning, In Proceedings of the 25th international conference on Machine learning, pp.160-167, ACM, 2008. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로