$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장
Query Extension of Retrieve System Using Hangul Word Embedding and Apriori 원문보기

한국항행학회논문지 = Journal of advanced navigation technology, v.20 no.6 = no.81, 2016년, pp.617 - 624  

신동하 (가천대학교 에너지 IT학과) ,  김창복 (가천대학교 에너지 IT학과)

초록
AI-Helper 아이콘AI-Helper

한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.

Abstract AI-Helper 아이콘AI-Helper

The hangul word embedding should be performed certainly process for noun extraction. Otherwise, it should be trained words that are not necessary, and it can not be derived efficient embedding results. In this paper, we propose model that can retrieve more efficiently by query language expansion usi...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 검색시스템에서 사용자 질의어는 사용자가 질의어를 직접 선정하여 입력해야 하며, 검색을 위한 적합한 질의어를 연상하는데 어려움이 있다. 본 연구는 word2vec를 이용한 워드임베딩과 아프리오리를 이용하여, 검색시스템에서 사용자 질의어를 확장할 수 있는 모델을 제안하였다. 한글워드임베딩은 명사추출과정을 거치지 않으면, 조사, 부사, 관형사 등 학습에 필요하지 않은 단어까지 학습하게 된다.
  • 본 연구는 한글 워드임베딩 및 아프리오리(apriori)와 한글 텍스트 마이닝을 이용하여, 특정 도메인의 사용자 질의에 대해 보다 효율적인 질의어 확장과 답변을 검색할 수 있는 방법을 제안하였다. 본 연구의 한글 워드임베딩, 아프리오리, 텍스트 마이닝은 빅 데이터 통계 분석 및 그래픽 등으로 사용되는 R을 이용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
한글 워드임베딩에서 명사 추출과정을 거치지 않으면 어떤 일이 발생하는가? 한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다.
검색시스템의 문제점은 무엇인가? 검색시스템은 질의어를 입력하여 정보를 검색하는 시스템으로, 질의유형은 내용검색, 사이트 검색, 서비스 검색 등이 있다. 사용자질의어는 평균 2.21개 정도로서 함축적인 의미를 가지며, 검색을 위한 판단 기준이 되지만, 사용자가 질의어를 직접 선정해야 하며, 검색을 위한 적합한 질의어를 연상하는데 어려움이 있다[1]. 검색시스템은 이러한 문제점을 해결하기 위해, 질의어의 의미와 맥락에 따른 연관성을 이용하여, 질의어를 확장하는 방법과 클릭 로그 데이터를 이용하는 방법들이 연구되어 왔다[2].
검색시스템이란 무엇인가? 검색시스템은 질의어를 입력하여 정보를 검색하는 시스템으로, 질의유형은 내용검색, 사이트 검색, 서비스 검색 등이 있다. 사용자질의어는 평균 2.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. Y. A Kim, G. W. Park, "An efficient extended query suggestion system using the analysis of users' query patterns," Korea Institute of Communication Sciences, Vol. 37, No. 7, pp. 619-626, June. 2012. 

  2. Z. Mai, G. Pant, and O. R. Liu Sheng, "Interest-based personalized search," ACM Transactions on Information systems, Vol. 25, No. 1, pp. 1-38, Feb. 2007. 

  3. C. Buckley, G. Salton, and J. Allan, "The effect of adding relevance information in a relevance feedback environment," in Proceedings of 17th annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin : Ireland, pp. 292-300, July. 1994. 

  4. J. Garten, K. Sagae, V. Ustun, "Combining distributed vector representations for words," in Proceedings of NAACL-HLT, Denver: CO, pp. 95-101, May. 2015. 

  5. T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," in proceeding of Neural Information Processing Systems 26, Lake Tahoe: NV, pp. 3111-3119, Dec. 2013. 

  6. M. Tomas, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," in Proceeding of International Conference on Learning Representations, Scottsdale: AZ, pp. 01-09, May. 2013. 

  7. B. Chris, Web application with R using shiny, 1st ed. Birmingham, England: Packt Publishing, pp.47-72, Oct. 2013. 

  8. [Internet]. Available: https://github.com/bmschmidt/wordVectors 

  9. M. Andriy, and G. Hinton. "A scalable hierarchical distributed language mode," in Proceeding of Neural Information Processing Systems 21, Vancouver: British Columbia, pp.1081-1088, Dec. 2008. 

  10. Y. Kim, "A study on design and implementation of personalized information recommendation system based on apriori algorithm," Journal of Korean BIBLIA Society for Library and Information Science, Vol. 23, No. 4, pp. 283-308, Dec. 2012. 

  11. S. J. Ko, and J. H. Lee, "Weighted bayesian automatic document categorization based on association word knowledge base by apriori algorithm," Journal of the Korea Multimedia society, Vol. 4, No. 2, pp. 171-181, Apr. 2001. 

  12. H. S. Kim, S. C. Park, and S. H. Kim, "Measurement of document similarity using term/term-pair features and neural Network," Journal of Korean Institute of Information Scientists and Engineers, Vol. 31 No. 12, pp. 1660-1671, Oct. 2004. 

  13. D. Y. Park, "Pushing ahead context and project of capability education using national competency standards," Korea Research Institute for Vocational Education and Training, The Human Resources Development Review, Vol. 16, No. 3, pp. 52-71, Sep. 2013. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로