[논문]한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장

신동하; 김창복

doi:10.12673/jant.2016.20.6.617

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장
Query Extension of Retrieve System Using Hangul Word Embedding and Apriori 원문보기

한국항행학회논문지 = Journal of advanced navigation technology, v.20 no.6 = no.81, 2016년, pp.617 - 624

신동하 (가천대학교 에너지 IT학과) , 김창복 (가천대학교 에너지 IT학과)

초록
AI-Helper

한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.

Abstract ▼ AI-Helper

The hangul word embedding should be performed certainly process for noun extraction. Otherwise, it should be trained words that are not necessary, and it can not be derived efficient embedding results. In this paper, we propose model that can retrieve more efficiently by query language expansion using hangul word embedded, apriori, and text mining. The word embedding and apriori is a step expanding query language by extracting association words according to meaning and context for query language. The hangul text mining is a step of extracting similar answer and responding to the user using noun extraction, TF-IDF, and cosine similarity. The proposed model can improve accuracy of answer by learning the answer of specific domain and expanding high correlation query language. As future research, it needs to extract more correlation query language by analysis of user queries stored in database.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

검색시스템에서 사용자 질의어는 사용자가 질의어를 직접 선정하여 입력해야 하며, 검색을 위한 적합한 질의어를 연상하는데 어려움이 있다. 본 연구는 word2vec를 이용한 워드임베딩과 아프리오리를 이용하여, 검색시스템에서 사용자 질의어를 확장할 수 있는 모델을 제안하였다. 한글워드임베딩은 명사추출과정을 거치지 않으면, 조사, 부사, 관형사 등 학습에 필요하지 않은 단어까지 학습하게 된다.
본 연구는 한글 워드임베딩 및 아프리오리(apriori)와 한글 텍스트 마이닝을 이용하여, 특정 도메인의 사용자 질의에 대해 보다 효율적인 질의어 확장과 답변을 검색할 수 있는 방법을 제안하였다. 본 연구의 한글 워드임베딩, 아프리오리, 텍스트 마이닝은 빅 데이터 통계 분석 및 그래픽 등으로 사용되는 R을 이용하였다.

제안 방법

본 연구의 한글 워드임베딩, 아프리오리, 텍스트 마이닝은 빅 데이터 통계 분석 및 그래픽 등으로 사용되는 R을 이용하였다. 또한, 시뮬레이션을 위해 샤이니(shiny) 패키지를 이용하여, 웹을 통해 인터렉티브하게 결과를 확인하였다[7].
한글 문서 비교는 모든 답변문서에 대해 말뭉치를 생성하고, 말뭉치에서 특수문자, 불용어, 비속어, 한 단어 제거 등을 이용하여 전처리한다. 또한, 중요한 단어 인명사를 추출한 후에, 단어 빈도수와 역 문서 빈도수 방법을 이용하여, 각 단어에 대한 가중치를 부여한다. 최종적으로 질의어와 가장 유사한 문장을 코사인 유사도를 통하여 추출한다.
한글 텍스트 마이닝은 질의어 확장에 따라 답변을 추출하는 단계로서, 특수문자, 불용어, 비속어 등을 제거하기 위해 "tm" 패키지를 이용하였으며, 효율적인 명사추출과 단어빈도수(term frequency), 역문서빈도수(inverse document frequency)를 이용한 단어 가중치를 추출하기 위해서 "KoNLP" 패키지를 이용하였다. 또한, 코사인 유사도(cosine similarity) 알고리즘으로 질의와 답변의 유사도 계산을 하여, 최종 답변을 추출하였다.
이를 위해, 전처리 과정에서 생성된 데이터에서 명사를 추출한다. 또한, 한 글자거나 5글자 이상의 명사를 제거하였다.
본 연구는 윈도우 환경에서, 통계 분석 및 그래픽 등으로 사용되는 R과 개발환경 툴인 RSudio를 이용하였으며, 결과를 시뮬레이션하기 위해 웹과 상호작용하고 분석결과와 그래프를 실시간으로 확인할 수 있는 사이니 패키지를 사용하였다. 또한, 한글 워드임베딩, 한글 문서 비교 및 답변 추출 부분을 시뮬레이션하기 위해서 word2vec, tm, KoNLP 등의 R 패키지를 사용하였다. 제안모델은 사용자 질의어와 답변에 대해서 추후에 질의내용을 분석하고, 답변을 추가하기 위해 DBI_0.
본 연구는 윈도우 환경에서, 통계 분석 및 그래픽 등으로 사용되는 R과 개발환경 툴인 RSudio를 이용하였으며, 결과를 시뮬레이션하기 위해 웹과 상호작용하고 분석결과와 그래프를 실시간으로 확인할 수 있는 사이니 패키지를 사용하였다. 또한, 한글 워드임베딩, 한글 문서 비교 및 답변 추출 부분을 시뮬레이션하기 위해서 word2vec, tm, KoNLP 등의 R 패키지를 사용하였다.
본 연구는 한글 워드임베딩 및 아프리오리(apriori)와 한글 텍스트 마이닝을 이용하여, 특정 도메인의 사용자 질의에 대해 보다 효율적인 질의어 확장과 답변을 검색할 수 있는 방법을 제안하였다. 본 연구의 한글 워드임베딩, 아프리오리, 텍스트 마이닝은 빅 데이터 통계 분석 및 그래픽 등으로 사용되는 R을 이용하였다. 또한, 시뮬레이션을 위해 샤이니(shiny) 패키지를 이용하여, 웹을 통해 인터렉티브하게 결과를 확인하였다[7].
이때 워드임베딩 과정과 마찬가지로 명사 추출과정에서 보다 정확한 답변을 검색하기 위해서 특수문자, 불용어, 비속어 한 단어 등을 제거하였다.
prep_word2vec()은 word2vec 전처리 과정으로 모든 답변을 합치고, 영문자를 모두 소문자로 변환하여 하나의 데이터로 통합하는 과정이다. 전처리과정에서 생성된 통합 테이터 워드임베딩 모델을 생성하기 위해, 명사 추출 및 특수문자, 불용어 제거 등의 전처리과정을 실행한다.
제안모델은 사용자 질의, 한글 워드임베딩, 텍스트 마이닝으로 구분된다. 사용자질의어는 사용자의 질의 유형과 사용자에 적합한 답변을 분석하기 위해 데이터베이스에 저장된다.
제안모델은 시뮬레이션을 위해 웹과 상호작용하고 웹을 통한 질의를 가능하게 함으로써, 분석 결과와 그래프를 실시간으로 확인할 수 있는 사이니 패키지를 사용하였다. 샤이니는 사용자 인터페이스인 ui.
한글워드임베딩은 명사추출과정을 거치지 않으면, 조사, 부사, 관형사 등 학습에 필요하지 않은 단어까지 학습하게 된다. 제안모델은 이를 위해 전처리 과정에서 생성된 파일을 읽어 특정 도메인의 모든 답변에 대해서 tm 및 KoNLP 패키지 등을 이용하여, 중요 키워드 인명사를 추출하였으며, 텍스트 마이닝을 통하여 효과적으로 답변을 추출하는 과정을 사이니 패키지를 사용하여 확인하였다. 제안모델은 특정 도메인의 답변을 학습하여, 연관성이 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다.
train_word2vec()은 word2vec으로 학습하여, 워드임베딩 모델을 생성한다. 최종적으로 워드임베딩 모델은 사용자 질의어 확장에 사용하였으며, 질의어의 각 단어들에 대해서 상관관계 높은 3개의 단어를 출력하였다.
입력층은 학습단어 C를 기준으로, 전후 C/2개의 단어를 one-hot encoding으로 투영시킨 후, 그 벡터들의 평균을 구해서 투영층에 보낸다. 투영층은 N개의 노드를 이용하며, 투영 결과와 가중치 곱한 후, 출력층에서 소프트맥스(softmax) 함수를 이용하여 에러를 계산한다. 또한, 학습을 통해 가중치를 조절하여 에러를 줄이기 위한 학습을 반복하게된다.
1, RMySQL 패키지를 사용하여, MySQL 데이터베이스와 연동하였다. 특히, 본 연구는 제안시스템의 질의어 확장에 대한 시뮬레이션을 위해서 항공, 철도, 버스 등에 대한 질문에 해당하는 답변을 사용하였다. 그림 5에 모든 답변문서에 대한 단어 빈도수를 내림차순으로 정렬하여 출력한 결과를 나타냈다.
한글 텍스트 마이닝은 질의어 확장에 따라 답변을 추출하는 단계로서, 특수문자, 불용어, 비속어 등을 제거하기 위해 "tm" 패키지를 이용하였으며, 효율적인 명사추출과 단어빈도수(term frequency), 역문서빈도수(inverse document frequency)를 이용한 단어 가중치를 추출하기 위해서 "KoNLP" 패키지를 이용하였다.

성능/효과

이와 같이 제안 모델은 정규화 결과를 이용하여, 코사인 유사도로 질의어와 워드임베딩을 통해서 추출된 확장 질의로부터 모든 답변들에 대해서 유사도를 추출하였으며, 최종적으로 유사도가 가장 높은 답변을 출력하였다.
제안모델은 이를 위해 전처리 과정에서 생성된 파일을 읽어 특정 도메인의 모든 답변에 대해서 tm 및 KoNLP 패키지 등을 이용하여, 중요 키워드 인명사를 추출하였으며, 텍스트 마이닝을 통하여 효과적으로 답변을 추출하는 과정을 사이니 패키지를 사용하여 확인하였다. 제안모델은 특정 도메인의 답변을 학습하여, 연관성이 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 본 연구는 적은 데이터로 시뮬레이션을 하였으나 보다 큰 도메인의 방대한 데이터를 가진 포털 사이트나 검색시스템의 질의어 확장을 위한 모델로 응용할 수 있다.

후속연구

제안모델은 특정 도메인의 답변을 학습하여, 연관성이 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 본 연구는 적은 데이터로 시뮬레이션을 하였으나 보다 큰 도메인의 방대한 데이터를 가진 포털 사이트나 검색시스템의 질의어 확장을 위한 모델로 응용할 수 있다. 본 연구는 향후 방대한 빅데이터 학습을 통한 워드 임베딩 구축이 필요하며, 데이터베이스에 저장된 사용자 질의를 분석하여, 사용자 중심의 연관성 높은 질의어를 추출하는 방법과 더불어 특정 도메인에서의 사용자 요구 분석 및 예측에 관한 연구가 필요하다.
본 연구는 적은 데이터로 시뮬레이션을 하였으나 보다 큰 도메인의 방대한 데이터를 가진 포털 사이트나 검색시스템의 질의어 확장을 위한 모델로 응용할 수 있다. 본 연구는 향후 방대한 빅데이터 학습을 통한 워드 임베딩 구축이 필요하며, 데이터베이스에 저장된 사용자 질의를 분석하여, 사용자 중심의 연관성 높은 질의어를 추출하는 방법과 더불어 특정 도메인에서의 사용자 요구 분석 및 예측에 관한 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	한글 워드임베딩에서 명사 추출과정을 거치지 않으면 어떤 일이 발생하는가?	한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다.
	검색시스템의 문제점은 무엇인가?	검색시스템은 질의어를 입력하여 정보를 검색하는 시스템으로, 질의유형은 내용검색, 사이트 검색, 서비스 검색 등이 있다. 사용자질의어는 평균 2.21개 정도로서 함축적인 의미를 가지며, 검색을 위한 판단 기준이 되지만, 사용자가 질의어를 직접 선정해야 하며, 검색을 위한 적합한 질의어를 연상하는데 어려움이 있다[1]. 검색시스템은 이러한 문제점을 해결하기 위해, 질의어의 의미와 맥락에 따른 연관성을 이용하여, 질의어를 확장하는 방법과 클릭 로그 데이터를 이용하는 방법들이 연구되어 왔다[2].
	검색시스템이란 무엇인가?	검색시스템은 질의어를 입력하여 정보를 검색하는 시스템으로, 질의유형은 내용검색, 사이트 검색, 서비스 검색 등이 있다. 사용자질의어는 평균 2.

참고문헌 (13)

Y. A Kim, G. W. Park, "An efficient extended query suggestion system using the analysis of users' query patterns," Korea Institute of Communication Sciences, Vol. 37, No. 7, pp. 619-626, June. 2012.

원문보기 상세보기
Z. Mai, G. Pant, and O. R. Liu Sheng, "Interest-based personalized search," ACM Transactions on Information systems, Vol. 25, No. 1, pp. 1-38, Feb. 2007.

상세보기
C. Buckley, G. Salton, and J. Allan, "The effect of adding relevance information in a relevance feedback environment," in Proceedings of 17th annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin : Ireland, pp. 292-300, July. 1994.
J. Garten, K. Sagae, V. Ustun, "Combining distributed vector representations for words," in Proceedings of NAACL-HLT, Denver: CO, pp. 95-101, May. 2015.
T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," in proceeding of Neural Information Processing Systems 26, Lake Tahoe: NV, pp. 3111-3119, Dec. 2013.
M. Tomas, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," in Proceeding of International Conference on Learning Representations, Scottsdale: AZ, pp. 01-09, May. 2013.
B. Chris, Web application with R using shiny, 1st ed. Birmingham, England: Packt Publishing, pp.47-72, Oct. 2013.
[Internet]. Available: https://github.com/bmschmidt/wordVectors
M. Andriy, and G. Hinton. "A scalable hierarchical distributed language mode," in Proceeding of Neural Information Processing Systems 21, Vancouver: British Columbia, pp.1081-1088, Dec. 2008.
Y. Kim, "A study on design and implementation of personalized information recommendation system based on apriori algorithm," Journal of Korean BIBLIA Society for Library and Information Science, Vol. 23, No. 4, pp. 283-308, Dec. 2012.

원문보기 상세보기
S. J. Ko, and J. H. Lee, "Weighted bayesian automatic document categorization based on association word knowledge base by apriori algorithm," Journal of the Korea Multimedia society, Vol. 4, No. 2, pp. 171-181, Apr. 2001.
H. S. Kim, S. C. Park, and S. H. Kim, "Measurement of document similarity using term/term-pair features and neural Network," Journal of Korean Institute of Information Scientists and Engineers, Vol. 31 No. 12, pp. 1660-1671, Oct. 2004.
D. Y. Park, "Pushing ahead context and project of capability education using national competency standards," Korea Research Institute for Vocational Education and Training, The Human Resources Development Review, Vol. 16, No. 3, pp. 52-71, Sep. 2013.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증