[논문]자연어 저장소에 기반을 둔 자연어 질의처리를 위한 데이터베이스 활용 방안에 관한 연구

전익진; 이병래

자연어 저장소에 기반을 둔 자연어 질의처리를 위한 데이터베이스 활용 방안에 관한 연구
Utilization of A Data Base for Query Processing of natural language on the Repository of natural language 원문보기

한국정보처리학회 2012년도 춘계학술발표대회, 2012 Apr. 26, 2012년, pp.1058 - 1061

전익진 (한국방송통신대학교 정보과학과) , 이병래 (한국방송통신대학교 정보과학과)

초록
AI-Helper

최근 웹을 기반으로 한 계속적인 기술 발전에 따라 의사결정에 필요한 데이터의 요구는 점점 다양해지고 있으며 다양한 요구를 효과적으로 대응하기 위해 데이터 추출 방법에 대한 연구도 지속적으로 이루어지고 있다. 이에 본 논문에서는 자연어를 통해 사용자가 쉽게 원하는 자료를 추출 할 수 있는 방법론을 연구 하였다. 자연어 처리 기술에 대한 연구는 여러 방면에서 이루어지고 있는데 그 중에서도 본 논문에서는 기존의 자연어 처리 연구를 바탕으로 크게 3가지 형태로 연구 진행 하였다. 사용자가 입력한 정보를 바탕으로 유추하여 자연어를 처리하거나 이후 진행될 검색을 선 예측 하는 방법과 사용자 별로 검색되는 자연어를 통해 연관 관계를 설정하여 사용자에게 예측검색을 유도하는 방법 그리고 의사 결정을 위해 구축된 데이터베이스 스키마 정보를 이용하여 사용자가 쉽게 질의 문을 생성할 수 있도록 하는 방법론 연구이다. 본 논문을 통해 연구된 내용은 실제 구축하여 진행 하였고, 연구결과로 생성된 질의 문이 효과적으로 시스템에서 처리 되는 과정에 대한 연구도 함께 진행하고 검증하였다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

해서 자연어 저장소를 구축하기 위한 방법론이 반드시 연구 되어 져야 한다. 그에 따른 한 방안으로 사용자 정의형 구축방법론을 제시하고자한다. 이는 사용자가 자연어 저장소에 존재하지 않는 새로운 형식의 자연어를 제시하고 이를 사용자간 서로 의미를 부여하며 정의하는 것으로 데이터를 구축해 나가는 것이다.
기존의 자연어 질의처리 연구에서 보편적으로 연구해 오던 패턴 분석 후 조합하는 기능적인 측면보다는 이를 포함하는 활용 방법론에 무게를 두고 연구할 계획 이다. 본 논문에서는 자연어 저장소 활용을 위해 검색 예측(Searching prediction), 연관 검색(Coupling Search), 시각화(Visualization)의 3가지 방법론을 제시하고자 한다.
이와 함께 사용자로 하여금 제안된 자연어로 검색을 유도하여 시스템 성능 또한 향상 시킬 수 있게 될 것이다. 본 논문은 자연어 저장소 구축을 위한 방법 보다 자연어 저장소 활용에 대한 방법론을 제시하고 있다. 자연어 저장소 구축이 선결 처리되어야 하는 문제를 안고 있다.
따라서 사용자가 질의문을 생성할 때, 일상에서 사용하는 자연어를 편하게 입력하여 연동처리 될 수 있다면, 이러한 문제는 해결 될 수 있을 것이다. 이에 본 논문에서는 자연어 저장소라는 개념을 도입하여 자동질의응답 처리에 대해 연구하고자 한다. 기존의 자연어 질의처리 연구에서 보편적으로 연구해 오던 패턴 분석 후 조합하는 기능적인 측면보다는 이를 포함하는 활용 방법론에 무게를 두고 연구할 계획 이다.
사용자가 일반적으로 매출 내역을 검색하고 뒤이어 상품 구매 가를 검색 한다면, 결과적으로 마진율을 검색할 확률이 높다는 것을 알 수 있다. 총 4단계의 자연어 검색을 진행 하면, 첫 번째 단계 혹은 두 번째 단계에서 매출 내역을 보고 그 다음으로 곧이어 상품 구매 가를 검색하게 된다는 가정 하에 다음 단계에서 바로 확인되지 않아도 대부분의 사용자는 마진율을 보고자 한다는 것이다.

가설 설정

사용자가 입력한 자연어를 보다 효과적으로 처리하기 위해서는, 사용자가 입력할 자연어에 대한 데이터를 미리 예측 하여 저장해 두는 것이 기존의 구문 분석적인 방법 보다 효과적일 것이다. 본 논문 에서는 이렇게 미리 예측 된 대용량의 자연어를 마이닝하여 구축한 데이터베이스를 자연어 저장소라고 할 것이다. 구축 될 자연어 저장소에는 검색 예측 영역, 연관 검색 영역 그리고 시각화 영역으로 구분되어진다.
사용하는 언어, 입력되는 장소, 시간, 검색하는 사람, 입력주기 등 많은 것을 고려해야 하며, 모두 충족 되게 예측되었다 하여도 그 정확도를 장담하기란 매우 힘들기 때문이다. 사용자가 입력한 자연어를 보다 효과적으로 처리하기 위해서는, 사용자가 입력할 자연어에 대한 데이터를 미리 예측 하여 저장해 두는 것이 기존의 구문 분석적인 방법 보다 효과적일 것이다. 본 논문 에서는 이렇게 미리 예측 된 대용량의 자연어를 마이닝하여 구축한 데이터베이스를 자연어 저장소라고 할 것이다.

제안 방법

본 논문에서 다루게 되는 자연어 저장소의 검색 예측과 연관 검색은 연관 규칙(rule)을 기본 골격으로 하여 이루어진다. 연관 규칙은 a => b의 형태를 갖는 패턴으로서, a 와 b는 항목의 집합을 의미한다.
실제 자연어 저장소를 통해 생성된 질의문은 효과적으로 결과물을 호출해야 한다. 이에 따라 자연어 저장소 기능을 통해 생성된 질의 문을 검증 진행 하였다. 자연어 저장소의 검색 예측을 통해서 만들어 진 “금일 매장 별 총 매출 데이터”에 대한 질의 원문은 다음과 같다.

후속연구

이에 본 논문에서는 자연어 저장소라는 개념을 도입하여 자동질의응답 처리에 대해 연구하고자 한다. 기존의 자연어 질의처리 연구에서 보편적으로 연구해 오던 패턴 분석 후 조합하는 기능적인 측면보다는 이를 포함하는 활용 방법론에 무게를 두고 연구할 계획 이다. 본 논문에서는 자연어 저장소 활용을 위해 검색 예측(Searching prediction), 연관 검색(Coupling Search), 시각화(Visualization)의 3가지 방법론을 제시하고자 한다.
자연어 저장소 구축이 선결 처리되어야 하는 문제를 안고 있다. 또한 아무리 많은 자연어를 확보 한다고 하여도 그 한계성은 분명히 존재 할 것이다. 해서 자연어 저장소를 구축하기 위한 방법론이 반드시 연구 되어 져야 한다.
연관 검색은 트랜젝션 데이터를 분석하고, 그 분석한 데이터가 누적되어 갈수록 더욱 효과적인 데이터를 구축하게 된다. 사용자별 검색 성향, 시간대 별 검색 주기 등등으로 인해 쌓이는 데이터 하나하나가 연관 검색의 데이터로서 활용가치가 높다는 것이다.
그러나 이중 하나의 제안을 수용하여 시스템에 구현한다면, 자연어 저장소를 통해서 다양한 자연어를 보다 유연하게 처리할 수 있게 되며, 사용자에게 효과적인 자연어를 선 예측하여 제공하게 됨으로써, 자연어조차도 입력해야 하는 번거로움을 최소화 하게 된다. 이와 함께 사용자로 하여금 제안된 자연어로 검색을 유도하여 시스템 성능 또한 향상 시킬 수 있게 될 것이다. 본 논문은 자연어 저장소 구축을 위한 방법 보다 자연어 저장소 활용에 대한 방법론을 제시하고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	질의응답 시스템은 일반적으로 어떤 단계들로 구성되는가?	) 검색하는 정보검색 (Information Retrieval) 시스템과는 달리 사용자의 질의에 대한 답변이 될 수 있는 정답을 결과 집합 내에서 사용자에게 제시해주는 시스템이다. 일반적으로 질의응답 시스템은 사용자의 질의에 관련된 결과를 검색하는 후보검색 단계 (candidate retrieval phase) 와 검색된 문서 내에서 정답을 생성하는 정답추출 단계 (answer extraction phase)로 구성된다. 일반적인 질의응답 시스템의 흐름은 [그림 1]과 같다.
	질의응답 시스템은 무엇인가?	질의응답 시스템은 사용자의 질의와 관련된 결과 정보를(일부에서는 문서라고 표현하기도 함.) 검색하는 정보검색 (Information Retrieval) 시스템과는 달리 사용자의 질의에 대한 답변이 될 수 있는 정답을 결과 집합 내에서 사용자에게 제시해주는 시스템이다. 일반적으로 질의응답 시스템은 사용자의 질의에 관련된 결과를 검색하는 후보검색 단계 (candidate retrieval phase) 와 검색된 문서 내에서 정답을 생성하는 정답추출 단계 (answer extraction phase)로 구성된다.
	사용자가 입력하는 자연어를 예측하기 어려운 이유는 무엇인가?	사용자가 입력하는 자연어는 예측하기 매우 곤란하다. 사용하는 언어, 입력되는 장소, 시간, 검색하는 사람, 입력주기 등 많은 것을 고려해야 하며, 모두 충족 되게 예측되었다 하여도 그 정확도를 장담하기란 매우 힘들기 때문 이다. 사용자가 입력한 자연어를 보다 효과적으로 처리하기 위해서는, 사용자가 입력할 자연어에 대한 데이터를 미리 예측 하여 저장해 두는 것이 기존의 구문 분석적인 방법 보다 효과적일 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자연어 저장소에 기반을 둔 자연어 질의처리를 위한 데이터베이스 활용 방안에 관한 연구
Utilization of A Data Base for Query Processing of natural language on the Repository of natural language 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자연어 저장소에 기반을 둔 자연어 질의처리를 위한 데이터베이스 활용 방안에 관한 연구 Utilization of A Data Base for Query Processing of natural language on the Repository of natural language 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

자연어 저장소에 기반을 둔 자연어 질의처리를 위한 데이터베이스 활용 방안에 관한 연구
Utilization of A Data Base for Query Processing of natural language on the Repository of natural language 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper