[논문]단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류

윤성희; 백선욱

doi:10.3743/kosim.2004.21.4.251

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류
Efficient Classification of User's Natural Language Question Types using Word Semantic Information 원문보기

정보관리학회지 = Journal of the Korean society for information management, v.21 no.4 = no.54, 2004년, pp.251 - 263

윤성희 (상명대학교 컴퓨터소프트웨어공학) , 백선욱 (상명대학교 컴퓨터소프트웨어공학)

초록
AI-Helper

질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

Abstract ▼ AI-Helper

For question-answering system, question analysis module finds the question points from user's natural language questions, classifies the question types, and extracts some useful information for answer. This paper proposes a question type classifying technique based on focus words extracted from questions and word semantic information, instead of complicated rules or huge knowledge resources. It also shows how to find the question type without focus words, and how useful the synonym or postfix information to enhance the performance of classifying module.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 영어권의 언어들에 대한 대규모 언어 지식베이스 등의 풍부한 자원에 비해 상대적으로 부족한 한국어 언어 자원의 문제를 해결하기 위해 대량의 코퍼스(corpus) 를 이용하거나 복잡한 규칙을 작성하지 않고 단어의미 정보를 중심으로 질의 유형을 분류하는 방법을 제안한다. 이용자의 자연어 질의 문장에서 질의의 초점을 나타내는 단어를 추출하고 구조적으로 인접한 단어들의 의미 체계 정보 (semantic category)# 이용해서 질의 유형을 분류할 수 있음을 보이고자 한다.
본 논문에서는 질의응답 시스템에서 이용자질의의 유형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 언어 자원을 이용하지 않고 질의문에 나타나는 단어의 의미 정보를 이용하는 방법을 제안하고 있다. 이용자의 자연어 질의 문장에서 의문사(interrogatives) 와 같은 질의 초점 어휘들을 추출하고 구문 구조적으로 인접하여 나타나는 단어들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법이다.
본 연구는 TREC에서 질의응답 시스템의 성능을 평가하기 위해 제시하는 이와 같은 척도들을 참조하여 한국어 자연어 질의 분석을 위해 질의 초점 어휘인 의문사의 종류와 그에 따른 질의 유형의 분류를 체계화하고자 하였다.
질의 유형 분류 과정이 시스템에 의해 정확 하게 이루어진다면 질의응답 시스템의 정답 추출 성능을 크게 향상시킬 수 있다. 본 연구에서는 영어권의 언어들에 대한 대규모 언어 지식베이스 등의 풍부한 자원에 비해 상대적으로 부족한 언어 자원의 문제를 해결하기 위해 대량의 코퍼스를 이용하거나 복잡한 규칙을 작성 하지 않고 단어들의 의미 정보 체계를 이용하여 질의 유형을 분류하는 방법을 제안하였다 이용자의 질의 의도를 파악하기 위해서 질의 문장에서 질의 초점 어휘와 구문적으로 인접한 단어의 의미 정보를 기반으로 질의 유형과 정답 유형을 결정할 수 있는 방법이다. 질의에서 구조적으로 인접한 단어들의 의미 정보 체계를 이용하여 질의 유형을 하위 단계까지 분류하여 시스템에서 정답 후보 생성과 정답 추출을 위해 효과적으로 사용할 수 있다.

제안 방법

질의응답 시스템을 평가하는 TREC의 QA Track 중 TREC-8에서는 약 53만 문서의 코퍼스로부터 수작업으로 작성한 200여 질문에 대해서 질의 유형을 분류하고 정답 추출 성능을 실험한 바가 있다. TREC-8에서는 질의에 대한 정답 추출 방법으로서 질의 유형에 따라 정답 유형에 일치하는 특정 개체를 주줄하는 방법 (50. 바이트 focus-based answer) 와 정답을 포함한 단락을 제시하는 방법(200 바이트 bag-of-words approach) 으로 구분하여 실험하였다. TREC-8에서 제시된 실제 질문의 예는 다음과 같으며.
TREC-8은 추출된 정답의 정확성을 중심으로 질의응답 시스템의 성능을 측정하지만본 연구의 실험에서는 단어 의미 정보에 기반한 질의 유형의 분류 방법에 의해 이용자의 자연어 질의가 얼마나 정확하게 분류되었는지에 대한 질의 유형 분류의 성능을 평가하고자 하였다<그림 3〉은 본 연구에서 단어 의미 정보를 중심으로 이용자 질의의 유형을 판별하는 과정을 흐름도(flow chart)로 나타낸 것이다. 실험을 위하여 기존의 정보 검색 시스템에서 키워드 검색에 매우 익숙한 대학생들을 대상으로 다량의 검색 대상 문서들을 제공하고 자연어 질의 문장을 수집하였다.
이용자의 자연어 질의 문장에서 의문사(interrogatives) 와 같은 질의 초점 어휘들을 추출하고 구문 구조적으로 인접하여 나타나는 단어들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법이다. 또한 질의 초점 어휘로서 의문사가 생략된 경우에는 인접 출현하는 어휘들의 의미 정보를 이용하는 분류 처리 방법과 동의어 및 유의어 정보와 접미사 정보를 이용하여 질의 유형 분류 과정의 성능을 향상 시킬 수 방법을 제안한다.
본 연구에서 제안하는 자동 분류의 성능을 실험하기 위해 사전 튜닝 과정을 통해서 이용자 질의에 나타나는 단어들 중 실험 사전에 등록되지 않은 단어들과 접미사, 동의어 유의 어에 해당하는 단어들을 등을 구분하여 등록 하였다.
본 연구의 주제가 되는 질의 분석 모듈에서 이용자 입력 질의의 초점이 무엇인지를 분석하는 과정은 이용자의 질의가 어떤 종류의 개체를정답으로 요구하는가에 따라 정답을 찾는데 필요로 하는 질의의 특성을 분석한다. 이때 질의의 초점은 특정 범주의 개체로서, 예를 들어 '사람', '장소', '시간', 조직', '거리 등의 범주가 된다.
실험 대상자들에게 일반 정보검색 시스템과 질의응답 시스템의 차이를 충분히 설명하였으며, 대상 문서들의 내용을 이해한 다음 정답 개체명이나 정답을 포함하는 문장 또는 정답 단락을 제공하는 가상의 질의응답 시스템에 대한 질의 문장을 자연어로 입력하도록 하였다. 약 2,200 자연어 질의 문장을 수집하여 우선적으로 질의 유형을 수동 분류하였다.
실험 대상자들에게 일반 정보검색 시스템과 질의응답 시스템의 차이를 충분히 설명하였으며, 대상 문서들의 내용을 이해한 다음 정답 개체명이나 정답을 포함하는 문장 또는 정답 단락을 제공하는 가상의 질의응답 시스템에 대한 질의 문장을 자연어로 입력하도록 하였다. 약 2,200 자연어 질의 문장을 수집하여 우선적으로 질의 유형을 수동 분류하였다.
TREC-10 및 TREC-11에 참가한 질의응답 시스템들을 참고하여 구축한 의미 범주 계층의 예를<표 3>에서 보이고 있다. 질의 문장에 대하여 질의 유형을 분류하고, 각 질의 유형에 대해 다시 세분화된 하위 의미 범주를 분류하였다. 단어의미 체계로서 세분화된 하위 의미 범주는 각질의 유형에 대해 정답 유형을 결정하고 정답 후보를 선택하는데 결정적으로 사용된다.
질의 초점 어휘 역할을 하는 의문사와 함께 인접 단어들의 의미 정보를 기반으로 질의 유형을 결정하기 위해 구문 구조적으로 관련된 단어들을 판별해야 하며, 이를 위해 이용자의 자연어 질의 문장에 대한 얕은 수준의 개략적 구문 분석(shallow parsing) 을 하고 그 결과를 이용한다.
질의응답의 검색 대상 문서는 시사 뉴스 스푸.츠 뉴스 학술 내용 등을 담은 웹 문서들과 개인 학과 홈페이지 등이다<표 3〉과 같은 방법으로 단어 의미 범주 및 하위 범주 체계를 적용하기 위해 태깅된(tagged) 문서의 단어들을 수집하여 실험용 의미 정보 사전으로 구축하였다.

대상 데이터

TREC-8은 추출된 정답의 정확성을 중심으로 질의응답 시스템의 성능을 측정하지만본 연구의 실험에서는 단어 의미 정보에 기반한 질의 유형의 분류 방법에 의해 이용자의 자연어 질의가 얼마나 정확하게 분류되었는지에 대한 질의 유형 분류의 성능을 평가하고자 하였다<그림 3〉은 본 연구에서 단어 의미 정보를 중심으로 이용자 질의의 유형을 판별하는 과정을 흐름도(flow chart)로 나타낸 것이다. 실험을 위하여 기존의 정보 검색 시스템에서 키워드 검색에 매우 익숙한 대학생들을 대상으로 다량의 검색 대상 문서들을 제공하고 자연어 질의 문장을 수집하였다. 질의응답의 검색 대상 문서는 시사 뉴스 스푸.

성능/효과

위와 같이 동의어와 유의어 정보, 또 접미사 정보를 질의 유형 분류에 이용하는 방법은 단어 의미 사전이 지나치게 많은 수의 엔트리를 포함하는 방대한 규모가 되지 않도록 체계화한다. 또한 기존의 등록된 단어들로부터 파생적으로 끊임없이 생성될 수 있는 단어들을 쉽게 등록하고 관리할 수 있어서 유연하고 능동적인 시스템이 될 수 있다.
본 연구에 대한 실험을 통하여 복잡한 규칙이나 방대한 언어 자원 또는 대량의 통계 정보 등을 이용하지 않고 질의 분석 모듈의 처리 부담을 크게 줄이면서 만족할 만한 분류 결과를 얻을 수 있음을 확인하였다. 단어 의미 범주를 체계화한 의미.
이용자 질의 유형의 수동 분류 결과를 100%로 보았을 때 본 연구에서 소개한 단어 의미 정보를 이용한 질의 유형의 자동 분류 결과는 89.2%의 성공률 나타냈다<표 4〉는 실험 질의에서 나타난 의문사 출현 빈도를 나타낸다.
이용자 질의 중에서 의문사 생략된 형태의 질의가 26.5%를 차지해서 실험 대상자들이 기존 키워드 검색에 매우 익숙한 경향을 간접적으로 나타냈다. 의문사를 갖는 질의들도 많은 경우에 '무슨 어떤 어느 등이 사용되어서구문 구적으로 인접한 단어들의 의미 정보를 이용하여 질의 유형이 분류되었다 구문적으로 인접한 단어의 의미 정보가 질의 유형 분류의 기반이 되므로 질의 문장의 구문 구조적 정보를 얕은 수준의 파싱(shallow parsing)을 통해 얻고 시스템의 계산 부담을 줄일 수 있도록 한다<표 5〉는 단어 의미 정보를 기반으로 구축된 실험 시스템에서 성공적으로 자동 분류된질의 유형의 분포를 보이고 있다.

후속연구

사전을 구축하고 동의어 사전, 유의어 사전, 접미사 정보 등을 실용적 수준으로 생성하는 과정이 뒤따라야 할 것이다. 또한 질의 유형의 하위 의미 분류를 보다 다양하고 폭넓게 적용하여 이용자 질의 문장에서 정답 유형 및 정답 개체의 종류를 더 구체적으로 제시할 수 있도록 하기 위한 연구가 계속될 필요가 있다.

참고문헌 (24)

김수민, 백대호, 김상범, 엄해창. 2000. 시소러스 범주정보를 이용한 질의응답 시스템. '한글 및 한국어 정보처리 학술대회'
김영택. 2001. 자연언어처리. '생능출판사'
김학수, 안영훈, 서정연. 2003. 하이브리드 방법의 사용자 질의 의도 분류. '한국정보과학회 논문지-소프트웨어 및 응용', 30 (1): 51-57
김현돈, 조성배. 2000. 한메일넷 질의 자동응답을 위한 이단계 자기구성 지도. '정보과학회 춘계학술대회'
박세영, 강현규. 1998. 한글공학: 정보검색. '한국정보처리학회지', 특집, 5(5)
박소연, 이준호 2002. 로그 분석을 통한 이용자의 웹 문서 검색 행태에 관한 연구. '정보관리학회지', 19(3): 111-122

원문보기 상세보기
신승은, 이대연, 서영훈. 2004. 구문관계 정보를 이용한 한국어 질의응답 시스템, '한국콘텐츠학회 논문집', 4(2)
양수정, 서영훈. 2003. 질의문의 구문정보를 이용한 키워드 추출. '한국콘텐츠학회 추계 종합 학술대회', 1(2)
윤성희, 장혜진. 2004. 자연어 질의 분석과 검색어 확장에 기반한 웹 정보 검색. '정보관리학회지', 21(2): 235-248

원문보기 상세보기
원정임, 윤지희, 이건배. 1997. 유사객체 검색에 의한 협력 질의 응답. '한국정보처리학회 추계 학술대회'
이경순, 김재호, 최기선. 2000. KorQuA: 질의응답에서 자료 유형을 고려한 대답 검색과 대답 해석. 한글 및 한국어 정보처리 학술대회
이재홍, 최호섭, 옥철영. 2003. 개념어의 습득을 위한 지식기반 질의응답시스템. '제15회 한글 및 한국어 정보처리 학술대회'
황이규, 김현진, 장명길. 2004. 질의응답 기술 개발. '정보처리학회지', 11(2): 48-56

원문보기 상세보기
AAAI Fall Symposium on Question Answering.
Baeza Yates Ricardo. and Reberio Neto Berthier. 1999. Modern Information Retrieval. Addison Wesley
Burger J. and Cardie C. 2001. Issues, Tracks and Program Structures to Roadmap Research in Question & Answering(Q&A).
Edward H, Hermjakov U, Lin CY, Ravichandran D. 2002. Using Knowldege to Facilitate Factoid Answer Pinpointing. Coling 2002
Ellen M. Voorhees. 1999. The TREC-8 Question Answering Track Report.
Ellen M. Voorhees. Tice D. 2000. Building a Question Answering Test Collecion. Proceedings of SIGIR 2000. 200-207
Ittycheriah A. Franz M. etc. 2000. IBM's Statistical Question Answering System. TREC-9. 229-234
Jimmy L. 2002. The Web as Resource for Question Answering. LREC 2002
Jimmy L. and Boris Katz. 2003. Question Answering Techniques for the World Wide Web. 10th Conference of the European Chapter of the Association for Computational Linguistics (EACL-2003)
Lee G. Lee S. etc. 2001. Site/Q: Engineering high performance QA system using Lexico-semantic pattern matching and shallow NLP. TREC-10. 437-446
Moldovan D. Adrian N. 2002. Lexical Chain for Question Answering. Coting 2002. TREC(Text Retrieval Conference).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류
Efficient Classification of User's Natural Language Question Types using Word Semantic Information 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (24)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류 Efficient Classification of User's Natural Language Question Types using Word Semantic Information 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (24)

이 논문을 인용한 문헌

저자의 다른 논문 :

윤성희 (13) 백선욱 (5)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류
Efficient Classification of User's Natural Language Question Types using Word Semantic Information 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper