[논문]한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석

함영균; 남상하; 최기선

문제 정의

(3) 온톨로지 매핑: 본 시스템은 3장에서 논의된 바와 같이 가상의 지식베이스를 가정한 모형 쿼리 생성을 위하여 질의에서 분석되어야 하는 최대한의 정보를 의미 분석하는 데에 목표로 하였다. 실제 지식베이스를 대상으로 한 질의응답 시스템의 개발을 위해서는, 디비피디아와 같은 현존하는 지식베이스의 스키마에 대하여 매핑된 SPARQL 쿼리를 생성하는 온톨로지 매핑이 추가 연구로 남아있다.
또한 질의에 대한 프레임넷 코퍼스는 한국어는 물론 영어에 대해서도 진행된 바 없는 것으로 알려져 있다. 따라서 본 연구는 한국어 의미 분석을 위해 최소한의 학습데이터를 사용하기 위해 기존에 공개된 자연언어처리 도구를 활용하는 방향으로 진행되었다.
본 논문에서는 다양한 한국어 질의의 형태에 대하여, 질의로부터 이해되어야 하는 요소들을 모두 분석하는 것을 목표로 삼았다. 이에 대응하기 위하여 정보추출 방식이 아닌 의미 분석 방식을 채택하였고, 전통적 의미 분석 방식의 한계인 어휘의 의미모호성 문제는 프레임 의미 모호성의 문제로 국한시켰다.
본 논문에서는 위와 같은 그래프를 QAF(Question Answering with Frame Semantics)로 부르며, 질문에서 분석되어야 할 필수요소들이 충분히 분석되는 구조로서 보았다. 이때 질의에서 나타난 조사는 의미 분석에서 주요한 특질로서 고려되지만, QAF에서는 실제 논항이 아니라고 간주하여 제외하도록 하였다.
이때 질의에서 나타난 조사는 의미 분석에서 주요한 특질로서 고려되지만, QAF에서는 실제 논항이 아니라고 간주하여 제외하도록 하였다. 본 논문에서는 입력으로 한국어 질의를 받고, 출력으로 QAF를 내어주는 시스템 개발을 목표로 하였다.
본 논문에서는 자연언어 질의를 분석하기 위하여 프레임 구조를 적용한 의미 분석으로서 QAF 모형 쿼리를 생성하는 시스템을 개발하였다. 지식베이스에 의존적인 쿼리 생성은 지식베이스의 불완전성으로 질의에서 나타나는 정보를 충분히 분석하지 못한다는 점에 착안하여, 의미 분석으로서 프레임 구조를 분석하는 것을 목표로 하였다.
그리고 질의에서 제공하는 정답의 근거들(3)은 SPARQL 쿼리에서 와 같은 트리플 패턴으로 작성되어 수많은 지식베이스의 개체들 중에서 가장 정답에 가까운, 즉 트리플 패턴의 조건들에 부합하는 개체들을 정답으로 내어주게 된다. 본 논문에서는, 한국어 질의를 충분히 의미 분석하는 것을 목표로 하고 있어 위의 세 가지 요소를 모두 발견하는 시스템을 개발하고자 한다.
이러한 프레임은 종종 지식베이스의 스키마로서 사용되기도 한다[9]. 본 논문에서는, 한국어 질의에 대한 의미 이해 방법으로서, 프레임 구조에 기반한 모형 쿼리(pseudo query)를 생성하는 것을 목표로 하며, 현재의 연구 범위에서는 단문 질의와 단답형 질의를 대상으로 수행하였다. 아래 표 1에서 위에서 상술된 정보추출(IE) 방식과, 전통적인 의미 분석(SP) 방식, 그리고 본 논문과의 연구 위치를 비교하였다.
SRL 결과에서 발견된 복수개의 술부-논항 그래프의 경우 독립적인 어노테이션 층으로 존재하여, 두 그래프를 연결해주는 모듈의 개발이 필요하다. 본 시스템에서는 각 논항들의 문장 내 위치 정보를 사용하여 어노테이션 들을 연결하는 모듈을 개발하여 포함하였다.
이러한 결과는 사용의 편의를 위하여 JSON 포맷과 RDF 포맷의 두 가지 형태로 출력된다. 여기에는 추후 디비피비아와 같은 실제 지식베이스에 적합한 SPARQL 쿼리로 변경하는 모듈을 개발하는데 있어 상호운용성을 확보하고자 하는 의도가 있다.
본 논문에서는 자연언어 질의를 분석하기 위하여 프레임 구조를 적용한 의미 분석으로서 QAF 모형 쿼리를 생성하는 시스템을 개발하였다. 지식베이스에 의존적인 쿼리 생성은 지식베이스의 불완전성으로 질의에서 나타나는 정보를 충분히 분석하지 못한다는 점에 착안하여, 의미 분석으로서 프레임 구조를 분석하는 것을 목표로 하였다. 추후 연구에서는 복문 질의에 대한 처리 및 실제 지식베이스에의 적용 등을 수행할 예정이다.

제안 방법

예를 들어 “가장 높은 산은?”, “몇 개?”, “누구인가?” 등으로부터 질문에서 얻고자 하는 정답을 얻는 방식이 달라지고, 따라서 쿼리의 형태도 달라지기 때문이다[10]. 그리고 질의에서 제공하는 정답의 근거들(3)은 SPARQL 쿼리에서 와 같은 트리플 패턴으로 작성되어 수많은 지식베이스의 개체들 중에서 가장 정답에 가까운, 즉 트리플 패턴의 조건들에 부합하는 개체들을 정답으로 내어주게 된다. 본 논문에서는, 한국어 질의를 충분히 의미 분석하는 것을 목표로 하고 있어 위의 세 가지 요소를 모두 발견하는 시스템을 개발하고자 한다.
그림 3에서 볼 수 있듯, 어휘 “해전” 및 의문사“무엇”이 특정 조건하에서 발견되었을 때, 해당 조건에 따라 Q-Frame을 “해전”, Q-FE를 “무엇”으로 발견한 뒤, 해당 어휘에 대하여 사전에 구축된 문자열-프레임 매핑 테이블을 사용하였다.
이때 접속 조사로 연결되었을 경우, 술부와 동일한 의미역을 갖는 두 개의 논항으로 분류하여 주었다. 또한 실제 논항이 아닌 조사 등에 대하여서는 논항에서 제외하는 후처리를 수행하였다.
현재 존재하는 한국어 SRL 도구는 여러 어절로 이루어진 명사 구 중, 가장 마지막 어절에 대하여서만 논항으로 인식하여준다. 본 논문에서는 의존구조에서 연속적으로 연결된 명사구에 대해 하나의 논항으로 인식하여 주는 후처리 구 묶음 처리를 수행하여 주었다. 이때 접속 조사로 연결되었을 경우, 술부와 동일한 의미역을 갖는 두 개의 논항으로 분류하여 주었다.
한 해전을 말해보시오”와 같은 표현이다. 본 시스템에서는 입력 질의에 대해 규칙을 적용하여 위의 세 유형으로 분류하는 질의유형분류 모듈을 개발하였다. 해당 모듈에 따라 밝혀진 질의의 유형에 따라 질의의 의존구문구조 속에서 Q-Frame과 Q-Fe를 발견하는 아래 표 4와 같은 룰을 적용하였다.
본 논문에서는, 한국어 질의에 대한 의미 이해 방법으로서, 프레임 구조에 기반한 모형 쿼리(pseudo query)를 생성하는 것을 목표로 하며, 현재의 연구 범위에서는 단문 질의와 단답형 질의를 대상으로 수행하였다. 아래 표 1에서 위에서 상술된 정보추출(IE) 방식과, 전통적인 의미 분석(SP) 방식, 그리고 본 논문과의 연구 위치를 비교하였다.
그림 3에서와 같이, 한국어 SRL 도구의 술부를 Sub-Frame의 target 어휘를 발견하는데 사용하였고, 각각의 논항을 프레임 구성요소로서 사용하였다. 위와 같은 처리를 통해 발견된 target 어휘에 대하여 프레임을 매핑하기 위하여 한국어 프레임넷⁴⁾의 6,820개의 LU(Lexical Unit), 즉 각 프레임에 해당하는 어휘들과의 문자열 매칭 방법으로 이루어졌다.
위의 처리 등을 통하여, 본 시스템은 자연언어 질의에 대한 RDF표현에 기반한 모형 쿼리인 QAF를 생성해 준다. 본 논문에서 계속해서 사용된 예시인 질의 “이순신 장군이 1597년에 명량해협에서 지휘한 해전은 무엇인가?”에 대한 본 시스템의 출력은 아래와 같다:
평가는 OKBQA에서 사용된 NLQ50 평가 데이터셋을 사용하여 수행되었다. 이때 50개 질의 중, O/X 질의나 서술형 질의를 제외한 45개 질의에 대해 평가하였다.
예컨대 한국어 질의 “이순신 장군이 1597년에 명량해협에서 지휘한 해전은 무엇인가?”에서 “이순신 장군”, “1597년”, 그리고 “명량해협”과 같은 정보들이다. 이러한 트리플 패턴을 생성하기 위해 본 논문에서는 의미 분석으로서 프레임의 술부-논항 구조를 적용하였다. 프레임은 ProbBank 스타일의 술부-논항 구조를 가지며, 술부 및 논항의 역할에 대한 보다 자세한 의미를 부여한다는 점에서만 차이가 있다.
그러나, 술부논항 구조에서 두 그래프 중 하나라도 해당 어휘를 논항으로 발견하지 못하는 경우에는 두 그래프를 하나의 그래프로 합치는 처리를 하지 못한다. 이를 위해 SRL에서 Q-Frame의 논항을 발견하지 못하는 경우 이를 해당 술부에 대한 논항으로 포함하도록 후처리 하였다.
본 논문에서는 다양한 한국어 질의의 형태에 대하여, 질의로부터 이해되어야 하는 요소들을 모두 분석하는 것을 목표로 삼았다. 이에 대응하기 위하여 정보추출 방식이 아닌 의미 분석 방식을 채택하였고, 전통적 의미 분석 방식의 한계인 어휘의 의미모호성 문제는 프레임 의미 모호성의 문제로 국한시켰다.

대상 데이터

(1) 프레임 매핑: 본 시스템은 target 어휘에 대해 프레임을 부착하기 위하여 한국어 프레임넷의 LU 데이터를 사용하였다. 그러나 해당 데이터셋의 커버리지는 위의 평가에서 60%가량으로 나타나 이에 대한 성능 향상이 필요하다.
NLQ400은 384개의 한국어 질의로 구성되어 있고, 역사, 과학, 예술 등 다양한 도메인으로 이루어 져 있다. 본 논문은 단답형 질의를 연구 범위로 하여, 위키피디아 1개 문장으로 답변 가능한 질의 95개를 선별하였고, 이 중 객관식이나 O/X 문제 등을 제외한 단답형 문제 72개에 대한 수작업 프레임 어노테이션 작업을 수행하였다. 위의 예로든 질의에 대한 어노테이션 결과는 다음과 같다.
본 시스템은 45개 질의 모두에 대하여 각각 1개씩의 Q-Frame을 발견하였고, 추가적으로 Sub-Frame을 생성하는 51개의 target 어휘를 발견하였다(평균 2.13개). 전체 96개 target 어휘에 대하여 58개의 프레임을 부착하였고, 이에 대한 수작업 검증에서 모두 옳은 프레임으로 평가되었다.
본 시스템을 개발하기 전에 한국어 질의에 대한 프레임 분석의 유용성을 검토하기 위하여 [11]에서 사용된 질의 데이터인 NLQ400을 사용하였다. NLQ400은 384개의 한국어 질의로 구성되어 있고, 역사, 과학, 예술 등 다양한 도메인으로 이루어 져 있다.
평가는 OKBQA에서 사용된 NLQ50 평가 데이터셋을 사용하여 수행되었다. 이때 50개 질의 중, O/X 질의나 서술형 질의를 제외한 45개 질의에 대해 평가하였다.

이론/모형

그림 3에서와 같이, 한국어 SRL 도구의 술부를 Sub-Frame의 target 어휘를 발견하는데 사용하였고, 각각의 논항을 프레임 구성요소로서 사용하였다. 위와 같은 처리를 통해 발견된 target 어휘에 대하여 프레임을 매핑하기 위하여 한국어 프레임넷⁴⁾의 6,820개의 LU(Lexical Unit), 즉 각 프레임에 해당하는 어휘들과의 문자열 매칭 방법으로 이루어졌다.
프레임은 ProbBank 스타일의 술부-논항 구조를 가지며, 술부 및 논항의 역할에 대한 보다 자세한 의미를 부여한다는 점에서만 차이가 있다. 본 논문에서는 이러한 술부-논항구조를 밝혀내기 위한 목적으로 한국어 의미역 분석(SRL)도구를 사용하였다[14].
또한 위의 예시에서 보았듯, “도착한”과 같은 행위에 대하여서도 의미를 일관성 있고 정확하게 표현하지 못한다. 본 논문에서는 이러한 언어 수준의 의미를 충분하게 표현하기 위하여 프레임넷[8]의 프레임 시멘틱스(이하 프레임) 개념을 적용하였다. 프레임넷은 propBank와 유사한 구조, 즉 술부-논항의 관계 구조를 갖고 있다.
위와 같은 이유로, 본 논문에서는 한국어 질의 이해를 위하여 의미 분석 방식의 접근법을 적용하였다. 의미 분석 방식은 정보추출 방식과 달리, 지식베이스를 고려하지 않고 질의에서 포함하고 있는 의도와 정보의 의미를 충분히 분석하는 것을 목표로 한다.

성능/효과

이러한 주석을 통하여 본 연구팀은 정답의 유형을 의미하는 어휘 “해전”에 대한 어노테이션 1, 즉 의문사를 포함하는 어노테이션은 (1)정답의 유형 및 (2)의문사를 논항으로 갖고 있으며, (3)정답의 근거에 대한 정보는 어노테이션 2에서 나타난다는 것을 확인하였다.
13개). 전체 96개 target 어휘에 대하여 58개의 프레임을 부착하였고, 이에 대한 수작업 검증에서 모두 옳은 프레임으로 평가되었다. 그리고 45개에 질의에 대하여 질문에 대한 근거에 해당하는 36개의 논항 정보들을 생성할 수 있었다.

후속연구

(2) 다양한 형태의 질의 처리: 본 시스템은 단문 단답형 질의에 대하여 처리를 제공하고 있으나, 실제 질의응답시스템을 위해 적용하기 위해서는 복문의 질의나 괄호문제, O/X문제 등에 대한 다양한 처리를 제공할 필요가 있다. 특히 복문 질의에 대한 처리가 차후 연구 목표로 남아있다.
본 논문에서 개발된 시스템은, 자연언어 질의에 대해 프레임 구조로 밝혀진 술부-논항 구조로부터 기계가 읽을 수 있는 쿼리를 만드는 데에 사용될 계획이다. 이때, 기존의 지식베이스의 형태에 맞춰진 정보추출 방식이 아니기 때문에, 가상의 지식베이스가 있다고 가정하고 프레임을 통해 표현할 수 있는 모든 언어적 의미를 표현하는 데에 초점을 맞추었다.
그러나 해당 데이터셋의 커버리지는 위의 평가에서 60%가량으로 나타나 이에 대한 성능 향상이 필요하다. 본 연구팀에서는 이를 해결하기 위하여 유의어 사전 및 워드임베딩 방법을 적용한 프레임 발견[15] 방법을 적용할 계획이다.
(3) 온톨로지 매핑: 본 시스템은 3장에서 논의된 바와 같이 가상의 지식베이스를 가정한 모형 쿼리 생성을 위하여 질의에서 분석되어야 하는 최대한의 정보를 의미 분석하는 데에 목표로 하였다. 실제 지식베이스를 대상으로 한 질의응답 시스템의 개발을 위해서는, 디비피디아와 같은 현존하는 지식베이스의 스키마에 대하여 매핑된 SPARQL 쿼리를 생성하는 온톨로지 매핑이 추가 연구로 남아있다.
지식베이스에 의존적인 쿼리 생성은 지식베이스의 불완전성으로 질의에서 나타나는 정보를 충분히 분석하지 못한다는 점에 착안하여, 의미 분석으로서 프레임 구조를 분석하는 것을 목표로 하였다. 추후 연구에서는 복문 질의에 대한 처리 및 실제 지식베이스에의 적용 등을 수행할 예정이다. 본 시스템은 오픈소스로 공개되어 있다:

핵심어	질문	논문에서 추출한 답변
	지식베이스 기반 질의응답 시스템에 관심이 높아지게 된 배경은?	현재 Freebase[1], DBpedia[2], YAGO2[3]과 같은 지식베이스의 발달로 인해, 이러한 지식베이스에 대하여 원하는 지식을 얻고자 하는 지식베이스 기반 질의응답 시스템(KBQA)에 대한 관심이 높아지고 있다. 지식베이스들은 기계가 읽을 수 있는 구조화된 데이터로 구축되어 있으며 대표적으로 [s, p, o] 의 트리플 형태의 RDF(Resource Description Framework) 데이터로 구축되어 있으며, 이 지식베이스에 대하여 접근하기 위해서는 SPARQL과 같은 기계가 읽을 수 있는 쿼리를 사용하여야 한다.
	대표적으로 지식베이스들은 어떠한 형태의 데이터로 구축되어 있는가?	현재 Freebase[1], DBpedia[2], YAGO2[3]과 같은 지식베이스의 발달로 인해, 이러한 지식베이스에 대하여 원하는 지식을 얻고자 하는 지식베이스 기반 질의응답 시스템(KBQA)에 대한 관심이 높아지고 있다. 지식베이스들은 기계가 읽을 수 있는 구조화된 데이터로 구축되어 있으며 대표적으로 [s, p, o] 의 트리플 형태의 RDF(Resource Description Framework) 데이터로 구축되어 있으며, 이 지식베이스에 대하여 접근하기 위해서는 SPARQL과 같은 기계가 읽을 수 있는 쿼리를 사용하여야 한다. 그러나 이러한 쿼리는 일반 사용자가 사용하기에 어렵고 복잡하다는 측면이 있어 최종 사용자가 사용하기 위한 좀 더 직관적이고 사용하기 쉬운 인터페이스에 대한 관심이 증대하고 있다.
	자연언어 질의를 기계가 읽을 수 있는 쿼리로 변경하는 방법은 크게 어떻게 나눌 수 있는가?	전통적으로, 자연언어 질의를 기계가 읽을 수 있는 쿼리로 변경하는 방법은 크게 두 가지 접근법이 있다. 하나는 정보추출(Information Extraction) 방식이고, 하나는 의미 분석(Semantic Parsing) 방식이다. 정보추출 방식은 지식베이스의 스키마와 질의의 구문구조, 지식베이스 온톨로지 어휘와 자연언어의 어휘간의 유의미한 관계 등을 패턴화 하여 학습하는 방식이다[4].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석
Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

연구과제 타임라인

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석 Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 질의응답 시스템을 위한 프레임 시멘틱스 기반 질의 의미 분석
Semantic Parsing of Questions based on the Frame Semantics for Korean Question Answering System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper