[보고서]실시간 한국어 대화 시스템 구현을 위한 언어처리기술 개발

실시간 한국어 대화 시스템 구현을 위한 언어처리기술 개발
Development of Language Processing Techniques for Real-time Korean Dialogue System 원문보기

보고서 정보
주관연구기관	부산대학교 산학협력단 Busan National University
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2012-08
과제시작연도	2011
주관부처	교육과학기술부 Ministry of Education and Science Technology(MEST)
등록번호	TRKO201300012029
과제고유번호	1345152903
사업명	중견연구자지원
DB 구축일자	2013-08-26
키워드	한국어 대화 시스템.대화문 분석 기술.자연언어 인터페이스.대화 시스템 개발 플랫폼.언어자원.자연언어처리.어휘의미망.온톨로지.다국어의미처리.Korean Dialogue System.Dialogue Analysis Technology.Natural Language Interface.Dialogue System Development Platform.Language Resource.Natural Language Processing.WordNet.Ontology.Multilingual Semantic Processing.
DOI	https://doi.org/10.23000/TRKO201300012029

초록 ▼

연구의 목적 및 내용
본 연구의 목표는 ‘한국어 인간-기계 대화시스템을 실현하기 위한 언어처리 기술을 개발’이며, 그중에서도 가장 인간 친화적인 대화인터페이스인 음성언어 후처리를 강건하게 지원할 한국어 정보처리기술 개발에 초점을 맞추었다. 음성언어를 이용한 인간-기계 간 인터페이스는 인간에게 가장 자연스럽고 친숙한 방식이나 기술적 난도가 매우 높다. 이는 한국어가 가진 자연언어 특성이 대화체 문장의 분석을 어렵게 하기 때문이다. 따라서 이 연구에서는 대화체 문장을 강건하게 분석하고자 정규문을 처리할 수 있는 기반 시스템의 성능 개선과 함께, 대화체에 특화된 한국어 정보처리 기술의 추가적인 개발을 진행하였다. 또한, 한국어 인간-기계 인터페이스를 구축하고자 특정 분야에 관한 문맥 추적 전략을 분석하여 스크립트화 하고, 이를 내부 의미 표현으로 변환하였다.
연구결과
대화체 문장을 강건하게 분석하기 위해서는 정규문을 처리할 수 있는 기반 시스템의 성능 개선과 함께, 대화체에 특화된 한국어 정보처리 기술의 추가적인 개발이 필수적이다. 이 연구의 출발점은 본 연구진이 기개발한 한국어 정보처리 기술 (한국어 맞춤법/문법 검사기 < <미리내> > , 한국어 정보 검색 시스템)이다. 정규문을 처리할 수 있는 기반시스템의 개선을 위해서 고도의 언어정보를 가진 자료 구축하고 이를 바탕으로 통사/의미 분석 기술을 개선하였다. 그리고 이 결과를 이용하여 대화문에 특화된 통사/의미기술 개발, 문장 끊어 읽기 시스템, 대화자 감정 추출 시스템을 개발하였다. 이때 대화체의 특성을 가장 잘 보여주는 휴대전화의 SMS 문서와 영화대본의 대사(dialogue)를 분석과 개발된 시스템의 적용의 대상으로 삼았다.
본 연구진이 목표로 하는 한국어 인간-기계 인터페이스는 스크립트 기반 모델(Script based Model)이므로 문맥 추적 전략 분석을 위해 2개 분야를 대상으로 대화 스크립트 를 개발하였다. 호텔예약과 식당주문에 대해 3가지 답변 유형(단일 답변, 다중 답변, 재질문)을 혼합하여 각각 100개의 대화 유형을 스크립트로 만들었다. 각 스크립트는 슬롯(slot)이라고 불리는 속성(attribute)의 묘사에 중점을 두어 정보를 표현하도록 하였다. 각 스크립트는 기계가 처리할 수 있도록 내부 의미 표현 방법에 따라 표현하였다.
각 연구개발 항목은 설정했던 목표를 100% 내지 그 이상 달성하는 성과를 보였고, 이는 한국어를 대상으로 한 국내/국외 최고의 성능으로 평가된다. 또한 정규문을 처리할 수 있는 기반 시스템의 성능 개선 과정은 본 연구진의 기개발 기술을 향상하는 데도 선순환적으로 활용되었다.
이렇게 광범위하고 문제의 난도가 높은 연구내용을 전산학자인 연구책임자와 언어학자인 공동연구원 간 공동 연구로 수행함으로써, 예상했던 것 이상의 결과를 도출할 수 있었다. 또한, 15편의 논문, 37편의 학술발표와 같은 이론적인 성과에만 그치지 않고, 연구내용을 모듈화하여 한국어 언어산업에 중추적인 기업체 외부 연구기관에 64회 기술이전함으로써, 다양한 한국어 정보처리 연구 및 응용기술 분야의 활성화에 이바지했다는 점에서 큰 의의를 찾을 수 있다.
연구결과의 활용계획
본 연구결과의 기술확산 효과를 극대화하고자 한국어 정보처리에 필요한 기술을 기능별로 분리하여 모듈 형태로 제공하는 ‘한국어 정보처리 지원 플랫폼’은 과제를 수행하면서 기술이전을 통해 다음과 같이 자연언어처리 기반 기술의 효율성 제고와 응용 시스템의 성능 향상에 다방면으로 실제 활용되고 있으며, 활용 범위는 더욱 확대될 전망이다.
① 문장 끊어 읽기 시스템: 음성합성 시스템의 후처리 모듈로 이용되어 자연스러운 발화가 가능하게 함
② 문서 정제 시스템: 텍스트 기반 자연언어처리 응용 시스템의 전처리 모듈로 이용되어 시스템의 성능을 높이거나 교과서 검정 시스템이나 한국어 교육 시스템의 핵심 모듈로 활용됨
③ 통사분석/의미분석 시스템: 기계번역, 정보검색, 자연언어 이해 및 생성 시스템의 성능을 좌우하는 핵심 모듈로 활용됨
④ 대화형 기계-인간 인터페이스: 내비게이터, 지능형 로봇, 지능형 홈, 휴대전화 제어 및 장애우와 노인을 위한 보조도구

Abstract ▼

Purpose&contents
The purpose of this research is to develop language processing technologies for the human-computer dialogue system in Korean. Particularly this study focuses on the development of a robust Korean language information processing technologies which will support spoken language processing. The human-computer interface using spoken language is the most natural and human-friendly one, but it contains highly difficult linguistic problems to solve: a variety of element omissions & contractions, and the high ratio of ungrammatical sentences. Aiming at increasing the processing accuracy of spoken language sentences, this research develops conversation-oriented processing technologies, in addition to improving base systems which can analyze and generate correctly grammatical sentences, as well as to building language resources and ontologies. As for a practical Korean human-computer interface, context tracing strategies for some given fields are proposed.
Result
The robust analysis of spoken language sentences needs (1) the improvement of Korean language processing technologies of grammatical sentences, and (2) the additional development of conversation-oriented processing technologies. We adopted, as the starting point of our research, <> (the existing Korean spelling/grammar checker Korean language information retrieval system that we have already developed in our previous researches). The improvement of those base systems for grammatical sentences is achieved by (1-a) building highly enriched language resources and ontologies, such as KorLex, and (1-b) increasing the accuracy and the recall of syntactic/semantic processing technologies using (1-a). As for (2), we developed (2-a) conversation-specialized syntactic/semantic processing technologies, (2-b) a prosodic boundary prediction system, and (2-c) a speaker emotion extracting system. The analysis and evaluation of those systems are performed on SMS texts of mobile phones and dialogue sentences of film scripts, which demonstrate the characteristics of spoken language. Since the Korean human-computer interface of this study adopts the Script based Model, conversation scripts of two fields are developed in favour of the context-tracing strategy analysis. The scripts are composed of three answer patterns (single answers, multiple answers, re-questions) about accommodation reservation and meal orders in a restaurant. The total size of the scripts amounts to 100 types. Each script is based on the description of attributes, so called ‘slot’ and designed to be accessible by a machine, according to the methods of internal meaning expressions.
The harmonious collaboration between computer science and linguistics was able to solve highly complicated and wide-range difficulties inherent in processing spoken language. The collaboration achieves also more results than expected. All components the research has planned to develop and improve reach goal successfully, and Korean language processing technologies obtained in this research show the best performances, as demonstrate the internal and external evaluations. Moreover, the results are not confined to the academic publications (15 papers and 37 conference presentations). The 62 technical transfers to research institutes and to corporates prove the high quality of our technologies obtained in this research.
Expected Contribution
As a concrete result of the research, we have developed ‘The Korean language information processing supporting platform’ which are composed of several independent modules in terms of the functions. The platform was practically employed to enhance the efficiency of natural language processing-related technologies and the performance of various application systems through technical transfers during this research. The fields of expected contribution are as follows, and the scope will be extended.
① Prosodic boundary prediction system: the post-processing module of voice synthesis for natural utterance
② Document refinement system: the pre-processing module of text-based natural language processing application system to enhance the performance of the system; the core module of spelling/grammar checking system; Korean language education system
③ Syntactic/semantic analysis system: uthe core module determining the performance of machine translation system, information retrieval system and natural language understanding and generating system.
④ Dialogue-based human-computer interface: navigator, intelligent robot, intelligent home, cell-phone control, assistant systems for aged and disabled people.

목차 Contents

중견연구자지원사업(핵심연구) 최종보고서 ... 1
목차 ... 2
연구계획 요약문 ... 3
연구결과 요약문 ... 4
한글요약문 ... 4
SUMMARY ... 5
연구내용 및 결과 ... 6
1. 연구개발과제의 개요 ... 6
2. 국내외 기술개발 현황 ... 7
3. 연구수행 내용 및 결과 ... 11
4. 목표달성도 및 관련분야에의 기여도 ... 58
5. 연구결과의 활용계획 ... 62
6. 연구과정에서 수집한 해외과학기술정보 ... 65
7. 주관연구책임자 대표적 연구실적 ... 71
8. 공동연구책임자 대표적 연구실적 ... 72
9. 참고문헌 ... 73
10. 연구성과 ... 79
11. 기타사항 ... 96

표/그림 (58)

표 연구개발 내용의 범위 및 내용 간 상호 연계성
표 지능형 음성인식 기능 비교
표 국내 통사분석 시스템의 성능
표 스마트폰별 하드웨어적 특징
표 연구개발 내용의 범위 및 내용 간 상호 연계성
표 세종 전자사전의 노드(의미부류 수)
표 영어 WordNet과 KorLex 계층별 노드 수
표 세종 전자사전의 노드와 사상된 KorLex의 LUB 수
표 문장성분의 하위범주 일부
표 용언과 보조사구 간 의존관계
표 용언과 보조사구 간 의존관계
표 부사와 부사의 수식 대상에 따른 의존관계 제약
표 형용사 수식 부사와 형용사가 아닌 용언과의 배제관계
표 절 간 경계를 넘는 의존관계의 배제를 위한 연결어미의 세분
표 한국어 통사분석 시스템의 구조
표 “영희가 오리를 먹다”의 형태소 분석
표 문장/구절 패턴 후보 생성
표 문장/구절 패턴 학습 말뭉치의 크기
표 형태소 bi-gram 패턴 예
표 형태소 tri-gram 패턴 예
표 본 연구진의 비감독학습 모델과 다른 감독학습 모델과의 어휘의미 중의성 해소 성능 비교
표 사과의 형제어와 지역문맥에 나타난 어휘 간의 연관성.
표 X2-분포표 일부
표 중의성 어휘의 의미별 형제어를 이용한 어휘 간 연관성 분석
표 ‘사과’의 형제어와 주변 문맥 내 공기 어휘와의 X2값
표 ‘눈’의 의미별 연어 구성어 집합
표 중의성 어휘의 의미별 관련어를 이용한 어휘 간 연관성 분석
표 중의성 어휘의 의미별 관련어의 형제어를 이용한 어휘 간 연관성 분석
표 본 연구진의 비감독학습 모델과 다른 감독학습 모델과의 어휘의미 중의성 해소 성능 비교
표 SMS나 쪽지창 문서에 적용 가능한 통사분석기 개발의 기본 전략
표 문서 정제기의 역할
표 한국어 맞춤법 • 문법 검사기의 기능
표 SMS의 오류 유형
표 SMS에 자주 나타나는 오류와 그 예
표 SMS에서 그림말 추출 예
표 문서 정제기에 쓰인 오류 정제 규칙의 예
표 문서 정제기를 통한 SMS의 오류 수정 예
표 기본 형태소 분석 사전의 구성과 크기
표 통사분석 시스템의 대화문 처리 성능
표 미등록어 처리의 어려움
표 운율구 경계를 태깅한 말뭉치 구축
표 말뭉치 태깅 일치의 신뢰도 추정 실험 결과
표 운율구 경계를 태깅한 말뭉치의 구축 전 과정
표 단계별 구축된 말뭉치 정보
표 감정 표현의 기술 대상 및 방식: 의 예
표 감정 추출 과정 (Full mode)
표 Full mode와 Light mode의 차이
표 감정 추출기 전체 구조 (Full mode)
표 유한 상태 기반 모델의 예
표 스크립트 기반 모델의 예
표 에이전트 기반 모델의 예
표 시스템 사용자 대화 예
표 영화 예매 대화에서의 자연어 이해 예
표 영화 예매 대화에서의 대화 관리 예
표 영화 예매 대화에서의 자연어 생성 예
표 단일답변에 대한 질문과 답변 생성 예
표 다수답변에 대한 질문과 답변 생성 예
표 재질문에 대한 질문과 답변 생성 예

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

실시간 한국어 대화 시스템 구현을 위한 언어처리기술 개발
Development of Language Processing Techniques for Real-time Korean Dialogue System 원문보기