보고서 정보
주관연구기관 |
부산대학교 산학협력단 Busan National University |
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2012-08 |
과제시작연도 |
2011 |
주관부처 |
교육과학기술부 Ministry of Education and Science Technology(MEST) |
등록번호 |
TRKO201300012029 |
과제고유번호 |
1345152903 |
사업명 |
중견연구자지원 |
DB 구축일자 |
2013-08-26
|
키워드 |
한국어 대화 시스템.대화문 분석 기술.자연언어 인터페이스.대화 시스템 개발 플랫폼.언어자원.자연언어처리.어휘의미망.온톨로지.다국어의미처리.Korean Dialogue System.Dialogue Analysis Technology.Natural Language Interface.Dialogue System Development Platform.Language Resource.Natural Language Processing.WordNet.Ontology.Multilingual Semantic Processing.
|
DOI |
https://doi.org/10.23000/TRKO201300012029 |
초록
▼
연구의 목적 및 내용
본 연구의 목표는 ‘한국어 인간-기계 대화시스템을 실현하기 위한 언어처리 기술을 개발’이며, 그중에서도 가장 인간 친화적인 대화인터페이스인 음성언어 후처리를 강건하게 지원할 한국어 정보처리기술 개발에 초점을 맞추었다. 음성언어를 이용한 인간-기계 간 인터페이스는 인간에게 가장 자연스럽고 친숙한 방식이나 기술적 난도가 매우 높다. 이는 한국어가 가진 자연언어 특성이 대화체 문장의 분석을 어렵게 하기 때문이다. 따라서 이 연구에서는 대화체 문장을 강건하게 분석하고자 정규문을 처리할 수 있는 기반 시스템의 성능
연구의 목적 및 내용
본 연구의 목표는 ‘한국어 인간-기계 대화시스템을 실현하기 위한 언어처리 기술을 개발’이며, 그중에서도 가장 인간 친화적인 대화인터페이스인 음성언어 후처리를 강건하게 지원할 한국어 정보처리기술 개발에 초점을 맞추었다. 음성언어를 이용한 인간-기계 간 인터페이스는 인간에게 가장 자연스럽고 친숙한 방식이나 기술적 난도가 매우 높다. 이는 한국어가 가진 자연언어 특성이 대화체 문장의 분석을 어렵게 하기 때문이다. 따라서 이 연구에서는 대화체 문장을 강건하게 분석하고자 정규문을 처리할 수 있는 기반 시스템의 성능 개선과 함께, 대화체에 특화된 한국어 정보처리 기술의 추가적인 개발을 진행하였다. 또한, 한국어 인간-기계 인터페이스를 구축하고자 특정 분야에 관한 문맥 추적 전략을 분석하여 스크립트화 하고, 이를 내부 의미 표현으로 변환하였다.
연구결과
대화체 문장을 강건하게 분석하기 위해서는 정규문을 처리할 수 있는 기반 시스템의 성능 개선과 함께, 대화체에 특화된 한국어 정보처리 기술의 추가적인 개발이 필수적이다. 이 연구의 출발점은 본 연구진이 기개발한 한국어 정보처리 기술 (한국어 맞춤법/문법 검사기 < <미리내> > , 한국어 정보 검색 시스템)이다. 정규문을 처리할 수 있는 기반시스템의 개선을 위해서 고도의 언어정보를 가진 자료 구축하고 이를 바탕으로 통사/의미 분석 기술을 개선하였다. 그리고 이 결과를 이용하여 대화문에 특화된 통사/의미기술 개발, 문장 끊어 읽기 시스템, 대화자 감정 추출 시스템을 개발하였다. 이때 대화체의 특성을 가장 잘 보여주는 휴대전화의 SMS 문서와 영화대본의 대사(dialogue)를 분석과 개발된 시스템의 적용의 대상으로 삼았다.
본 연구진이 목표로 하는 한국어 인간-기계 인터페이스는 스크립트 기반 모델(Script based Model)이므로 문맥 추적 전략 분석을 위해 2개 분야를 대상으로 대화 스크립트 를 개발하였다. 호텔예약과 식당주문에 대해 3가지 답변 유형(단일 답변, 다중 답변, 재질문)을 혼합하여 각각 100개의 대화 유형을 스크립트로 만들었다. 각 스크립트는 슬롯(slot)이라고 불리는 속성(attribute)의 묘사에 중점을 두어 정보를 표현하도록 하였다. 각 스크립트는 기계가 처리할 수 있도록 내부 의미 표현 방법에 따라 표현하였다.
각 연구개발 항목은 설정했던 목표를 100% 내지 그 이상 달성하는 성과를 보였고, 이는 한국어를 대상으로 한 국내/국외 최고의 성능으로 평가된다. 또한 정규문을 처리할 수 있는 기반 시스템의 성능 개선 과정은 본 연구진의 기개발 기술을 향상하는 데도 선순환적으로 활용되었다.
이렇게 광범위하고 문제의 난도가 높은 연구내용을 전산학자인 연구책임자와 언어학자인 공동연구원 간 공동 연구로 수행함으로써, 예상했던 것 이상의 결과를 도출할 수 있었다. 또한, 15편의 논문, 37편의 학술발표와 같은 이론적인 성과에만 그치지 않고, 연구내용을 모듈화하여 한국어 언어산업에 중추적인 기업체 외부 연구기관에 64회 기술이전함으로써, 다양한 한국어 정보처리 연구 및 응용기술 분야의 활성화에 이바지했다는 점에서 큰 의의를 찾을 수 있다.
연구결과의 활용계획
본 연구결과의 기술확산 효과를 극대화하고자 한국어 정보처리에 필요한 기술을 기능별로 분리하여 모듈 형태로 제공하는 ‘한국어 정보처리 지원 플랫폼’은 과제를 수행하면서 기술이전을 통해 다음과 같이 자연언어처리 기반 기술의 효율성 제고와 응용 시스템의 성능 향상에 다방면으로 실제 활용되고 있으며, 활용 범위는 더욱 확대될 전망이다.
① 문장 끊어 읽기 시스템: 음성합성 시스템의 후처리 모듈로 이용되어 자연스러운 발화가 가능하게 함
② 문서 정제 시스템: 텍스트 기반 자연언어처리 응용 시스템의 전처리 모듈로 이용되어 시스템의 성능을 높이거나 교과서 검정 시스템이나 한국어 교육 시스템의 핵심 모듈로 활용됨
③ 통사분석/의미분석 시스템: 기계번역, 정보검색, 자연언어 이해 및 생성 시스템의 성능을 좌우하는 핵심 모듈로 활용됨
④ 대화형 기계-인간 인터페이스: 내비게이터, 지능형 로봇, 지능형 홈, 휴대전화 제어 및 장애우와 노인을 위한 보조도구
Abstract
▼
Purpose&contents
The purpose of this research is to develop language processing technologies for the human-computer dialogue system in Korean. Particularly this study focuses on the development of a robust Korean language information processing technologies which will support spoken language proc
Purpose&contents
The purpose of this research is to develop language processing technologies for the human-computer dialogue system in Korean. Particularly this study focuses on the development of a robust Korean language information processing technologies which will support spoken language processing. The human-computer interface using spoken language is the most natural and human-friendly one, but it contains highly difficult linguistic problems to solve: a variety of element omissions & contractions, and the high ratio of ungrammatical sentences. Aiming at increasing the processing accuracy of spoken language sentences, this research develops conversation-oriented processing technologies, in addition to improving base systems which can analyze and generate correctly grammatical sentences, as well as to building language resources and ontologies. As for a practical Korean human-computer interface, context tracing strategies for some given fields are proposed.
Result
The robust analysis of spoken language sentences needs (1) the improvement of Korean language processing technologies of grammatical sentences, and (2) the additional development of conversation-oriented processing technologies. We adopted, as the starting point of our research, <> (the existing Korean spelling/grammar checker Korean language information retrieval system that we have already developed in our previous researches). The improvement of those base systems for grammatical sentences is achieved by (1-a) building highly enriched language resources and ontologies, such as KorLex, and (1-b) increasing the accuracy and the recall of syntactic/semantic processing technologies using (1-a). As for (2), we developed (2-a) conversation-specialized syntactic/semantic processing technologies, (2-b) a prosodic boundary prediction system, and (2-c) a speaker emotion extracting system. The analysis and evaluation of those systems are performed on SMS texts of mobile phones and dialogue sentences of film scripts, which demonstrate the characteristics of spoken language. Since the Korean human-computer interface of this study adopts the Script based Model, conversation scripts of two fields are developed in favour of the context-tracing strategy analysis. The scripts are composed of three answer patterns (single answers, multiple answers, re-questions) about accommodation reservation and meal orders in a restaurant. The total size of the scripts amounts to 100 types. Each script is based on the description of attributes, so called ‘slot’ and designed to be accessible by a machine, according to the methods of internal meaning expressions.
The harmonious collaboration between computer science and linguistics was able to solve highly complicated and wide-range difficulties inherent in processing spoken language. The collaboration achieves also more results than expected. All components the research has planned to develop and improve reach goal successfully, and Korean language processing technologies obtained in this research show the best performances, as demonstrate the internal and external evaluations. Moreover, the results are not confined to the academic publications (15 papers and 37 conference presentations). The 62 technical transfers to research institutes and to corporates prove the high quality of our technologies obtained in this research.
Expected Contribution
As a concrete result of the research, we have developed ‘The Korean language information processing supporting platform’ which are composed of several independent modules in terms of the functions. The platform was practically employed to enhance the efficiency of natural language processing-related technologies and the performance of various application systems through technical transfers during this research. The fields of expected contribution are as follows, and the scope will be extended.
① Prosodic boundary prediction system: the post-processing module of voice synthesis for natural utterance
② Document refinement system: the pre-processing module of text-based natural language processing application system to enhance the performance of the system; the core module of spelling/grammar checking system; Korean language education system
③ Syntactic/semantic analysis system: uthe core module determining the performance of machine translation system, information retrieval system and natural language understanding and generating system.
④ Dialogue-based human-computer interface: navigator, intelligent robot, intelligent home, cell-phone control, assistant systems for aged and disabled people.
목차 Contents
- 중견연구자지원사업(핵심연구) 최종보고서 ... 1
- 목차 ... 2
- 연구계획 요약문 ... 3
- 연구결과 요약문 ... 4
- 한글요약문 ... 4
- SUMMARY ... 5
- 연구내용 및 결과 ... 6
- 1. 연구개발과제의 개요 ... 6
- 2. 국내외 기술개발 현황 ... 7
- 3. 연구수행 내용 및 결과 ... 11
- 4. 목표달성도 및 관련분야에의 기여도 ... 58
- 5. 연구결과의 활용계획 ... 62
- 6. 연구과정에서 수집한 해외과학기술정보 ... 65
- 7. 주관연구책임자 대표적 연구실적 ... 71
- 8. 공동연구책임자 대표적 연구실적 ... 72
- 9. 참고문헌 ... 73
- 10. 연구성과 ... 79
- 11. 기타사항 ... 96
※ AI-Helper는 부적절한 답변을 할 수 있습니다.