사용자 의도 예측 기술은 음성인식기의 탐색 공간을 줄이기 위한 후처리 방법으로 사용될 수 있으며, 시스템 의도 예측 기술은 유연한 응답 생성을 위한 전처리 방법으로 사용될 수 있다. 이러한 실용적인 필요성에 따라 본 논문에서는 화행과 개념열의 쌍으로 일반화된 화자의 의도를 예측하는 통계 모델을 제안한다. 단순한 화행 n-그램 통계만을 이용한 기존의 모델과는 다르게 제안 모델은 현재 발화까지의 대화 이력을 다양한 언어 레벨의 자질 집합(화행과 개념열 쌍의 n-그램, 단서 단어, 영역 프레임의 상태정보)으로 표현한다. 그리고 추출된 자질 집합을 CRFs(Conditional Random Fields)의 입력으로 사용하여 다음 발화의 의도를 예측한다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 사용자의 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 그리고 시스템의 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였다. 또한 기존 모델과 비교하여 29.32% 높은 평균 정확률을 보였다.
사용자 의도 예측 기술은 음성인식기의 탐색 공간을 줄이기 위한 후처리 방법으로 사용될 수 있으며, 시스템 의도 예측 기술은 유연한 응답 생성을 위한 전처리 방법으로 사용될 수 있다. 이러한 실용적인 필요성에 따라 본 논문에서는 화행과 개념열의 쌍으로 일반화된 화자의 의도를 예측하는 통계 모델을 제안한다. 단순한 화행 n-그램 통계만을 이용한 기존의 모델과는 다르게 제안 모델은 현재 발화까지의 대화 이력을 다양한 언어 레벨의 자질 집합(화행과 개념열 쌍의 n-그램, 단서 단어, 영역 프레임의 상태정보)으로 표현한다. 그리고 추출된 자질 집합을 CRFs(Conditional Random Fields)의 입력으로 사용하여 다음 발화의 의도를 예측한다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 사용자의 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 그리고 시스템의 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였다. 또한 기존 모델과 비교하여 29.32% 높은 평균 정확률을 보였다.
Prediction technique of user's intention can be used as a post-processing method for reducing the search space of an automatic speech recognizer. Prediction technique of system's intention can be used as a pre-processing method for generating a flexible sentence. To satisfy these practical needs, we...
Prediction technique of user's intention can be used as a post-processing method for reducing the search space of an automatic speech recognizer. Prediction technique of system's intention can be used as a pre-processing method for generating a flexible sentence. To satisfy these practical needs, we propose a statistical model to predict speakers' intentions that are generalized into pairs of a speech act and a concept sequence. Contrary to the previous model using simple n-gram statistic of speech acts, the proposed model represents a dialogue history of a current utterance to a feature set with various linguistic levels (i.e. n-grams of speech act and a concept sequence pairs, clue words, and state information of a domain frame). Then, the proposed model predicts the intention of the next utterance by using the feature set as inputs of CRFs (Conditional Random Fields). In the experiment in a schedule management domain, The proposed model showed the precision of 76.25% on prediction of user's speech act and the precision of 64.21% on prediction of user's concept sequence. The proposed model also showed the precision of 88.11% on prediction of system's speech act and the Precision of 87.19% on prediction of system's concept sequence. In addition, the proposed model showed 29.32% higher average precision than the previous model.
Prediction technique of user's intention can be used as a post-processing method for reducing the search space of an automatic speech recognizer. Prediction technique of system's intention can be used as a pre-processing method for generating a flexible sentence. To satisfy these practical needs, we propose a statistical model to predict speakers' intentions that are generalized into pairs of a speech act and a concept sequence. Contrary to the previous model using simple n-gram statistic of speech acts, the proposed model represents a dialogue history of a current utterance to a feature set with various linguistic levels (i.e. n-grams of speech act and a concept sequence pairs, clue words, and state information of a domain frame). Then, the proposed model predicts the intention of the next utterance by using the feature set as inputs of CRFs (Conditional Random Fields). In the experiment in a schedule management domain, The proposed model showed the precision of 76.25% on prediction of user's speech act and the precision of 64.21% on prediction of user's concept sequence. The proposed model also showed the precision of 88.11% on prediction of system's speech act and the Precision of 87.19% on prediction of system's concept sequence. In addition, the proposed model showed 29.32% higher average precision than the previous model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 상기한 목적으로 활용 가능한 통계 기반의 화자 의도 예측 모델을 제안한다. 제안 모델은 이전과 현재 발화의 의도, 현재 발화에 포함된 단서 단어, 현재까지의 영역 프레임 상태 정보와 같이 다양한 레벨의 언어적 지식을 입력 자질로 사용함으로써 정확률의 향상을 꾀한다.
본 논문에서는 기존의 사용자 의도 예측 방법과 시스템 의도 예측 방법들에서 나타나는 일련의 문제들을 해결하기 위하여 다양한 자질들의 통계적 정보를 이용하여 화자의 의도를 예측할 수 있는 새로운 모델을 제안한다. 제안 모델은 Reithinger 모델의 낮은 정확률을 향상시키기 위하여 화행 n-그램 정보와 함께 단서 단어와 영역 프레임 정보를 문맥 정보로 사용한다.
본 논문에서는 목적지향 대화에서 통계를 이용하여 다음 발화의 의도를 예측하는 모델을 제안하였다. 제안모델은 화행과 개념열의 皿-그램, 단서 단어, 영역 프레임의 상태 정보를 이용하여 의도 예측에 필요한 대화 이력을 근사하였다.
가설 설정
.화행과 개념열 쌍에 대한 广그램: 대화는 서로 연관된 발화들의 집합이므로 현재 발화는 그 이전의 발화나 다음 발화와 밀접한 관계를 가진다. 따라서 다음 발화의 의도를 예측하기 위해서 현재까지의 발화 정보가 매우 중요함을 직관적으로 알 수 있다.
제안 방법
화자 의도 예측 모델을 제안한다. 제안 모델은 이전과 현재 발화의 의도, 현재 발화에 포함된 단서 단어, 현재까지의 영역 프레임 상태 정보와 같이 다양한 레벨의 언어적 지식을 입력 자질로 사용함으로써 정확률의 향상을 꾀한다.
이러한 방법은 매우 제한된 영역에서 비교적 간단한 방법으로 높은 성능을 얻을 수 있지만 영역이 조금만 넓어지면 사용자 발화의 예측과 수집이 매우 어려워진다는 단점이 있다. Reithinger는 음성인식에서의 오류를 줄이기 위하여 Speech-to-Speech 번역 시스템인 VERBMO- BIL[6]에서 통계적인 화행 n-그램 정보를 이용하여 화행을 예측하는 실험을 하였다. 식 (1)은 Reithinger가제안한 화행 예측 확률식이다.
제안 모델은 Reithinger 모델의 낮은 정확률을 향상시키기 위하여 화행 n-그램 정보와 함께 단서 단어와 영역 프레임 정보를 문맥 정보로 사용한다. 그리고 대화 문법 모델의 응답 유연성을 향상시키고 계획 모델의 구현 복잡성을 조금이나마 줄이기 위한 대안으로 통계 기반의 방법을 사용한다.
제안 모델은 Reithinger 모델의 낮은 정확률을 향상시키기 위하여 화행 n-그램 정보와 함께 단서 단어와 영역 프레임 정보를 문맥 정보로 사용한다. 그리고 대화 문법 모델의 응답 유연성을 향상시키고 계획 모델의 구현 복잡성을 조금이나마 줄이기 위한 대안으로 통계 기반의 방법을 사용한다.
정의한 개념열의 구성을 보여준다. 본 논문에서는 2가지 테이블, 4가지 연산자, 8가지 필드를 대상으로 3층 구조의 개념열 부착 방법[10]에 따라 53개의 개념열을 정의하여 사용한다.
따라서 다음 발화의 의도를 예측하기 위해서 현재까지의 발화 정보가 매우 중요함을 직관적으로 알 수 있다. 본 논문에서는 다음 발화의 의도를 예측하기 위해서 현재 발화와 이전 발화의 화행과 개념열 쌍들을 입력 자질로 사용한다. 예를 들어, 표 3과 같은 대화에서 2번째 발화까지 진행된 상태라고 가정했을 때, 3번째 발화의의도 'response & timetable_select_date'# 예즉하기위해서 제안 모델은 현재 발화의 의도 'ask_ref & timetable_select'와 이전 발화의 의도 "request &timetable_select, 를 식 (4)의 입력 자질(자질 함수에 대한 입력 값)로 사용한다.
예를 들어, 표 3에서 보듯이 '일정', '확인', '?'와 같은 어휘는 다음 발화 "언제 일정을 확인할까요?”와 매우 밀접한 연관 관계를 가진다. 그러므로 본 논문에서는 발화에 포함된 '어휘/품사'와 '품次卜품사' 중에서 정보량이 많은 것들을 추출하여 의도 예측의 입력 자질로 사용한다. 정보량 측정은 문서 분류 문제에서 좋은 결과를 보이고 있는 X2 통계량을 이용한다UQ13].
정보량 측정은 문서 분류 문제에서 좋은 결과를 보이고 있는 X2 통계량을 이용한다UQ13]. 먼저, 화행과 개념열이 부착된 학습말뭉치를 형태소 분석한 후, 각 문장을 회행별, 개념열별로 범주화한다. 그리고 형태소 분석된 문장으로부터 '어휘/품사'와 '품사-품사'를추출한 후, 식 ⑸와 같은 r 통계량을 계산한다.
영역 프레임의 상태 정보: 목적 지향 대화에서 화자들은 해당 영역에서 서로에게 공유된 지식(즉, 대화 이력)을 바탕으로 대화를 이끌어 나가며, 이러한 지식들은 유한상태 모델(finite-state model), 프레임 기반 모델(frame-based model)[12], 계획 기반 모델(plan- based model)(1) 등으로 표현될 수 있다. 본 논문에서는 일정 수준의 대화 유연성을 보장하면서 구현하기 쉬운 프레임 기반 모델의 영역 프레임(domain frame) 정보를 대화 이력으로 사용한다. 영역 프레임 정보는 슬롯 수정 정보와 슬롯 검색 정보로 나뉜다’ 슬롯 수정 정보는 어떤 슬롯이 채워진 것이고 어떤 슬롯이 비어있는가 하는 것을 나타낸 이진 정보이며, 슬롯 검색 정보는 어떤 슬롯이 한번 이상 참조된 것이고 어떤 슬롯이 아직 참조되지 않은 것인가를 나타내는 이진 정보이다.
이러한 대화 관리자를 실제 구현하는 것은 매우 복잡할 뿐만 아니라 본 논문의 주제와도 맞지 않는다. 그러므로 본 논문에서는 각 슬롯의 수정이나 검색과 관련된 의도들을 미리 정의해 두고, 해당 의도가 나타나면 슬롯의 값을 '1'로 설정하는 방법으로 슬롯 수정 정보와 슬롯 검색 정보를 추출한다. 이러한 방법에 따라 그림 1의 예에서 발화 (11)이 끝난 후에 슬롯 수정 정보는 , 10 0 1'의 값을, 슬롯 검색 정보는 '0 0 1 0'의 값을 가지며 식 (4)의 입력으로 사용된다
2장 관련 연구의 식 (1)에서 보는 것과 같이 Reithinger(1995)는 화행 예측에 대한 연구만을 진행했기 때문에 개념열 예측에 대한 결과를 포함하고 있지 않다. 그러므로 본 논문에서는 식 (1)을 개념열 예측에 그대로 적용하여 식 (6)과 같이 확률 모델을 만들고 제안 시스템과 비교하였다.
제안모델은 화행과 개념열의 皿-그램, 단서 단어, 영역 프레임의 상태 정보를 이용하여 의도 예측에 필요한 대화 이력을 근사하였다. 그리고 근사된 정보를 자연어처리 분야에서 최근에 높은 성능을 보이고 있는 CRFs의 입력으로 사용하여 통계적으로 의도를 예측하였다.
제안모델은 화행과 개념열의 皿-그램, 단서 단어, 영역 프레임의 상태 정보를 이용하여 의도 예측에 필요한 대화 이력을 근사하였다. 그리고 근사된 정보를 자연어처리 분야에서 최근에 높은 성능을 보이고 있는 CRFs의 입력으로 사용하여 통계적으로 의도를 예측하였다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 시스템 화행과 개념열 예측에서 각각 88.
대상 데이터
본 논문에서는 화자의 의도를 예측하기 위한 통계 모델의 입력으로 다음과 같은 3가지 종류의 자질을 사용한다.
7UT/는 발화이고, '/SAZ는 화행, 7CS/ 는 개념열을 나타낸다. 화행과 개념열 부착은 대학원에서 자연어처리를 전공하는 5명의 석사과정 학생이 수행하였으며, 일관성 유지를 위하여 1명의 박사과정 학생이 최종 검토하였다.
수행하였다. 단서 단어는 시스템 의도 예측시에 100개, 사용자 의도예측 시에 1,000개를 사용하였다. CRFs의 내부 설정 인자로 추정알고리즘은 L-BFGS를 이용하였으몌 14], 희소 데이타 문제를 위한 평탄화 요소는 Gaussian Prior 를 이용하였다[U].
데이터처리
실험은 학습데이타와 평가데이타의 비율을 4:1로 하여 5배 교차검증(5-fold cross validation)은 수행하였다. 단서 단어는 시스템 의도 예측시에 100개, 사용자 의도예측 시에 1,000개를 사용하였다.
제안 모델의 성능을 평가하기 위하여 동일한 학습데이타와 평가 데이타를 이용하여 Reithinger(1995)[5] 와 비교하였다..
이론/모형
그러므로 본 논문에서는 발화에 포함된 '어휘/품사'와 '품次卜품사' 중에서 정보량이 많은 것들을 추출하여 의도 예측의 입력 자질로 사용한다. 정보량 측정은 문서 분류 문제에서 좋은 결과를 보이고 있는 X2 통계량을 이용한다UQ13]. 먼저, 화행과 개념열이 부착된 학습말뭉치를 형태소 분석한 후, 각 문장을 회행별, 개념열별로 범주화한다.
단서 단어는 시스템 의도 예측시에 100개, 사용자 의도예측 시에 1,000개를 사용하였다. CRFs의 내부 설정 인자로 추정알고리즘은 L-BFGS를 이용하였으몌 14], 희소 데이타 문제를 위한 평탄화 요소는 Gaussian Prior 를 이용하였다[U]. Gaussian Prior의 값은 10으로 설정하였으며, 훈련 반복 회수는 30으로 설정하였다.
성능/효과
표 7에서 보듯이 '현재'과 다른 자질들을 결합했을 경우에 대부분 3—4% 정도 정확률이 향상되었다.
표 8에서 보듯이, 현재 '과 다른 자질들을 결합했을 경우에 1~ 4% 정도 정확률이 향상되었다.
시스템 개념열 예측시에 '현재'과 '단서 단어'를 결합했을 경우에 가장 낮은 정확률 향상을 보였다.
표 7과 표 8에서 보듯이 사용자 화행 및 개념열 예측이 시스템 화행 및 개념열 예측보다 훨씬 낮은 정확률을 보였다. 이것은 사용자 발화의 다양성에 기인한 것으로 보인다.
예를 들어, 상위 5개를 고려했을 때 정확률이 100%라면 화행은 12개 중에서 5개만을 고려하면 되고, 개념열은 53개 중에서 5개만을 고려하면 되기 때문에 탐색공간을 줄이면서 정확률을 향상시키는 효과를 얻을 수 있게 되는 것이다’ 표 9는 상위 n개를 고려했을 때 사용자 화행과 개념열 예측에 대한 정확률을 보여준다. 표 9에서 보듯이 화행은 상위 5개를 정답으로 간주했을 때 거의 100%에 가까운 정확률을 보이고, 개념 열은 상위 15개를 정답으로 간주 했을 때 98% 정도의 정확률을 보였다.
그리고 근사된 정보를 자연어처리 분야에서 최근에 높은 성능을 보이고 있는 CRFs의 입력으로 사용하여 통계적으로 의도를 예측하였다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 시스템 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였으며, 사용자 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 제안 모델을 시스템 의도 예측에 활용하면 통계적으로 적합한 의도를 찾아냄으로써 시스템 응답의 유연성을 높일 수 있고, 사용자 의도 예측에 활용한다면 음성인식에서의 탐색공간을 줄임으로써 음성인식의 효율성을 높일 수 있을 것으로 기대된다.
후속연구
21%의 정확률을 보였다. 제안 모델을 시스템 의도 예측에 활용하면 통계적으로 적합한 의도를 찾아냄으로써 시스템 응답의 유연성을 높일 수 있고, 사용자 의도 예측에 활용한다면 음성인식에서의 탐색공간을 줄임으로써 음성인식의 효율성을 높일 수 있을 것으로 기대된다.
참고문헌 (14)
Lambert, L. and Caberry, S., "A Tripartite Plan- based Model of Dialogue," Proceedings of ACL, pp.47-54, 1991
Langley, C. "Analysis for Speech Translation Using Grammar-based Parsing and Automatic Classification," Proceedings of the ACL Student Research Workshop, 2002
은종민, 이성욱, 서정연, 지지벡터기계를 이용한 한국어 화행분석, 한국정보처리학회 논문지, Vol.12B, No.3, pp.365-368, 2005
Smith, R. W. and Hipp, D. R., Spoken Natural Language Dialogue Systems: A Practical Approach, Oxford University Press, 1994
Reithinger, N., "Some Experiments in Speech Act Prediction," Proceedings of Empirical Methods in Discourse Interpretation and Generation, 1995
Wahlster, W. "Verbmobil-Translation of Face-to- Face Dialogs," Proceedings of MT Summit IV, 1993
김용재, 데이타베이스 검색을 위한 한국어 대화 인터페이스 시스템의 설계, 석사학위논문, 서강대학교, 1997
오종건, 작업수행영역에서 계획에 기반한 대화 시스템의 설계, 석사학위논문, 서강대학교, 1999
Levin, L., Langley, C., Lavie, A., Gates, D., Wallace, D., and Peterson, K., "Domain Specific Speech Acts for Spoken Language Translation," Proceedings of 4th SIGdial Workshop on Discourse and Dialogue, 2003
Lee, H., Kim, H., and Seo, J., Efficient Domain Action Classification Using Neural Networks, Lecture Notes in Computer Science, Vol.4233, pp.150-158, 2006
Lafferty, J., McCallum, A., and Pereira, F., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proceedings of ICML, pp.282-289, 2001
Goddeau, D., Meng, H., Polifroni, J., Seneff, S. and Busayapongchai, S., "A Form-based Dialogue Manager for Spoken Language Applications," Proceedings of International Conference on Spoken Language Processing, pp.701-704, 1996
Yang, Y. and Pedersen, J. O., "A Comparative Study on Feature Selection in Text Categorization," Proceedings of ICML, 1997
Fei, S. and Pereira, F., "Shallow Parsing with Conditional Random Fields," Proceedings of HLT and NAACL, 2003
※ AI-Helper는 부적절한 답변을 할 수 있습니다.