인간은 다른 사람과 대화할 때, 시행착오 과정을 거치면서 상대방에 관한 학습이 일어난다. 본 논문에서는 이런 과정의 강화학습법(Reinforcement Learning)을 이용하여 대화시스템에 적응형 능력의 부여 방법을 제안한다. 적응형 대화 전략이란 대화시스템이 사용자의 대화 처리 습성을 학습하고, 사용자 만족도와 효율성을 높이는 것을 말한다. 강화 학습법을 효율적으로 대화처리 시스템에 적용하기 위하여 대화를 주 대화와 부대화로 나누어 정의하고 사용하였다. 주 대화에서는 전체적인 만족도를, 부 대화에서는 완료 여부, 완료시간, 에러 횟수를 이용해서 시스템의 효율성을 측정하였다. 또한 학습 과정에서의 사용자 편의성을 위하여 시스템 사용 역량에 따라 사용자를 두 그룹으로 분류한 후 해당 그룹의 강화 학습 훈련 정책을 적용하였다. 실험에서는 개인별, 그룹별 강화 학습에 따라 제안한 방법의 성능을 평가하였다.
인간은 다른 사람과 대화할 때, 시행착오 과정을 거치면서 상대방에 관한 학습이 일어난다. 본 논문에서는 이런 과정의 강화학습법(Reinforcement Learning)을 이용하여 대화시스템에 적응형 능력의 부여 방법을 제안한다. 적응형 대화 전략이란 대화시스템이 사용자의 대화 처리 습성을 학습하고, 사용자 만족도와 효율성을 높이는 것을 말한다. 강화 학습법을 효율적으로 대화처리 시스템에 적용하기 위하여 대화를 주 대화와 부대화로 나누어 정의하고 사용하였다. 주 대화에서는 전체적인 만족도를, 부 대화에서는 완료 여부, 완료시간, 에러 횟수를 이용해서 시스템의 효율성을 측정하였다. 또한 학습 과정에서의 사용자 편의성을 위하여 시스템 사용 역량에 따라 사용자를 두 그룹으로 분류한 후 해당 그룹의 강화 학습 훈련 정책을 적용하였다. 실험에서는 개인별, 그룹별 강화 학습에 따라 제안한 방법의 성능을 평가하였다.
In this paper, we propose a method to enhance adaptability in a dialogue system using the reinforcement learning that reduces response errors by trials and error-search similar to a human dialogue process. The adaptive dialogue strategy means that the dialogue system improves users' satisfaction and...
In this paper, we propose a method to enhance adaptability in a dialogue system using the reinforcement learning that reduces response errors by trials and error-search similar to a human dialogue process. The adaptive dialogue strategy means that the dialogue system improves users' satisfaction and dialogue efficiency by loaming users' dialogue styles. To apply the reinforcement learning to the dialogue system, we use a main-dialogue span and sub-dialogue spans as the mathematic application units, and evaluate system usability by using features; success or failure, completion time, and error rate in sub-dialogue and the satisfaction in main-dialogue. In addition, we classify users' groups into beginners and experts to increase users' convenience in training steps. Then, we apply reinforcement learning policies according to users' groups. In the experiments, we evaluated the performance of the proposed method on the individual reinforcement learning policy and group's reinforcement learning policy.
In this paper, we propose a method to enhance adaptability in a dialogue system using the reinforcement learning that reduces response errors by trials and error-search similar to a human dialogue process. The adaptive dialogue strategy means that the dialogue system improves users' satisfaction and dialogue efficiency by loaming users' dialogue styles. To apply the reinforcement learning to the dialogue system, we use a main-dialogue span and sub-dialogue spans as the mathematic application units, and evaluate system usability by using features; success or failure, completion time, and error rate in sub-dialogue and the satisfaction in main-dialogue. In addition, we classify users' groups into beginners and experts to increase users' convenience in training steps. Then, we apply reinforcement learning policies according to users' groups. In the experiments, we evaluated the performance of the proposed method on the individual reinforcement learning policy and group's reinforcement learning policy.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 대화 처리 시스템이 스스로 현재 상태를 파악하고, 시스템과 사용자 경험이 바탕이 되어서 사용자 선호도에 따른 시스템 진화 방법에 관하여 다룰 것이다. 이것은 시스템이 미리 발생할 수 있는 시스템 오류나 사용자의 불만족을 미리 예방하므로 사용자 만족도를 높이고 시스템 효율성을 높여줄 수 있다.
Litman과 Pan⑻은 시스템 스스로 대화 전략이 변화할 수 있는 적응형 대화 처리 시스템에 관하여 다루었다. 이 적응형 대화 처리 시스템은 사용자의 발화 음성 인식률이 낮아질 경우 이를 재확인하는 발화에서 적응형 능력이 작동되었다.
또한 두 번째 실험에서도 본 연구에서 제안한 적응형 시스템을 비교하기 위하여, 대화 전략을 고정시킨 시스템, 대화 전략을 랜덤하게 변화시키는 시스템을 두 그룹에게 동일하게 진행하였다. 이 실험은 Finnish Interact Project [10〕와 같이 사용자의 역량에 따른 적응형을 적용하기 위해서 실시되었다. 즉, 각 범주에 따라 강화학습을 적용하여 나온 결과를 토대로 사용자 최적화 모델링을 얻는 시스템 방법을 실험하는 데에 그 목표를 두었다.
이 실험은 Finnish Interact Project [10〕와 같이 사용자의 역량에 따른 적응형을 적용하기 위해서 실시되었다. 즉, 각 범주에 따라 강화학습을 적용하여 나온 결과를 토대로 사용자 최적화 모델링을 얻는 시스템 방법을 실험하는 데에 그 목표를 두었다.
본 연구에서는 시스템과 사용자간의 상호작용을 하는 대화 처리 전략으로 기계 학습법 중 하나인 강화 학습법을 사용하고, 대화에 이 강화 학습법을 적절하게 모델링하는 방법을 제안하였다. 본 연구는 기존의 각 발화를 적용 대상으로 사용한 연구와 달리, 각각의 부대화를 대상으로 삼아서 대화 처리 시스템에 적응형을 부여하고, 사용자 역량에 따른 강화학습을 적용하여 사용자 최적화된 모델링을 얻는 시스템 방법을 제안하였다.
가설 설정
하지만 대화의 경우에는 기존 연구의 각 발화 단위가 반드시 다음 발화에 영향을 미치는 것이 아니므로 마코프의 속성을 충족시키지 않을 수 있다. 이에 따라서 본 연구에서는 대화를 발화 단위가 아닌 각각의 과정으로 이루어졌다고 가정하였으며, 전체 대화 중 하나의 대화 단계를 부대 화로 정의하였다. 이에 따라서 하나의 부대화 (Sub-Dialogue)는 하나의 상태 (Condition)로 가정되어 마코프속성을 가질 수 있도록 하였다.
본 대화 시스템에서는 사용자 대화가 1)달성 완료, 2) 달성 소요 시간의 최소화, 3)부 대화의 오류 감소 등을 이루었을 때, 사용자가 시스템에 관하여 긍정적인 만족을 가지는 것으로 가정하였다. 이에 따라서 대화 상태평가는 달성 여부, 달성시 소요 시간, 부대화에서의 오류 수 등의 스칼라 값으로 변환하여 보상값으로 적용하도록 구성하였다.
제안 방법
Jokinen4 Kanto[이은 사용자의 역량(Expertise) 에 따른 사용자모델링을 하고 이에 따른 음성 기반 전자 메일 시스템을 사용하게 하는 것을 제안하였다. 이 시스템은 3단계로 사용자의 사용 역량을 분류하고, 사용자에게 미리 정해진 분류 기준에 따라서 사용하게 하였다. MOller[기는 음성 대화처리 시스템의 품질을 결정짓는 요소를 세분화된 계통도를 이용하여서 분류하였으며, 이들에 관한 상관관계를 정리하였다.
하지만 대화의 경우 각각의 발화가 다음 발화에 반드시 영향을 미치는 것이 아니기 때문에 강화 학습의 적용 대상은 앞의 사건이 다음 사건에 영향을 미쳐야 속성에 만족시키지 않을 수 있다. 본 연구에서는 강화 학습에의 적용 사건은 부대와와 주대화로 나누어서 대응하였으며 각 부대화는 각각의 단계로서 일련의 단계를 거치게 된다. 또한 Finnish Interact ProjectU이의 제안처럼 사용자의 역량에 따라 다르게 대화 처리 시스템을 학습시켰다.
본 연구에서는 강화 학습에의 적용 사건은 부대와와 주대화로 나누어서 대응하였으며 각 부대화는 각각의 단계로서 일련의 단계를 거치게 된다. 또한 Finnish Interact ProjectU이의 제안처럼 사용자의 역량에 따라 다르게 대화 처리 시스템을 학습시켰다. 이에 따라 본 연구의 대화 처리 시스템은 사용자 역량에 따른 주대화와 부대화를 대상으로 강화 학습을 하게 되고, 이 학습 결과를 이용해서 사용자 최적화된 모델링을 얻는 방법을 사용한다.
또한 Finnish Interact ProjectU이의 제안처럼 사용자의 역량에 따라 다르게 대화 처리 시스템을 학습시켰다. 이에 따라 본 연구의 대화 처리 시스템은 사용자 역량에 따른 주대화와 부대화를 대상으로 강화 학습을 하게 되고, 이 학습 결과를 이용해서 사용자 최적화된 모델링을 얻는 방법을 사용한다.
이에 따라서 하나의 부대화 (Sub-Dialogue)는 하나의 상태 (Condition)로 가정되어 마코프속성을 가질 수 있도록 하였다. 또한 Walker는 발화를 통해 일어난 것만 보상값으로 사용하였는데[11], 본 연구에서는 대화 흐름도 반영하기 위해서 보상값을 주 대화와 부대화의 두 번에 걸쳐서 평가한다.
이에 따라 본 연구에서는 시스템과 사용자간에 하나의 주제와 이에 연관된 부분 대화를 가지도록 대화 구성을 고안하였으며, Q-학습 알고리즘이 대화 처리 시스템에 맞도록 개선하였다.
식이다. 본 연구에서는 기존 Q-학습 알고리즘 (3-2)과 제안된 식 (3)을 사용한 아래 알고리즘을 만들어 대화 처리 시스템에 적용하였다.
본 연구에서는 3절에서 제시된 개선된 강화 학습법으로 TV프로그램 정보 제공 시스템을 구축하여 실험하였다. TV 프로그램 정보는 데이타 관리의 효율성 및 편의성을 위해서 MY SQL 4.
시스템은 사용자와의 대화를 통해서 작업을 수행하도록 구성되어 있는데, 강화학습을 하기 위해서 사용자 발화 입력을 키보드와 마우스를 이용한 정보 입력으로 대체하여 학습하였다. 시스템은 매번 입력된 발화에서 입력 정보와 대화 상태를 추정한 값으로 강화 학습을 하면서 사용자 모델링을 하게 된다.
학습하였다. 시스템은 매번 입력된 발화에서 입력 정보와 대화 상태를 추정한 값으로 강화 학습을 하면서 사용자 모델링을 하게 된다. 시스템은 사용자에게 저장된 강화학습 값과 Q-학습 알고리즘에 의하여 발화한다.
시스템은 사용자에게 저장된 강화학습 값과 Q-학습 알고리즘에 의하여 발화한다. 사용자와 시스템 간의 공통의 목적을 완수한 후, 즉 대화 종료 후에는 사용자에게 이번 대화의 전체적인 전략을 평가하게 하고, 이 점수에 기반하여 다시 Q-Value를 갱신하도록 하였다.
그림 4에서 볼 수 있듯이 시스템은 대화의 흐름을 깨지 않으면서 각 Q-학습법의 상태를 평가할 수 있도록 대화를 부대화의 묶음으로 생각하였고, 이 부대 화의 달성 여부를 파악할 수 있는 입력 값들을 이용해서 상태의 보상값으로 사용하도록 구성하였다. 또한전체적인 대화에 관한 사용자 만족도와 대화의 흐름에 관한 효율성도 보상값에 반영하기 위해서, 대화가 끝난 후 사용자는 대화의 전체적인 평가를 하고, 이 값으로 Q-값도 갱신한다.
가지는 것으로 가정하였다. 이에 따라서 대화 상태평가는 달성 여부, 달성시 소요 시간, 부대화에서의 오류 수 등의 스칼라 값으로 변환하여 보상값으로 적용하도록 구성하였다.
본 연구에서는 실험을 2가지로 나누어서 진행하였다. 첫 번째 실험에서는 각 개인마다의 강화 학습에 따른 훈련을 하고, 사용자 모델링을 알아 보도록 진행하였다.
진행하였다. 첫 번째 실험에서는 각 개인마다의 강화 학습에 따른 훈련을 하고, 사용자 모델링을 알아 보도록 진행하였다. 본 대화처리 시스템을 처음 사용하는 10명에게 약 25회 동안 대화 처리 시스템을 사용하도록 하여서, 강화 학습의 학습 진행 여부 추이를 확인하였다.
첫 번째 실험에서는 각 개인마다의 강화 학습에 따른 훈련을 하고, 사용자 모델링을 알아 보도록 진행하였다. 본 대화처리 시스템을 처음 사용하는 10명에게 약 25회 동안 대화 처리 시스템을 사용하도록 하여서, 강화 학습의 학습 진행 여부 추이를 확인하였다. 그리고 강화 학습을 통하여 나온 정책을 검증하기 위하여 각 사용자에게 5회에 걸쳐서 대화 시스템을 수행한 결과와, 비교 대상으로 삼은 대화전략이 고정된 시스템, 랜덤(Random)하게 작동하는 시스템을 5희에 걸쳐 사용한 후의 결과와 각각 비교하였다.
본 대화처리 시스템을 처음 사용하는 10명에게 약 25회 동안 대화 처리 시스템을 사용하도록 하여서, 강화 학습의 학습 진행 여부 추이를 확인하였다. 그리고 강화 학습을 통하여 나온 정책을 검증하기 위하여 각 사용자에게 5회에 걸쳐서 대화 시스템을 수행한 결과와, 비교 대상으로 삼은 대화전략이 고정된 시스템, 랜덤(Random)하게 작동하는 시스템을 5희에 걸쳐 사용한 후의 결과와 각각 비교하였다.
두 번째 실험에서는 각 사용자 역량에 따른 모델링의 차이 및 강화학습의 타당성을 검증하기 위하여 2개의 그룹으로 나누어서 실험을 진행하였다. 사용자 선별은 시스템의 사용에 따른 역량의 차이로 분리하였는데, 본 시스템을 사용하기 이전에 자연어 처리를 사용하였고, 본 시스템을 30회 이상 사용한 대상을 전문가 그룹으로, 시스템을 전혀 처음 접하는 대상을 초보자 그룹으로 나누었고 개인별이 아니라 각 그룹별로 강화학습을 수행하였다.
나누어서 실험을 진행하였다. 사용자 선별은 시스템의 사용에 따른 역량의 차이로 분리하였는데, 본 시스템을 사용하기 이전에 자연어 처리를 사용하였고, 본 시스템을 30회 이상 사용한 대상을 전문가 그룹으로, 시스템을 전혀 처음 접하는 대상을 초보자 그룹으로 나누었고 개인별이 아니라 각 그룹별로 강화학습을 수행하였다. 또한 두 번째 실험에서도 본 연구에서 제안한 적응형 시스템을 비교하기 위하여, 대화 전략을 고정시킨 시스템, 대화 전략을 랜덤하게 변화시키는 시스템을 두 그룹에게 동일하게 진행하였다.
사용자 선별은 시스템의 사용에 따른 역량의 차이로 분리하였는데, 본 시스템을 사용하기 이전에 자연어 처리를 사용하였고, 본 시스템을 30회 이상 사용한 대상을 전문가 그룹으로, 시스템을 전혀 처음 접하는 대상을 초보자 그룹으로 나누었고 개인별이 아니라 각 그룹별로 강화학습을 수행하였다. 또한 두 번째 실험에서도 본 연구에서 제안한 적응형 시스템을 비교하기 위하여, 대화 전략을 고정시킨 시스템, 대화 전략을 랜덤하게 변화시키는 시스템을 두 그룹에게 동일하게 진행하였다. 이 실험은 Finnish Interact Project [10〕와 같이 사용자의 역량에 따른 적응형을 적용하기 위해서 실시되었다.
본 연구 시스템의 목적이 TV 프로그램 정보 안내이므로, 실험 데이타 수집을 위해서 사용자에게 표 1의 과제를 주고 수행하게 하여 강화 학습을 훈련하도록 진행하였다. 사용자의 시스템 평가 만족도를 정량적으로 분석하기 위하여서 ~2 ~ 4 사이 점수로 사용자가 평가하도록 하였다.
고안된 시스템에서 사용자에게 사용한 대화 전략은예제 (Example) 제시여부, 웅답의 확인 (Confirmation) 제시의 여부, 결과의 요약 방법 등의 방법으로 표 3과 같은 방법들을 대화에 적용하면서 진행하였었다.
방법을 제안하였다. 본 연구는 기존의 각 발화를 적용 대상으로 사용한 연구와 달리, 각각의 부대화를 대상으로 삼아서 대화 처리 시스템에 적응형을 부여하고, 사용자 역량에 따른 강화학습을 적용하여 사용자 최적화된 모델링을 얻는 시스템 방법을 제안하였다.
또한 상기 대화 전략이 적용된 시스템의 강화 학습이 대화의 효율성 및 사용자 만족도가 제대로 학습되었는지를 보기 위하여 각 개인별 실험과, 사용자의 역량별 양태를 파악하기 위한 그룹별 실험을 진행하였다. 개인별 실험에서는 제안된 알고리즘의 성능이 비교된 알고리즘보다 우수함을 확인하였다.
1) Q-학습에 대화처리 전략을 적용시키기 위해서 대화를 주대화와 부대화로 나누었고, 하나의 주대화는 에피소드로, 부대화는 상태로 사상시켜서 강화 학습법에 적용시켰다.
이론/모형
시스템은 대화 전략은 예제(Example) 제시여부, 응답의 확인(Confirmation) 제시의 여부, 결과의 요약 방법 등이 있다. Q-학습법 알고리즘을 이용하여 각 상태마다 가능한 행동 중 하나를 선택한 후, 이를 활용하여 사용자에게 질의응답 하게 된다.
성능/효과
또한 본 연구에서 베이스라인인 랜덤 전략은 사용자의 스타일에 상관없이 대화 전략이 랜덤으로 변하며 고정 전략은 사용자의 스타일에 상관없이 대화 전략이 고정된 것을 의미하였다. 제안한 알고리즘은 대화 평가 값이 L13이고, 랜덤 전략과 고정 전략은 각각 -0.26 과 0.78으로 비교되었다.
따른 대화에 관한 평가 값에 대한 평균값을 그래프로 나타낸 것이다. 그래프의 오른쪽에 있는 랜덤 전략과 고정 전략의 그래프와 제안된 시스템의 그래프를 비교해 봤을 때, 일정 대화 이상 학습을 수행했을 때 다른 전략보다 더 좋은 성능을 보임을 알 수 있다. 그림 7 에서 보는 바와 같이 적응형 대화 시스템의 그래프는 Q-학습°) Exploration/Exploitation을 반복하면서 서서히 최적의 정책을 찾아가므로, 초기에는 발산하지만 서서히 수렴을 하여 나가는 것을 보여준다.
개인별 실험에서는 제안된 알고리즘의 성능이 비교된 알고리즘보다 우수함을 확인하였다. 그룹별 실험에서는 미리 훈련된 강화 학습의 정책을 사용할 경우, 각 개인마다 훈련 과정을 거친 정책보다는 성능은 떨어지지만, 사용자 편의성을 위해 훈련 과정이 단축되므로 시스템의 효율성을 높일 수 있다는 것을 보여주었다.
개인별 실험에서는 제안된 알고리즘의 성능이 비교된 알고리즘보다 우수함을 확인하였다. 그룹별 실험에서는 미리 훈련된 강화 학습의 정책을 사용할 경우, 각 개인마다 훈련 과정을 거친 정책보다는 성능은 떨어지지만, 사용자 편의성을 위해 훈련 과정이 단축되므로 시스템의 효율성을 높일 수 있다는 것을 보여주었다.
본 연구의 강화 학습법 알고리즘으로 훈련된 정책을 가진 시스템을 사용자들에게 평가하도록 한 결과, 1.13의 만족도를 보여주었다. 또한 본 연구에서 베이스라인인 랜덤 전략은 사용자의 스타일에 상관없이 대화 전략이 랜덤으로 변하며 고정 전략은 사용자의 스타일에 상관없이 대화 전략이 고정된 것을 의미하였다.
후속연구
향후 연구 과제로는 1)음성 언어 처리 시스템과의 연구, 2)대화의 정량적인 평가에 인지과학적인 접근, 3) 대화 처리 모델의 수학적 정형화에 관한 연구를 제안한다. 본래 사람의 대화에서 의사소통 도구는 음성인 만큼, 연구 범위를 음성으로 확대하면 다양한 대화의 양태 파악이 가능하다.
본래 사람의 대화에서 의사소통 도구는 음성인 만큼, 연구 범위를 음성으로 확대하면 다양한 대화의 양태 파악이 가능하다. 따라서 대화 시스템을 음성 언어 처리로 확대하여 연구하면 대화 처리 양상을 보다 잘 반영한 사용자 모델링을 만들 수 있을 것이다. 또한 본 연구는 컴퓨터학에서의 자연어 처리에 초점을 맞춰서 진행되었는데, 적응형 능력을 강건하게 부여하려면 언어학적 요소와 인지과학적 요소를 이용한 대화의 정량적인 평가가 있어야 할 것이다.
따라서 대화 시스템을 음성 언어 처리로 확대하여 연구하면 대화 처리 양상을 보다 잘 반영한 사용자 모델링을 만들 수 있을 것이다. 또한 본 연구는 컴퓨터학에서의 자연어 처리에 초점을 맞춰서 진행되었는데, 적응형 능력을 강건하게 부여하려면 언어학적 요소와 인지과학적 요소를 이용한 대화의 정량적인 평가가 있어야 할 것이다. 마지막으로 본 연구의 목표가 최적화 대화 전략이므로, 이에 대한 기반 연구로 대화의 수학적인 정형화 연구와 최적화된 대화 전략이 존재할 수 있는지에 대한 연구도 필요하다.
또한 본 연구는 컴퓨터학에서의 자연어 처리에 초점을 맞춰서 진행되었는데, 적응형 능력을 강건하게 부여하려면 언어학적 요소와 인지과학적 요소를 이용한 대화의 정량적인 평가가 있어야 할 것이다. 마지막으로 본 연구의 목표가 최적화 대화 전략이므로, 이에 대한 기반 연구로 대화의 수학적인 정형화 연구와 최적화된 대화 전략이 존재할 수 있는지에 대한 연구도 필요하다.
참고문헌 (12)
T. Dean J.Allen, Y. Aloimomos, Artificial Intelligence Theory and Practice, Addison-Wesley, 1995
I. Zukerman, D. Litman, 'Natural Language Processing and User Modeling: Synergies and Limitations,' User Modeling and User-Adapted Interaction Vol.11, pp. 129-158, 2001
J.W. Wallis, E.H. Shortliffe, 'Customized Explanations Using Causal Knowledge,' In B.C. Buchanan, E.H. Shortliffe(eds): Rule-based Expert System: The MYCIN Experiments of the standford Heuristic Programming Project, Addison-Wesley Publishing Company, pp. 371-388, 1985
M. McTear, Spoken Dialogue Technology Toward the Conversational User Interface, Springer-Verlag London, 2004
M. A. Walker, D. Litman, C. A. Kamm, A. Abella 'PARADISE: A Framework for Evaluating Spoken Dialogue Agents,' In Proceedings of the 35th Annual Meeting of the Association of Computational Linguistics(ACL 97), pp. 271-280, 1997
K. Jokinen, K. Kanto, 'User Expertise Modeling and Adaptive in a Speech-Based E-mail System,' In proceedings of Annual Meeting of the Association of Computational Linguistics 2004(ACL 2004), pp. 87-94, 2004
S. Moller, 'A new Taxonomy of the Quality of Telephone Service Based on Spoken Dialogue System,' In proceedings of the 3 th SIGdial Workshop on Discourse and Dialogue, Philadel phia, PA. pp. 142-153, 2002
D. Litman, S. Pan, 'Empirically Evaluating an adaptable spoken dialogue systems,' In Proceedings of the 7th International Conference on User Modeling(UM'99), pp. 55-64, 1999
은지현, 최준기, 장두성, 김현정, 구명완, '마르코프 의사결정 과정에 기반한 대화 관리 시스템', In Proceedings of the HCI 2007, pp. 475-480, 2007
K. Jokinen, M. Kaipainen, T. Jauhuainen, G. Wilcock, M. Turunen, J. Akulinen, J. Kussis, K. Lagu, 'Adaptive Dialogue System Interaction with interact,' In Proceedings of the 3rd SIGdial Workshop on Discourse and Dialogue, Philadelphia, PA, pp. 64-73, 2002
M. A. Walker, J. Wright, I. Langkilde, 'Using natural Language Processing and Discourse features to identify understanding errors in a spoken dialogue system,' In Proceedings of the 17th International Conference on Machine Learning, Palo Alto, CA. pp. 1111-1118, 2000
R. S. Sutton, A. G. Barto, Reinforcement Learning An Introduction, MIT Press, 1998
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.