대규모 언어모델 기반 멀티세션 대화시스템과 세분화된 대화 벤치마크에서의 성능 분석 Large language model based multi-session conversation system and analyzing its performance in fine-grained multi-session benchmark원문보기
최근 대규모 언어모델 기반의 대화시스템이 등장하며 이를 활용한 검색, 문서작성, 질의응답 등 일상생활에서의 이용 사례가 증가하고 있다. 이에 따라 대화시스템은 사용자에게 친숙한 존재로 다가가고 있다. 한편 대화시스템 연구는 지식 관련 답변 생성능력에 관심이 집중 되어있는 만큼 ChatGPT와 같은 대화시스템은 사용자 간의 시간의 간격을 가진 대화(멀티 세션 대화)를 고려하여 설계되어 있지 않다. 앞으로의 대화시스템은 사용자의 대화를 기억하고, 개인의 기호에 적합한 정보 및 답변을 제공하는 개인화 대화시스템을 통해 사용자와 관계를 형성하는 시스템에 대한 수요도 높아지고 있다. 본 연구에서는 멀티세션 대화에 중점을 두고 언어모델이 대화 기억에 기반한 답변을 생성하는 능력을 중점으로 살펴보고자 한다. 멀티세션 대화를 평가하는 4가지 지표인 Engagingness, Humanness, ...
최근 대규모 언어모델 기반의 대화시스템이 등장하며 이를 활용한 검색, 문서작성, 질의응답 등 일상생활에서의 이용 사례가 증가하고 있다. 이에 따라 대화시스템은 사용자에게 친숙한 존재로 다가가고 있다. 한편 대화시스템 연구는 지식 관련 답변 생성능력에 관심이 집중 되어있는 만큼 ChatGPT와 같은 대화시스템은 사용자 간의 시간의 간격을 가진 대화(멀티 세션 대화)를 고려하여 설계되어 있지 않다. 앞으로의 대화시스템은 사용자의 대화를 기억하고, 개인의 기호에 적합한 정보 및 답변을 제공하는 개인화 대화시스템을 통해 사용자와 관계를 형성하는 시스템에 대한 수요도 높아지고 있다. 본 연구에서는 멀티세션 대화에 중점을 두고 언어모델이 대화 기억에 기반한 답변을 생성하는 능력을 중점으로 살펴보고자 한다. 멀티세션 대화를 평가하는 4가지 지표인 Engagingness, Humanness, Memorability, Specificity에 적합한 벤치마크 데이터를 선정하고, 각 세부 지표 별로 정량적으로 평가할 수 있는 방법인 Fine-grained Multi-Session Benchmark(FMS-Bench)를 제안한다. 제안한 멀티세션 벤치마크를 기반으로 기존 대화시스템 및 대규모 언어모델들을 평가한다. 또한 멀티세션 대화 데이터셋을 명령어 포맷 형태로 언어모델에 학습하여 명령어 튜닝을 수행하며, 이를 기반으로 한 멀티세션 대화시스템 모델을 제안한다. 이를 통해 멀티세션 대화시스템 분야의 연구를 대규모 언어모델 벤치마크처럼 정량적으로 평가할 수 있는 기반을 마련하고자 한다.
최근 대규모 언어모델 기반의 대화시스템이 등장하며 이를 활용한 검색, 문서작성, 질의응답 등 일상생활에서의 이용 사례가 증가하고 있다. 이에 따라 대화시스템은 사용자에게 친숙한 존재로 다가가고 있다. 한편 대화시스템 연구는 지식 관련 답변 생성능력에 관심이 집중 되어있는 만큼 ChatGPT와 같은 대화시스템은 사용자 간의 시간의 간격을 가진 대화(멀티 세션 대화)를 고려하여 설계되어 있지 않다. 앞으로의 대화시스템은 사용자의 대화를 기억하고, 개인의 기호에 적합한 정보 및 답변을 제공하는 개인화 대화시스템을 통해 사용자와 관계를 형성하는 시스템에 대한 수요도 높아지고 있다. 본 연구에서는 멀티세션 대화에 중점을 두고 언어모델이 대화 기억에 기반한 답변을 생성하는 능력을 중점으로 살펴보고자 한다. 멀티세션 대화를 평가하는 4가지 지표인 Engagingness, Humanness, Memorability, Specificity에 적합한 벤치마크 데이터를 선정하고, 각 세부 지표 별로 정량적으로 평가할 수 있는 방법인 Fine-grained Multi-Session Benchmark(FMS-Bench)를 제안한다. 제안한 멀티세션 벤치마크를 기반으로 기존 대화시스템 및 대규모 언어모델들을 평가한다. 또한 멀티세션 대화 데이터셋을 명령어 포맷 형태로 언어모델에 학습하여 명령어 튜닝을 수행하며, 이를 기반으로 한 멀티세션 대화시스템 모델을 제안한다. 이를 통해 멀티세션 대화시스템 분야의 연구를 대규모 언어모델 벤치마크처럼 정량적으로 평가할 수 있는 기반을 마련하고자 한다.
In this study, we aim to evaluate the multi-session conversation ability of a language model in long-term memory, focusing on long conversations that took place over several periods. We select a multi-session conversation benchmark dataset and present an evaluation method that can quantitatively eva...
In this study, we aim to evaluate the multi-session conversation ability of a language model in long-term memory, focusing on long conversations that took place over several periods. We select a multi-session conversation benchmark dataset and present an evaluation method that can quantitatively evaluate it. Based on the proposed methodology, we propose an instruction tuning-based multi-session dialogue system model that learns the multi-session dialogue dataset in instruction format from a large language model. Through this, we aim to lay the foundation for quantitatively evaluating research in the field of multi-session conversation systems using large language models.
In this study, we aim to evaluate the multi-session conversation ability of a language model in long-term memory, focusing on long conversations that took place over several periods. We select a multi-session conversation benchmark dataset and present an evaluation method that can quantitatively evaluate it. Based on the proposed methodology, we propose an instruction tuning-based multi-session dialogue system model that learns the multi-session dialogue dataset in instruction format from a large language model. Through this, we aim to lay the foundation for quantitatively evaluating research in the field of multi-session conversation systems using large language models.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.