$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 튜터링 챗봇을 위한 말뭉치 구축
Building a Corpus for Korean Tutoring Chatbot 원문보기

한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회, 2017 Oct. 13, 2017년, pp.288 - 293  

김한샘 (연세대학교) ,  최경호 ((주)이르테크) ,  한지윤 (연세대학교) ,  정해영 ((주)이르테크) ,  곽용진 ((주)이르테크)

초록
AI-Helper 아이콘AI-Helper

교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 대화 턴을 추가하는 경우에는 ⓻번 영역처럼 챗봇의 발화문을 교사가 직접 입력하여 추가가 가능하고, 대화 턴을 삭제하는 경우에는 ⓼번 영역처럼 기 제작된 발화문이 제공되어 그 중한 가지를 선택해 제거가 가능하다. ⓽번은 현재 작업 중인 대화 시나리오 단계를 시각적으로 강조하여 교사의 검수작업에 도움을 주고자 하였다.
  • 교사는 발화의 적절성을 판단하면서 동시에 발화를 생성한다. 발화를 생성하는 동시에 제공받은 대화 단위의 구성과 흐름이 적절한 지 판단하는 것이다. 이러한 과정을 통해 실제 교수-학습 상황과 유사한 발화를 수집하여, 실제 챗봇이 학습자에게 다양한 발화를 제공할 수 있게 된다.
  • 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자의 세 주체가 대화 흐름에 통제를 가한 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 구축하는 것을 목적으로 하였다. 학습자의 감성 화행을 간과한 과제 중심적 대화문으로 구성된 짧은 대화 자료의 한계를 극복하기 위해 학습 시나리오에 따른 흐름을 교사와 학습자에 제공하도록 설계된 말뭉치 구축용 챗봇과 학습자의 대화, 이에 대한 교수자의 검증 및 응답 발화 생성 등의 단계를 거쳐 1000개 내외의 변주된 시나리오를 10만 어절 내외로 구축한다.
  • 이 연구의 목적은 한국어 튜터링 챗봇 개발에 필요한 말뭉치의 구축이다. ‘한국어 튜터링 챗봇’은 물리적 거리나 비용의 한계를 극복하고 챗봇과의 대화를 통해서 자연스럽게 한국어 구사 능력과 언어 지식을 습득할 수 있도록 하는 대화 시스템을 의미한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
1960년대에 세계 최초로 Brown 말뭉치가 구축된 이후 지금까지 수많은 다양한 말뭉치가 구축되어 왔는데, 이들은 자연언어처리 분야에서의 활용이라는 관점에서 어떻게 나뉠 수 있는가? 1960년대에 세계 최초로 Brown 말뭉치가 구축된 이후 지금까지 수많은 다양한 말뭉치가 구축되어 왔는데, 이들은 자연언어처리 분야에서의 활용이라는 관점에서 크게 세 가지 유형으로 나눌 수 있다. 첫 번째는 Brown 말뭉치로부터 영국 국가 말뭉치(BNC: British National Corpus)로 이어진 전통적인 말뭉치로 인간의 언어를 있는 그대로의 모습으로 관찰하고자 하는 데 그 특징이 있다. 전통적인 말뭉치는 형태소 분석, 구문 분석, 의미분석과 같은 기초적인 언어 처리에 주로 사용된다. 두 번째로 게임, 영화, 소설과 같이 내러티브가 있는 콘텐츠 제작, 텍스트의 요약 및 생성 등에 사용되는 말뭉치가 있다. 이들 말뭉치는 이야기 모티브와 전개 정보, 주제에 대한 정보를 중점적으로 담고 있어서 컴퓨터가 화제의 전개와 커뮤니케이션, 창의성 등을 모방하는 데 사용된다. 마지막으로 말뭉치에 포함된 광범위한 정보를 제한하여 목표 시스템 또는 서비스 환경에서의 언어 사용을 충실하게 담아내는 말뭉치들이다. Standford의 QnA를 위한 SQUAD나 대화형 에이전트 개발에 자주 사용되는 Ubuntu 채팅 말뭉치, 트위터나 페이스북 데이터가 대표적이다.
한국어 교육용 튜터링 챗봇을 개발하는데에 기존의 말뭉치의 활용도가 떨어지는 이유는? 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다.
교수-학습 발화의 특징은? 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다.
질의응답 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로