[논문]한국어 대화 모델 학습을 위한 디노이징 응답 생성

김태형; 노윤석; 박성배; 박세영

문제 정의

ROUGE 점수는 요약 등의 자연어 생성 문제에서 정량적 품질 평가 방법으로 널리 사용되고는 있지만, 대화의 경우 같은 의미를 나타내는 굉장히 다양한 자연어 표현이 가능하며 응답의 의미가 다르다 하더라도 충분히 적절한 응답일 수 있기 때문에 평가 도구로써 한계가 명확하다. 따라서 본 연구에서는 사람에 의한 정성 평가를 시행하였다. 정성 평가 방법은 모델이 생성한 응답에 대해 사람이 {적절한 응답, 부적절한 응답}을 {1, 0}으로 평가하여 전체 응답 내에서의 적절한 응답 비율을 살펴보았다.
본 논문에서는 대화에서 나타날 수 있는 다양한 질의에 대해 강건하고 다양한 응답을 생성할 수 있는 디노이징 응답 생성 모델을 제안하였다. 제안하는 모델은 대화응답 생성을 위해 널리 사용되는 시퀀스-투-시퀀스 모델에 디노이징 메커니즘을 추가하였다.
본 논문에서는 사오정 문제를 완화하고 강건한 응답을 생성할 수 있는 디노이징 응답 생성(denoising responsegeneration) 모델을 제안한다. 디노이징 응답 생성 모델은 기존 시퀀스-투-시퀀스 모델의 학습과정에 디노이징 메커니즘을 도입한 모델이다.
본 논문에서는 스마트 모바일 다국어 언어음성 데이터로부터 대화 쌍을 추출하여 실험 데이터를 구축하였다. 스마트 모바일 다국어 언어음성 데이터는 관광지, 호텔, 공항, 역, 길 등의 장소에서 두 명의 화자에 의해 이루어지는 대화를 가지고 있다.
본 연구에서는 이러한 시퀀스-투-시퀀스 모델을 통한 대화 응답 생성 모델이 잠재적으로 내포할 수 있는 문제를 다룬다. 표 1에서 볼 수 있는 것처럼 같은 의미를 나타내는 다른 자연어 질의에 대해 시퀀스-투-시퀀스 모델은 강건하지 못한 응답을 생성할 수 있다.
또한 한국어는 체언과 조사의 결합, 다양한 형태의 어미 변화 등으로 인해 어절 단위 학습 시 다루어야할 어휘양이 매우 커지며, 이는 시퀀스- 투-시퀀스 모델 학습을 어렵게 만드는 요인이 된다. 이 문제를 해소하기 위해 본 논문에서는 형태소 단위와 음절 단위로 문장을 취급하여 디노이징 응답 생성 모델을 학습하는 방법을 소개한다.

제안 방법

단어 변경, 4. 어미 변경, 5. 혼합의 5가지 방법을 적용하였다. 이를 통해 만들어진 총 120개의 질의에 대해 각 모델에서 생성한 응답의 적절성 평가를 실행하였다.
챗봇 관련 연구는 1966년의 ELIZA [6]로 거슬러 올라간다. ELIZA는 최초의 챗봇으로 알려져 있으며 응답을 생성하기 위해 미리 몇 가지 규칙을 정의하고 그 규칙에 따라 응답을 생성하는 방식으로 설계되었다. 이런 규칙기반 응답 모델은 결국 제약된 성능을 보일 수밖에 없다.
디노이징 응답 생성 모델은 기존 시퀀스-투-시퀀스 모델의 학습과정에 디노이징 메커니즘을 도입한 모델이다. 단어 순서 변경과 단어 삭제와 같은 노이즈가 가해진 질의 문장을 입력하고 그럼에도 불구하고 본래의 적절한 응답을 생성하도록 질의- 응답 쌍을 학습한다. 즉, 같은 의미를 갖지만 다른 문장으로 표현되는 현상을 노이즈가 포함된 질의 문장으로 시뮬레이션하고, 서로 다른 노이즈가 가미된 여러 문장에 대해 모두 적절한 응답을 해내도록 학습하는 것이다.
SDAE는 입력 문장에 대해 하나의 강건한 문장표현을 얻어 다양한 문제에 활용하는 것이 주된 목적인 반면 본 연구에서는 강건한 문장 표현을 얻는 자체보다는 좋은 응답을 생성하는 것이 궁극적인 목적이다. 따라서 SDAE의 디노이징 모델 방식을 따르되 양방향 순환신경망과 어텐션 모델(attention model)을 도입하여 맥락에 따른 문장 표현을 얻을 수 있도록 디노이징 응답 생성 모델을 설계하였다.
기본적인 시퀀스-투-시퀀스 모델과 제안하는 디노이징 응답 생성 모델을 정량적으로 비교하기 위해 각 모델이 생성한 응답에 대해 ROUGE score를 측정하였다. 또한 각 응답의 적절성 여부를 사람이 직접 {0, 1}로 평가하여 실험 모델들에 대해 정성 평가 역시 수행하였다. 그 결과 제안하는 모델이 비교 모델에 비해 ROUGE 점수에 대해서 최대 24%, 적절한 응답 비율에 대한 정성 평가에 대해 최대 35%, 다양한 질의에 대한 응답 능력에서 최대 34%의 성능 향상을 보임을 확인할 수 있었다.
양방향 LSTM은 시퀀스를 정방향과 역방향으로 동시 학습한 후, 양방향에서 도출된 두 개의 벡터 표현을 합쳐 입력 시퀀스에 대한 하나의 벡터 표현을 출력한다. 또한 양방향 LSTM에 더해, 어텐션(attention) 메커니즘을 적용하였다. 어텐션 메커니즘은 학습과정에서 중요하다 여겨지는 입력 시퀀스의 특정 부분을 다른 부분보다 집중적으로 반영하기 위한 방법이다.
1로 설정했다. 모든 실험에서 학습 데이터를 8:1:1의 비율로 학습, 검증, 평가 셋으로 나누어 진행하였으며, 검증 오류의 변화를 살펴 모델이 과다 학습(overfitting)되는 것을 막았다.
본 논문에서 제안하는 디노이징 응답 생성 모델은 [7]에서 비지도 학습을 통해 강건한 문장 표현을 얻기 위해 제안한 시퀀셜 디노이징 오토인코더(SDAE)로부터 영감을 얻었다. SDAE는 문장 표현 학습을 위해 임의의 노이즈가 추가된 문장을 입력하여 원래의 문장으로 복원하는 오토인코더 학습 방법이며, SDAE를 통해 얻은 문장 표현이 여러 실험에서 좋은 성능을 보임으로써 그 우수성을 입증하였다.
본 논문에서 해결하고자 하는 사오정 문제에 대한 정성 평가 역시 수행하였다. 이를 위해 테스트 데이터 중임의의 20개의 대화 쌍을 선택한 후 각 대화 쌍의 질의문을 여러 형태로 변환하였다.
그림 2는 노이즈 함수 N이 실제로 적용되는 알고리즘에 대한 의사 코드이다. 알고리즘에서 확인할 수 있는 것처럼 제안하는 방법에서는 토큰 제거를 먼저 적용 후토큰 위치 교체를 적용한다.
조휘열 외는 한국어 대화 데이터에 대해 시퀀스-투-시퀀스 모델을 적용한 연구 [8]를 발표하여 그 가능성을 보였다. 이 연구에서는 아침, 아이돌보기 상황으로 대화의 시나리오를 제약하고 해당 시나리오에 해당하는 한국어 데이터를 활용하여 대화 모델을 학습하였다. 실험을 통해 시퀀스-투-시퀀스 모델이 한국어에 대해서도 제약된 시나리오 내에서 비교적 강건한 응답을 생성할 수 있음을 보였다.
어텐션 메커니즘은 학습과정에서 중요하다 여겨지는 입력 시퀀스의 특정 부분을 다른 부분보다 집중적으로 반영하기 위한 방법이다. 이를 위해 중요하게 볼 시퀀스의 정보를 가진 맥락 벡터(contextvector)를 생성하며, 맥락 벡터 생성을 위해 어텐션 층을 추가로 학습한다. 이렇게 생성된 맥락 벡터를 출력시퀀스 생성과정에 반영한다.
본 논문에서 해결하고자 하는 사오정 문제에 대한 정성 평가 역시 수행하였다. 이를 위해 테스트 데이터 중임의의 20개의 대화 쌍을 선택한 후 각 대화 쌍의 질의문을 여러 형태로 변환하였다. 각 질의에 대한 변환은1.
제안하는 모델은 대화응답 생성을 위해 널리 사용되는 시퀀스-투-시퀀스 모델에 디노이징 메커니즘을 추가하였다. 이를 통해 다양한 질의에 대해 적절한 응답을 생성하도록 설계했다. 실험을 통해 제안한 모델이 같은 뜻의 다양한 형태의 질의에 대해 기존 모델보다 적절한 응답을 생성할 수 있음을 확인 할 수 있었으며 부가적으로 일반적인 응답 생성 비율도 감소함을 보였다.
혼합의 5가지 방법을 적용하였다. 이를 통해 만들어진 총 120개의 질의에 대해 각 모델에서 생성한 응답의 적절성 평가를 실행하였다. 그림 3의 오른쪽 그래프는 각 모델 별 120개 응답 중 적절하다고 평가된 응답 비율을 나타낸 것이며, 평가한 결과 제안한 디노이징 응답 생성 모델이 기존 모델보다 두드러지게 좋은 성능을 보였다.
따라서 본 연구에서는 사람에 의한 정성 평가를 시행하였다. 정성 평가 방법은 모델이 생성한 응답에 대해 사람이 {적절한 응답, 부적절한 응답}을 {1, 0}으로 평가하여 전체 응답 내에서의 적절한 응답 비율을 살펴보았다. 평가는 테스트 데이터에서 임의로 929개를 추출하여 진행했다.
그림 1은 본 논문에서 제안하는 디노이징 응답 생성모델을 도식화한 것이다. 제안하는 디노이징 응답 생성모델은 시퀀스-투-시퀀스 모델에 디노이징 메커니즘을 도입한 모델이다. 디노이징 메커니즘은 입력으로 주어지는 시퀀스에 노이즈 함수를 이용하여 노이즈를 추가한 후 원래 목표 시퀀스를 생성하도록 학습하는 방법이다.
본 논문에서는 대화에서 나타날 수 있는 다양한 질의에 대해 강건하고 다양한 응답을 생성할 수 있는 디노이징 응답 생성 모델을 제안하였다. 제안하는 모델은 대화응답 생성을 위해 널리 사용되는 시퀀스-투-시퀀스 모델에 디노이징 메커니즘을 추가하였다. 이를 통해 다양한 질의에 대해 적절한 응답을 생성하도록 설계했다.
단어 순서 변경과 단어 삭제와 같은 노이즈가 가해진 질의 문장을 입력하고 그럼에도 불구하고 본래의 적절한 응답을 생성하도록 질의- 응답 쌍을 학습한다. 즉, 같은 의미를 갖지만 다른 문장으로 표현되는 현상을 노이즈가 포함된 질의 문장으로 시뮬레이션하고, 서로 다른 노이즈가 가미된 여러 문장에 대해 모두 적절한 응답을 해내도록 학습하는 것이다. 이를 통해 모델의 인코더를 질의문의 세세한 표현보다는 핵심적인 의미를 포착하도록 학습함으로써 디코더가 보다 의미 적절한 응답을 생성할 수 있도록 한다.
한국어에 좀 더 적합한 디노이징 응답 생성 모델 학습을 위해 형태소를 노이즈 함수 N을 위한 토큰 단위로 사용할 것을 제안한다. 한국어 문장 데이터를 학습할 때 고려해야하는 주요 특징 중 하나는 어절의 다양함이다.
스마트 모바일 다국어 언어음성 데이터는 관광지, 호텔, 공항, 역, 길 등의 장소에서 두 명의 화자에 의해 이루어지는 대화를 가지고 있다. 해당 데이터 셋의 각 대화로부터 연속적인 두 개의 발화에 대해 각각을 선행 발화를 질의 문장, 후행 발화를 응답 문장으로 하여 질의-응답 쌍으로 이루어진 데이터로 만들었다. 이런 과정을 통해 총 90,729개의 대화 쌍으로 이루어진 데이터를 구축하였다.

대상 데이터

실험을 위해 다섯 가지 서로 다른 비교 모델을 설정하였다. 다섯 모델은 디노이징 메커니즘을 적용한 제안 모델 두 가지와 디노이징 메커니즘을 적용하지 않은 세 가지 기존 모델로 나뉜다.
본 모델에서는 [9]에서 기계 번역을 위해 제안한 시퀀스-투-시퀀스 모델을 대화 데이터 학습을 위한 기본 모델로 차용한다. 이 모델은 인코더로 양방향(bi-directoinal) LSTM을 사용하며 디코더로는 LSTM을 사용한다. 양방향 LSTM은 시퀀스를 정방향과 역방향으로 동시 학습한 후, 양방향에서 도출된 두 개의 벡터 표현을 합쳐 입력 시퀀스에 대한 하나의 벡터 표현을 출력한다.
해당 데이터 셋의 각 대화로부터 연속적인 두 개의 발화에 대해 각각을 선행 발화를 질의 문장, 후행 발화를 응답 문장으로 하여 질의-응답 쌍으로 이루어진 데이터로 만들었다. 이런 과정을 통해 총 90,729개의 대화 쌍으로 이루어진 데이터를 구축하였다. 표 2를 통해 실험에서 사용한 데이터에 대한 간략한 통계 자료를 확인할 수 있다.
제안하는 방법의 우수성을 보이기 위해 약 9만 건의 한국어 질의-응답 쌍 데이터에 대해 실험을 수행했다. 기본적인 시퀀스-투-시퀀스 모델과 제안하는 디노이징 응답 생성 모델을 정량적으로 비교하기 위해 각 모델이 생성한 응답에 대해 ROUGE score를 측정하였다.
정성 평가 방법은 모델이 생성한 응답에 대해 사람이 {적절한 응답, 부적절한 응답}을 {1, 0}으로 평가하여 전체 응답 내에서의 적절한 응답 비율을 살펴보았다. 평가는 테스트 데이터에서 임의로 929개를 추출하여 진행했다.
학습 과정에서는 각 데이터의 구성 단위 어휘 수가 5만개가 넘어 갈 경우 빈도수가 높은 상위 5만개의 어휘만을 사용하였다. 모든 모델에서 레이어는 한 층만 쌓도록 설정하였다.
01, 감소 비율은 설정하지 않았다. 학습 횟수는 어절 단위 데이터를 이용한 기본 모델의 경우200회를 학습하였으며 나머지 모델은 800회를 학습하였다. 제안 모델의 노이즈 함수에서 P_drop과 P_8wap은 0.

데이터처리

제안하는 방법의 우수성을 보이기 위해 약 9만 건의 한국어 질의-응답 쌍 데이터에 대해 실험을 수행했다. 기본적인 시퀀스-투-시퀀스 모델과 제안하는 디노이징 응답 생성 모델을 정량적으로 비교하기 위해 각 모델이 생성한 응답에 대해 ROUGE score를 측정하였다. 또한 각 응답의 적절성 여부를 사람이 직접 {0, 1}로 평가하여 실험 모델들에 대해 정성 평가 역시 수행하였다.

이론/모형

Hidden state 크기는 모두 1,000을 사용하였다. 모델 학습은 배치 크기를 64로 하는 미니-배치학습 방법을 사용하였으며 Stochastic gradient descent알고리즘을 통해 학습하였다. 기본 모델에서 어절 단위실험의 경우 learning rate를 0.
본 논문에서는 각 모델의 성능을 측정하기 위한 지표로 ROUGE F1 점수[11]를 사용했다. ROUGE F1 점수는 모델이 생성한 자연어의 품질을 정량 평가하기 위한 지표로써 모델이 생성한 문장 내의 n-gram 시퀀스들이 실제 정답 문장에 얼마나 포함되어있는지를 수치화한다.
본 모델에서는 [9]에서 기계 번역을 위해 제안한 시퀀스-투-시퀀스 모델을 대화 데이터 학습을 위한 기본 모델로 차용한다. 이 모델은 인코더로 양방향(bi-directoinal) LSTM을 사용하며 디코더로는 LSTM을 사용한다.

성능/효과

그림 3의 가장 왼쪽 그래프는 각 모델에서 생성한 응답에 대해 해당 응답이 적절하다고 판단된 경우에 대한결과가 나타나 있다. 그 결과 제안 모델 중 형태소 모델이 가장 좋은 결과를 보였다. 기존 모델들 간의 결과를 살펴보면 음절 모델이 가장 좋지 않은 성능일 보였는데, 이는 문장을 음절로 쪼개어 학습한 결과 응답 생성 시 문법에 맞는 의미 있는 문장을 만들어내는 데 실패했기 때문이다.
또한 각 응답의 적절성 여부를 사람이 직접 {0, 1}로 평가하여 실험 모델들에 대해 정성 평가 역시 수행하였다. 그 결과 제안하는 모델이 비교 모델에 비해 ROUGE 점수에 대해서 최대 24%, 적절한 응답 비율에 대한 정성 평가에 대해 최대 35%, 다양한 질의에 대한 응답 능력에서 최대 34%의 성능 향상을 보임을 확인할 수 있었다.
그림 3의 오른쪽 그래프는 각 모델 별 120개 응답 중 적절하다고 평가된 응답 비율을 나타낸 것이며, 평가한 결과 제안한 디노이징 응답 생성 모델이 기존 모델보다 두드러지게 좋은 성능을 보였다. 그 중 음절 디노이징 응답 생성 모델이 가장 좋은 성능을 보였으나 형태소 모델과 큰 차이를 보이지는 않았다.
기존 모델들 간의 결과를 살펴보면 음절 모델이 가장 좋지 않은 성능일 보였는데, 이는 문장을 음절로 쪼개어 학습한 결과 응답 생성 시 문법에 맞는 의미 있는 문장을 만들어내는 데 실패했기 때문이다. 그러나 제안하는 방법의 음절 모델의 경우 기존의 모든 모델보다 더 우수한 성능을 얻었다. 이는 제안하는 모델의 디노이징 메커니즘이 모델을 정규화(regularization)하는 힘이 있기 때문으로 보인다.
’라는 엉뚱한 대답을 하였다. 두 번째 예시의 경우 제안 모델도 다소 맥락에 맞지 않는 응답을 하기도 하지만 적절한 답변도 해낸 반면, 기존 모델은 모든 질문에 대해 전혀 맥락과 다른 응답을 생성함을 확인할 수 있다.
이 연구에서는 아침, 아이돌보기 상황으로 대화의 시나리오를 제약하고 해당 시나리오에 해당하는 한국어 데이터를 활용하여 대화 모델을 학습하였다. 실험을 통해 시퀀스-투-시퀀스 모델이 한국어에 대해서도 제약된 시나리오 내에서 비교적 강건한 응답을 생성할 수 있음을 보였다.
이를 통해 다양한 질의에 대해 적절한 응답을 생성하도록 설계했다. 실험을 통해 제안한 모델이 같은 뜻의 다양한 형태의 질의에 대해 기존 모델보다 적절한 응답을 생성할 수 있음을 확인 할 수 있었으며 부가적으로 일반적인 응답 생성 비율도 감소함을 보였다. 이를 통해 제안하는 모델의 데이터증감 효과와 정규화 능력이 질의에 대한 강건한 의미 벡터 표현을 학습하도록 함으로써 일반적인 응답을 생성하는 비율을 줄일 수 있음을 확인하였다.
그러나 ROUGE 점수의 경우 모델이 다룰 어휘의 수가 적을수록 값이 높아질 수 있으므로 학습 토큰 단위가 같은 모델끼리 비교하는 것이 좀 더 정확하게 성능을 평가하는 방법이 될 수 있다. 이 경우에도 제안하는 방법의 형태소 모델이 기존 방법의 형태소 모델보다 최대 13.7%, 음절 모델에서 최대 24% 가량의 성능 향상을 보였다.
그 중 주목할 만한 연구로 Vinyal과 Le의 연구 [2]를 언급할 수 있다. 이 연구는 기계 번역 분야에서 큰 성과를 보인 시퀀스-투-시퀀스 모델을 사용하여 대화 데이터를 효과적으로 학습할 수 있음을 보였다. 이후 시퀀스-투-시퀀스 모델을 통해 대화의 응답을 생성할때 발생하는 여러 문제를 해결하기 위한 연구들이 진행되고 있다.
그림 3의 가운데 그래프는 각 모델 별 적절한 응답 중 이러한 일반적인 응답의 비율을 나타낸 것이다. 이 평가에서도 제안하는 형태소 단위의 디노이징 응답 생성 모델이 가장 적은 일반적인 응답을 생성했으며, 두 번째로 좋은 성능의 모델보다 일반적인 응답의 비율을 절반 가까이 줄였음을 확인할 수 있다. 즉, 그림 3의 왼쪽과 가운데 결과를 통해 형태소 디노이징 응답 생성 모델이 다른 모델보다 더 적절한 응답을 잘 하면서도 더 다양한 응답을 해낸다는 것을 알 수 있다.
실험을 통해 제안한 모델이 같은 뜻의 다양한 형태의 질의에 대해 기존 모델보다 적절한 응답을 생성할 수 있음을 확인 할 수 있었으며 부가적으로 일반적인 응답 생성 비율도 감소함을 보였다. 이를 통해 제안하는 모델의 데이터증감 효과와 정규화 능력이 질의에 대한 강건한 의미 벡터 표현을 학습하도록 함으로써 일반적인 응답을 생성하는 비율을 줄일 수 있음을 확인하였다.
제안하는 디노이징 응답 생성 모델은 소위 I don’t know 문제에도 더 강건한 성능을 보였다.
제안하는 디노이징 응답 생성 모델이 모든 평가에서 좋은 결과를 보였다. 이는 제안하는 모델이 입력 데이터에 디노이징을 적용하여 학습하는 과정에서 문장의 핵심적인 의미를 학습할 수 있기 때문일 것이다.

후속연구

형태소 단위학습은 한국어의 어절 수 문제를 해결할 뿐만 아니라 한국어에서 빈번히 일어나는 어미, 조사 변화 등을 노이즈함수를 통해 시뮬레이션하기에 적합하다. 즉, 노이즈 함수를 통해 조사, 어미 부분에도 확률적으로 노이즈를 부여함으로써 모델이 질의문의 본질적인 의미를 좀 더 잘 학습 할 수 있게 될 것이다.

핵심어	질문	논문에서 추출한 답변
	챗봇(chatbot) 혹은 대화 시스템은 어떤 시스템인가?	챗봇(chatbot) 혹은 대화 시스템은 자연어 질의에 대해 적절한 자연어 응답을 해주는 시스템이다. 이를 위해서는 두 가지 핵심 기술이 필요한데, 하나는 자연어로 된 질의를 정확히 이해할 수 있는 기술이며, 다른 하나는 입력받은 자연어 질의에 적합한 자연어 응답을 생성하는 기술이다.
	제안 모델 중 형태소 모델이 가장 좋은 결과를 보인 이유는?	그 결과 제안 모델 중 형태소 모델이 가장 좋은 결과를 보였다. 기존 모델들 간의 결과를 살펴보면 음절 모델이 가장 좋지 않은 성능일 보였는데, 이는 문장을 음절로 쪼개어 학습한 결과 응답 생성 시 문법에 맞는 의미 있는 문장을 만들어내는 데 실패했기 때문이다. 그러나 제안하는 방법의 음절 모델의 경우 기존의 모든 모델보다 더 우수한 성능을 얻었다.
	대화 시스템을 위한 시퀀스-투-시퀀스 모델은 무엇으로 구성되어 있는가?	대화 시스템을 위한 시퀀스-투-시퀀스 모델은 입력받은 자연어 질의를 벡터 표현으로 변환하는 인코더와 인코딩된 질의 문장에 대한 벡터 표현을 입력받아 적절한 자연어 응답을 생성하는 디코더로 구성된다. 모델의 입력과 출력이 모두 자연어이므로 시퀀스 데이터를 다루기에 적합한 순환 신경망(recurrent neural network)이 인코더와 디코더에 사용된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 대화 모델 학습을 위한 디노이징 응답 생성
Denoising Response Generation for Learning Korean Conversational Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 대화 모델 학습을 위한 디노이징 응답 생성 Denoising Response Generation for Learning Korean Conversational Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 대화 모델 학습을 위한 디노이징 응답 생성
Denoising Response Generation for Learning Korean Conversational Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper