[논문]한국어 대화 엔진에서의 문장 분류

최동현; 박일남; 임재수; 백슬예; 이미옥; 신명철; 김응균; 신동렬

문제 정의

GloVe 의미 벡터는 문장 분류 네트워크 모델 훈련 시에는 같이 훈련되지 않고 고정된 값을 계속 유지하도록 설정되었다. 또한, 각 문제에 특화된 단어의 의미를 별도로 훈련하기 위하여 본 논문에서는 GloVe 의미 벡터와 별도의 도메인 특화 의미 벡터가 제안되었다. 도메인 특화 의미 벡터는 GloVe 의미 벡터로 표현할 수 없는, 해당 문제에 특화된 단어의 의미를 나타내기 위한 것으로, 네트워크 모델 훈련 시에 같이 훈련되도록 설정되었다.
이 중, 도메인 분류기와 의도 분류기는 모두 주어진 문장을 여러 개의 클래스 중 하나로 분류하는 문제로 정의될 수 있다. 본 논문에서는, 카카오 미니 인공지능 스피커에 적용된 한국어 문장 분류 시스템에 관하여 소개 한다. 빠른 처리 속도를 위하여 Convolutional Neural Network (CNN) [1]을 이용하는 기계학습 기반 접근 방식을 사용하였으며, 훈련 말뭉치에 등장하지 않는 표현들을 처리하기 위해서 GloVe[2] 방식으로 한국어 뉴스 데이터를 이용하여 훈련된 한국어 단어 의미 벡터들이 적용되었다.
본 논문에서는, 한국어 대화 엔진에서의 문장 분류를 위한 시스템에 관하여 서술하였다. 해당 시스템을 구축하기 위하여 한국어의 특성을 고려한 GloVe 단어 의미 벡터 훈련 방법이 제안되었고, 이를 평가하기 위한 단어 유사도 말뭉치가 구축되었다.
본 절에서는 제안된 문장 분류 시스템의 성능에 관하여 기술한다. GloVe 단어 의미 벡터는 K-GloVe 방식으로 N2015-7 뉴스 데이터 셌을 이용해 훈련되었으며, 벡터의 크기는 300차원으로 설정되었다.
본 절에서는 한국어 GloVe 의미 벡터 및 문장 분류기에 대한 실험 결과를 서술한다.

가설 설정

즉, 주어진 단어 ݅i와 ݆j의 의미 벡터 wi와 wj는 검침 단어 ݇k의 검침용 의미 벡터 #와 어떤 함수 F에 대하여, ܲPij가 단어 ݅i와 ݆j의 동시 출현 확률일 때 # 의 관계가 성립된다고 가정한다.

제안 방법

시스템 성능 비교를 위해 Bi-ASTM을 사용한 문장 분류기가 별도로 훈련되었다. Bi-ASTM 기반 문장 분류기는 본 논문에서 제안된 네트워크 구조에서 CNN 부분만 BiASTM으로 대체되었으며, ASTM의 내부 파라미터는 각 200차원으로 설정되었다. CNN 사용 모델의 훈련 파라미터 개수는 4,570,748개, Bi-ASTM 사용 모델의 훈련 파라미터 개수는 5,211,548개로, 훈련 파라미터 개수가 비슷하도록 설정되었다.
아래 표 6은 평가세트에 대한 각 문장 분류기의 문장 단위 정확률을 보여 준다. 각 의미 벡터의 성능에 미치는 영향을 알아보기 위하여, GloVe 의미 벡터만 사용한 시스템에서 차례로 각 의미 벡터를 추가하면서 성능을 측정하는 실험이 진행되었다.
또한 GloVe로 훈련된 한국어 단어 의미 벡터를 직접 평가하기 위하여 영어 단어 유사도 말뭉치[10]를 기초로 하여 한국어 단어 유사도 말뭉치를 구축하였다. 단어 유사도 말뭉치는 A : B = C : D의 형태를 가지고 있으며, w(A)가 단어 A의 훈련된 의미 벡터일 때, w(B) − w(A) +w(C)와 가장 가까운 단어 의미 벡터가 w(D) 인지 여부를 판별한다.
본 논문에서는 각 계층의 결괏값을 정규화하기 위하여, 활성화 함수로 Scaled Exponential Linear Unit(SELA[9]) 가 사용되었다. 또한, SELA의 적용을 위하여 [9]에서 제안된 Alpha-Dropout 및 변수 초기화 함수가 적용되었다.
이때, 영어와는 다른 한국어 특유의 어순으로 인하여 발생하는 문제를 해결하기 위하여, 의존 문법 구문 분석기를 이용한 GloVe 계산 방식이 제안되었다. 또한, 대규모 말뭉치를 이용해 기훈련된 단어 의미 벡터로는 얻을 수 없는, 대화 엔진 문제 및 도메인에 특화된 단어 의미 벡터를 얻어내면서 동시에 빠른 수행 속도를 유지하기 위해, 기존에 사용되던 캐릭터 기반 의미 벡터 [3] 대신 도메인 특화 단어 의미 벡터의 사용이 제안되었다.
실제 실험 및 평가는 단어 유사도 쌍을 이루는 총 4개의 단어가 GloVe 훈련 대상 어휘에 모두 포함된 총 8,162개 유사도 쌍에 대해서만 이루어졌다.
한국어의 경우, 영어의 주어 - 서술어 - 목적어 어순과 달리 주어 - 목적어 - 서술어 어순을 가지기 때문에, 단순히 문장 내에서 두 단어 사이의 단어 개수만을 이용하여 거리를 계산할 경우 주어와 서술어 간의 동시 출현 수치가 실제보다 약해지게 된다. 이 문제를 해결하기 위하여, 본 논문에서는 먼저 문장에 대한 의존 문법 구문분석을 수행한 후, 대상 두 단어의 구문 트리 상에서의 거리를 구하여 해당 수치의 역수를 동시 출현 빈도를 계산하는 데 이용하였다.
훈련된 의미 벡터의 크기는 300으로 고정되었다. 평가를 위하여 대상 유사도 쌍의 개수 중 정답과 맞춘 유사도 쌍의 비율(%)을 도출하였다.
한국어 단어 유사도 말뭉치는 (1) 기존 영어 유사도 말뭉치 중 일부를 번역하고, (2) 몇몇 지역적 특성이 강한 카테고리의 경우 한국적 특색에 맞게 새로이 말뭉치가 제작되었으며, (3) 몇몇 카테고리는 새로이 추가되어, 총 11개 카테고리에 9,736개의 단어 유사도 쌍으로 이루어졌다. 아래 표 2는 한국어 단어 유사도 말뭉치의 카테고리별 유사도 쌍 개수 및 구축된 방법을 나타낸다.
본 논문에서는, 한국어 대화 엔진에서의 문장 분류를 위한 시스템에 관하여 서술하였다. 해당 시스템을 구축하기 위하여 한국어의 특성을 고려한 GloVe 단어 의미 벡터 훈련 방법이 제안되었고, 이를 평가하기 위한 단어 유사도 말뭉치가 구축되었다. 훈련된 GloVe 단어 의미 벡터를 토대로 실제 서비스에 적용 가능한 한국어 대화 엔진 문장 분류기의 전체적인 구조가 제안되었고, 각 도메인의 특성을 잘 잡아내기 위한 도메인 특화 의미 벡터의 사용이 제안되었다.
해당 시스템을 구축하기 위하여 한국어의 특성을 고려한 GloVe 단어 의미 벡터 훈련 방법이 제안되었고, 이를 평가하기 위한 단어 유사도 말뭉치가 구축되었다. 훈련된 GloVe 단어 의미 벡터를 토대로 실제 서비스에 적용 가능한 한국어 대화 엔진 문장 분류기의 전체적인 구조가 제안되었고, 각 도메인의 특성을 잘 잡아내기 위한 도메인 특화 의미 벡터의 사용이 제안되었다.

대상 데이터

본 절에서는 제안된 문장 분류 시스템의 성능에 관하여 기술한다. GloVe 단어 의미 벡터는 K-GloVe 방식으로 N2015-7 뉴스 데이터 셌을 이용해 훈련되었으며, 벡터의 크기는 300차원으로 설정되었다. 도메인 특화 의미 벡터, 엔티티 타입 의미 벡터, 품사 의미 벡터는 각각 100차원으로 훈련되었다.
GloVe 훈련 데이터 및 입력 문장의 전처리를 위하여, 자체 보유한 형태소 분석기, 품사 태거, 의존 구문 분석기 및 엔티티 태거가 사용되었고, GloVe를 훈련하기 위한 말뭉치로는 2015년에서 2017년 6월까지의 다음 뉴스 말뭉치가 이용되었다. 훈련 대상 어휘는 2017년 1월에서 6월까지의 뉴스 데이터에 등장하는 형태소 중 등장 횟수가 가장 높은 50만 개의 형태소로 고정되었다.
문장 분류 시스템을 훈련 및 테스트하기 위하여 약 48개 도메인, 127,322문장의 말뭉치가 구축되었다. 해당 말뭉치는 도메인별로 균등하게 8:1:1의 비율로 나누어져 각각 훈련 데이터, 검증 데이터, 테스트용 데이터로 사용되었으며, 훈련을 위하여 Stochastic Gradient Descent 알고리즘이 사용되었다.
아래 표 5는 사용하는 데이터의 양과 성능과의 상관관계를 알아내기 위한 실험 결과이다. 사용 데이터 표기 중, N2015-7은 2015년 1월부터 2017년 6월까지의 뉴스 데이터 (정제 전 69G), N2016-7은 2016년 1월부터 2017년 6월까지의 뉴스 데이터 (정제 전 41G), N2017은 2017년 1월부터 6월까지의 뉴스 데이터이다. 벡터 크기는 300, 윈도 크기는 20으로 고정되었다.
실제 사용 시와 같은 환경에서 테스트하기 위하여, 테스트 시 batch의 크기는 1로 설정되었다. 속도 측정을 위해 사용된 GPU는 NVIDIA Tesla P40이다.
아래 표 4는 적절한 의미 벡터의 크기를 찾아내기 위한 실험 결과이다. 윈도 크기는 40으로 고정되었고, 표 3과 마찬가지로 2017년 뉴스 데이터를 이용하여 훈련되었다.
아래 표 7에서는 테스트 데이터를 이용하여 제안된 CNN 기반 시스템과 Bi-ASTM 기반 시스템의 실행 시간을 비교하였다. 테스트 데이터는 총 12,711문장으로 이루어져 있으며, 문장 당 평균 형태소 개수는 8.36 개다. 실제 사용 시와 같은 환경에서 테스트하기 위하여, 테스트 시 batch의 크기는 1로 설정되었다.
GloVe 훈련 데이터 및 입력 문장의 전처리를 위하여, 자체 보유한 형태소 분석기, 품사 태거, 의존 구문 분석기 및 엔티티 태거가 사용되었고, GloVe를 훈련하기 위한 말뭉치로는 2015년에서 2017년 6월까지의 다음 뉴스 말뭉치가 이용되었다. 훈련 대상 어휘는 2017년 1월에서 6월까지의 뉴스 데이터에 등장하는 형태소 중 등장 횟수가 가장 높은 50만 개의 형태소로 고정되었다.

데이터처리

아래 표 7에서는 테스트 데이터를 이용하여 제안된 CNN 기반 시스템과 Bi-ASTM 기반 시스템의 실행 시간을 비교하였다. 테스트 데이터는 총 12,711문장으로 이루어져 있으며, 문장 당 평균 형태소 개수는 8.

이론/모형

본 논문에서 제안된 문장 분류기는 [8]에서 제안된 네트워크 구조를 사용하였다. 즉, 먼저 네트워크의 입력에 대하여, Filter size가 2, 3, 4, 5인 1-D Convolution을 수행한 후, 결과로 나온 Filter에 Max-pooling을 적용한다.
본 논문에서는 각 계층의 결괏값을 정규화하기 위하여, 활성화 함수로 Scaled Exponential Linear Unit(SELA[9]) 가 사용되었다. 또한, SELA의 적용을 위하여 [9]에서 제안된 Alpha-Dropout 및 변수 초기화 함수가 적용되었다.
본 논문에서는, 카카오 미니 인공지능 스피커에 적용된 한국어 문장 분류 시스템에 관하여 소개 한다. 빠른 처리 속도를 위하여 Convolutional Neural Network (CNN) [1]을 이용하는 기계학습 기반 접근 방식을 사용하였으며, 훈련 말뭉치에 등장하지 않는 표현들을 처리하기 위해서 GloVe[2] 방식으로 한국어 뉴스 데이터를 이용하여 훈련된 한국어 단어 의미 벡터들이 적용되었다. 이때, 영어와는 다른 한국어 특유의 어순으로 인하여 발생하는 문제를 해결하기 위하여, 의존 문법 구문 분석기를 이용한 GloVe 계산 방식이 제안되었다.
본 논문에서 제안된 문장 분류기는 [8]에서 제안된 네트워크 구조를 사용하였다. 즉, 먼저 네트워크의 입력에 대하여, Filter size가 2, 3, 4, 5인 1-D Convolution을 수행한 후, 결과로 나온 Filter에 Max-pooling을 적용한다. 최종적으로, 두 단계의 Feed-Forward Layer를 추가하여, 클래스별 점수를 얻어낸다.
문장 분류 시스템을 훈련 및 테스트하기 위하여 약 48개 도메인, 127,322문장의 말뭉치가 구축되었다. 해당 말뭉치는 도메인별로 균등하게 8:1:1의 비율로 나누어져 각각 훈련 데이터, 검증 데이터, 테스트용 데이터로 사용되었으며, 훈련을 위하여 Stochastic Gradient Descent 알고리즘이 사용되었다.
형태소 정보를 나타내기 위하여 위 3장에서 훈련된 한국어 GloVe 의미 벡터가 사용되었다. GloVe 의미 벡터는 문장 분류 네트워크 모델 훈련 시에는 같이 훈련되지 않고 고정된 값을 계속 유지하도록 설정되었다.

성능/효과

위의 실험 결과에서 보이듯이, 2017년 데이터에 2016년 데이터를 추가하였을 때 성능은 약 7%p 정도 증가하지만, N2016-7 에 2015년 데이터를 추가하였을 경우 약 1%p 증가로 그 증가 폭이 많이 줄어듦을 알 수 있다. 또한, 데이터의 분량이 증가하여도 의존 문법 구문 분석 결과를 사용하였을 때의 성능이 기존 GloVe 알고리즘을 이용해 얻어진 성능보다 약 0.6 %p ~ 1.1 %p가량 높음을 확인할 수 있다.
위 실험에서 보이듯이, GloVe 의미 벡터만 사용하는 것보다 품사 의미 벡터와 엔티티 타입 의미 벡터를 같이 사용하는 것이 더 나은 성능을 보였다. 또한, 도메인 특화 의미 벡터를 사용하는 경우, 사용하지 않는 경우보다 문장 단위 정확률 기준 약 0.7%p의 성능 향상을 보였으며, 이는 도메인 특화 의미 벡터가 각 문제에서 단어의 의미 벡터를 fine-tuning 하는 데 효과적임을 입증한다. 최종적으로, 본 논문에서 제안된 CNN 기반 시스템은 테스트 데이터 세트에서 문장 단위 정확률 96.
본 실험에서는 윈도 크기가 40일 때 두 방법 다 최고 수치의 성능을 보여 주었다. 또한, 의존 문법 구문 분석 결과를 사용하였을 때의 성능이 약 0.7%p 상승하였는데, 한국어 의존 문법 구문 분석기의 정확률이 80% 중반임을 고려하면[11][12] 의존 문법 구문 분석 결과를 사용하여 한국어의 어순 문제를 어느 정도 해결 가능함을 알 수 있다.
7 %p 정도의 성능 향상을 보였다. 또한, 이를 이용해 훈련된 문장 분류 시스템을 자체 구축된 테스트용 말뭉치에 적용하여 문장당 평균 분류 시간 12.68msec, 문장 단위 정확률 96.88% 의 결과를 얻어낼 수 있었다.
88% 의 성능을 보였다. 반면에, 같은 의미 벡터 및 말뭉치를 사용한 Bi-ASTM 기반 시스템은 문장 단위 정확률 96.53% 의 성능으로, 제안된 시스템과 비교해 약 0.35 %p 정도 낮은 성능을 보였다.
위 실험 결과에서 관찰되듯이, 한국어의 경우 영어보다 비교적 큰 윈도 크기에서 훈련이 더 잘 이루어지는 경향이 보이는데, 이는 조사, 어미 등의 작게 나누어진 형태소의 영향으로 보인다. 본 실험에서는 윈도 크기가 40일 때 두 방법 다 최고 수치의 성능을 보여 주었다. 또한, 의존 문법 구문 분석 결과를 사용하였을 때의 성능이 약 0.
실험 결과, 본 논문에 제안된 한국어에 특화된 GloVe 계산 방법으로 훈련된 단어 의미 벡터는 자체 개발된 한국어 단어 유사도 말뭉치를 이용한 실험에서 기존 GloVe 방식으로 훈련된 의미 벡터보다 약 0.7 %p 정도의 성능 향상을 보였다. 또한, 이를 이용해 훈련된 문장 분류 시스템을 자체 구축된 테스트용 말뭉치에 적용하여 문장당 평균 분류 시간 12.
위 실험 결과에서 관찰되듯이, 한국어의 경우 영어보다 비교적 큰 윈도 크기에서 훈련이 더 잘 이루어지는 경향이 보이는데, 이는 조사, 어미 등의 작게 나누어진 형태소의 영향으로 보인다. 본 실험에서는 윈도 크기가 40일 때 두 방법 다 최고 수치의 성능을 보여 주었다.
위 실험에서 보이듯이, GloVe 의미 벡터만 사용하는 것보다 품사 의미 벡터와 엔티티 타입 의미 벡터를 같이 사용하는 것이 더 나은 성능을 보였다. 또한, 도메인 특화 의미 벡터를 사용하는 경우, 사용하지 않는 경우보다 문장 단위 정확률 기준 약 0.
위의 실험 결과에서 보이듯이, 2017년 데이터에 2016년 데이터를 추가하였을 때 성능은 약 7%p 정도 증가하지만, N2016-7 에 2015년 데이터를 추가하였을 경우 약 1%p 증가로 그 증가 폭이 많이 줄어듦을 알 수 있다. 또한, 데이터의 분량이 증가하여도 의존 문법 구문 분석 결과를 사용하였을 때의 성능이 기존 GloVe 알고리즘을 이용해 얻어진 성능보다 약 0.
위의 실험 결과에서 보이듯이, 제안된 CNN 기반 시스템의 문장당 평균 실행 시간은 12.69msec 으로, Bi-ASTM 기반 시스템의 실행 시간 16.46msec 와 비교하여 약 23% 의 수행 시간을 줄일 수 있었다.
7%p의 성능 향상을 보였으며, 이는 도메인 특화 의미 벡터가 각 문제에서 단어의 의미 벡터를 fine-tuning 하는 데 효과적임을 입증한다. 최종적으로, 본 논문에서 제안된 CNN 기반 시스템은 테스트 데이터 세트에서 문장 단위 정확률 96.88% 의 성능을 보였다. 반면에, 같은 의미 벡터 및 말뭉치를 사용한 Bi-ASTM 기반 시스템은 문장 단위 정확률 96.

후속연구

다만, GloVe 의미 벡터를 훈련할 때 한국어 특유의 어순을 반영하기 위해 의존 문법 구문 분석 결과를 이용하는 방법이 제시되었는데, 문장을 의존 문법 구문 분석기를 이용해 분석하는 작업은 오류가 많고 시간이 많이 소요되기 때문에, 주어 &Nash; 목적어 &Nash; 서술어의 어순을 갖는 한국어의 특징을 잘 반영하는 동시 출현 빈도를 계산하는 방법에 관하여 지속적인 연구가 이루어져야 할 것이다.
또한, 실제 대화 엔진은 음성이 아닌 채팅 기반의 인터페이스도 사용 가능한데, 채팅 기반의 대화 엔진에 서는 사용자의 실수로 입력된 여러 오타 및 오입력들도 문제가 되고 있다. 따라서 향후 연구로서 사용자의 오타에 강건한 문장 분류기를 개발하는 것도 중요하리라 예측된다.
본 논문의 기여는, (1) 한국어의 특성을 고려한 GloVe 의미 벡터 훈련 방법 제안; (2) 한국어 단어 의미 벡터 테스트를 위한 한국어 단어 유사도 말뭉치 구축; (3) 분류에 걸리는 시간의 추가 소요를 방지하면서 풀고자 하는 문제에 좀 더 특화된 단어 의미 벡터를 얻어내기 위한 도메인 특화 의미 벡터의 제안; (4) 실제 사용자에게 제공되는 한국어 대화 엔진을 위한 문장 분류기의 전체적인 네트워크 구조 제시로 정리될 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 대화 엔진에서의 문장 분류
Sentence Classification for Korean Dialog Engine 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 대화 엔진에서의 문장 분류 Sentence Classification for Korean Dialog Engine 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 대화 엔진에서의 문장 분류
Sentence Classification for Korean Dialog Engine 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper