본 논문은 통계 기반 한국어 화행분류를 위하여 필요한 각 자질이 분류 성능에 미치는 영향과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 지지벡터기계 학습 방법을 이용하여 구현한 화행 분류시스템을 통해 실험한 결과, n-gram 자질 중 품사 바이그램은 유용하지 않으며 형태소-품사 쌍과 다른 자질들을 결합했을 때 성능이 향상됨을 알 수 있었다. 또한, 자질 선택 기법을 사용한 자질 비율에 따른 실험을 통해서 매우 적은 자질만으로도 화행 분류에 있어 어느 정도 안정된 성능을 낼 수 있었다. 아울러, 실험 결과의 분석을 통해 한국어에서 마지막 어절이 문장 전체의 화행분류에 중요한 역할을 하며, 한국어의 특징인 자유 어순이나 주어의 빈번한 생략 등이 화행 분류 실험의 성능에 영향을 미친다는 사실도 알 수 있었다.
본 논문은 통계 기반 한국어 화행분류를 위하여 필요한 각 자질이 분류 성능에 미치는 영향과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 지지벡터기계 학습 방법을 이용하여 구현한 화행 분류시스템을 통해 실험한 결과, n-gram 자질 중 품사 바이그램은 유용하지 않으며 형태소-품사 쌍과 다른 자질들을 결합했을 때 성능이 향상됨을 알 수 있었다. 또한, 자질 선택 기법을 사용한 자질 비율에 따른 실험을 통해서 매우 적은 자질만으로도 화행 분류에 있어 어느 정도 안정된 성능을 낼 수 있었다. 아울러, 실험 결과의 분석을 통해 한국어에서 마지막 어절이 문장 전체의 화행분류에 중요한 역할을 하며, 한국어의 특징인 자유 어순이나 주어의 빈번한 생략 등이 화행 분류 실험의 성능에 영향을 미친다는 사실도 알 수 있었다.
In this paper, we have evaluated and compared each feature and feature combinations necessary for statistical Korean dialogue act classification. We have implemented a Korean dialogue act classification system by using the Support Vector Machine method. The experimental results show that the POS big...
In this paper, we have evaluated and compared each feature and feature combinations necessary for statistical Korean dialogue act classification. We have implemented a Korean dialogue act classification system by using the Support Vector Machine method. The experimental results show that the POS bigram does not work well and the morpheme-POS pair and other features can be complementary to each other. In addition, a small number of features, which are selected by a feature selection technique such as chi-square, are enough to show steady performance of dialogue act classification. We also found that the last eojeol plays an important role in classifying an entire sentence, and that Korean characteristics such as free order and frequent subject ellipsis can affect the performance of dialogue act classification.
In this paper, we have evaluated and compared each feature and feature combinations necessary for statistical Korean dialogue act classification. We have implemented a Korean dialogue act classification system by using the Support Vector Machine method. The experimental results show that the POS bigram does not work well and the morpheme-POS pair and other features can be complementary to each other. In addition, a small number of features, which are selected by a feature selection technique such as chi-square, are enough to show steady performance of dialogue act classification. We also found that the last eojeol plays an important role in classifying an entire sentence, and that Korean characteristics such as free order and frequent subject ellipsis can affect the performance of dialogue act classification.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
생각한다. 따라서 향후 연구로써 n-gram 자질을 형태소 분석 쌍과 품사 바이그램뿐만이 아닌 다른 형태로 적용하는 방법과 제안하는 자질을 n-gram 자질과 중복되지 않고 적용시킬 수 있는 방법에 대해 연구하고자 한다.
또한, 한국어의 특성이 화행 분류에 미치는 영향을 실험을 통해 확인할 수 있었다. 마지막 어절, 마지막 용언둥의 자질이 유용하다는 것을 통해 한국어의 화행 분류에서 마지막 서술부가 유용하다는 점을 알 수 있었으며, 형식 형태소 어휘 열 자질과 형식 형태소 어휘 집합 자질의 비교 실험을 통해 자유 어순을 고려한 자질 군집화가 가능함을 보였다.
본 논문에서는 n-gram 유형 자질과 마지막 어절 및특정 형태소 어휘를 이용한 자질을 같이 사용할 경우서로의 단점을 보완해줄 수 있을 것이라는 가정 하에각 자질에 대한 비교 평가를 수행하고 최적의 자질 조합을 찾아본다.
본 논문에서는 각 자질이 한국어의 화행 분류에 미치는 영향을 살펴보기 위해 다음과 같이 실험을 하였다. 우선, 각 자질을 개별적으로 사용하여 화행 분류를 하여보고 화행 분류에서 가장 널리 쓰이는 n-gram 자질을 기저 성능으로 하여 다른 자질들을 추가해보는 실험을 하였다.
본 논문에서는 도메인에 비종속적인 한국어 대화 말뭉치[1 이를 이용하여 화행 분류 실험을 수행하였다. 이말뭉치는 외국어 회화의 한글 해석 부분을 사용한 것으로 번역을 거친 것이지만 구어체이기 때문에 자연스러운 문장으로 이루어져 있어 한국어의 특성을 반영한 자질을 사용하는데 문제가 없었다.
방법을 사용하였다. 본 논문에서는 위 실험 결과를 기반으로 한 개 자질을 제외하였을 때 더 높은 성능을 보인 것이 있을 경우 해당 자질을 제외하고 다시 다른 자질을 한 개씩 제외하는 추가 실험을 통해 가장 좋은 발화 자질 조합을 찾아보았다. 품사 바이그램과 마지막 보조용언, 주어를 제외한 모든 발화 자질을 사용하였을 때 가장 좋은 성능을 보이며, 형식 형태소 집합을 사용하였을 때 86.
본 논문에서는 위 자질들을 지지벡터기계와 결합하여 화행 분류의 성능을 실험해 보았다. 지지벡터기계의 학습을 위한 자질은 각각의 자질들의 가중치로 벡터를 구성하였다.
본 논문에서는 한국어 화행 분류를 위해 다음 자질들을 비교한다. 이전의 마지막 어절 및 특정 형태소를 사용한 연구에서는 이 외에도 의문사 사용 여부와 문장부호를 자질로 사용하였다[1 이.
본 논문은 지지벡터기계 학습기법을 이용하여 구현 한화행 분류 시스템을 통해 통계기반 한국어 대화의 화행 분류를 위한 n-gram 유형 자질과 마지막 어절 및 특정형태소 어휘를 사용한 자질을 비교 평가하고, 한국어 화행 분류에 가장 적합한 자질 조합을 선별하였다.
제안하는 자질 중 마지막 서술부 자질의 경우 형태소의 위치 정보를 포함한 것이긴 하나 마지막 용언 등의 자질은 형태소-품사 쌍과 중복이 될 수 있다. 본 연구에서는 n-gram 자질을 기본으로 마지막 어절 및 특정 형태소를 이용한 자질을 추가하여 각 자질이 가지는 문제를 서로 보완해주는지 여부를 확인하고자 실험을 진행하였으므로 이 문제는 본 연구에서 다루지 않았다. 하지만 이러한 한계는 추후 연구에서 좀 더 정밀한 자질 선별작업을 통해 개선되어야 할 것으로 판단된다.
없었다. 이에 본 논문에서는 이전 연구에서 사용한 다양한 화행 분류를 위한 자질들을 비교 평가하고 화행 분류에 적합한 자질 조합을 찾아본다.
제안 방법
그리고 발화 자질만을 대상으로 모든 자질을 사용한것을 기저 성능으로 하여 개별 자질을 제거하고 실험하여 성능을 살펴본 후 가장 좋은 자질 조합을 선정하였다. 이렇게 선정한 발화 자질 조합을 대상으로 각 문맥자질을 추가해서 역시 최적의 성능을 보이는 자질 조합을 최종적으로 선정하였다.
하지만 이를 형식 형태소 열로 표현할 경우 '에게-을-고-싶-어, 와 '을-에게-싶-어'로 다르게 표현이 된다. 따라서 한 발화 내에 나타난 형식 형태소를 순서에 상관없이 자질로 사용할 수 있도록 형식 형태소 집합을 자질로 제안하고 실험을 통해 형식 형태서 어휘 열과 비교한다.
마지막으로 자질 선택 기법을 사용하여 사용하는 자질의 수를 제한하였을 때의 성능 변화를 살펴보는 것으로 마무리하였다.
실제 형식 형태소 어휘 열로 표현했을때 자질은 5, 904개로 표현되었으나 형식 형태소 어휘 집합으로 표현했을 때는 722개가 적은 5, 182개로 표현되었다 이는 한국어의 자유 어순 특성 때문에 형식 형태소 열로 표현했을 때 다양하게 표현이 되지만 이것을 집합으로 표현했을 때 거의 성능의 변화가 없이 자질수를 많이 줄일 수 있기 때문에 군집화와 같은 효과를낼 수 있음을 보여준다. 본 논문에서는 각 자질의 평가를 하기 위해 이후 실험에서는 형식 형태소 어휘 집합과 형식 형태소 어휘 열을 따로 사용하여 실험 결과를 비교한다
감탄 긍정 대답 등의 발화의 길이는 상대적으로 짧고, 주장, 희망 등의 발화의 길이는 상대적으로 짧다. 본 논문에서는 어절 수를 그대로 자질로 사용한 것과, 어절 수를 기준으로 S, M, L 3단계로 나눈 자질을 각각 사용하여 비교한다. 3단계로 나누는 것은 학습 집합 말뭉치 내의 어절 수 단위 길이 분포를 고려하여 나누었으며, 한 단어로 된 발화, 여섯 단어 미믄}, 여섯 단어 이상으로 세 단계로 나누었다?
있다. 본 논문에서는 이전 연구에서 좋은 성능을 보인 최대값을 이용하는 방법을 사용하였다[8].
본 연구에서는 이전 한국어 화행 분류 연구에서 n-gram 기반 자질로 사용한 형태소-품사 쌍과 품사 바이그램을 그대로 사용한다.
지지벡터기계의 학습을 위한 자질은 각각의 자질들의 가중치로 벡터를 구성하였다. 본 연구에서는 이진 가중치를 적용하여 해당 자질이 주어진 문장에서 출현했을 경우 1을, 출현하지 않았을 경우에는 0을 가중치로 부여하였다. 지지 벡터 기계는 이진 분류기이므로 각각의 화행을 위한 지지 벡터 기계를 따로 학습하고 실험하여 출력 값이 가장 큰 지지 벡터기계에 해당하는 화행을 주어진 발화의 화행으로 최종적으로 결정한다.
하였다. 우선, 각 자질을 개별적으로 사용하여 화행 분류를 하여보고 화행 분류에서 가장 널리 쓰이는 n-gram 자질을 기저 성능으로 하여 다른 자질들을 추가해보는 실험을 하였다.
쓰는 경우가 있다. 이러한 점을 반영하여 형식형태소 품사 열과 형식 형태소 품사 집합 또한 형식 형태소의 어휘를 사용한 자질과 비교한다
이렇게 선정한 발화 자질 조합을 대상으로 각 문맥자질을 추가해서 역시 최적의 성능을 보이는 자질 조합을 최종적으로 선정하였다.
이에 본 논문에서는 구문 파서를 이용한 구문정보 자질은 배제하고 n-gram 유형 자질과 마지막 어절 및 특정 형태소 어휘를 이용한 자질을 대상으로 비교 실험을 수행한다 실험은 도메인 비종속적인 화행 부착 대화 말뭉치를 대상으로 하며 지지벡터기계 학습방법을 이용 한화행 분류 시스템을 자질들과 결합하여 성능을 측정한다.
이에 본 논문에서는 카이 제곱 통계량을 이용하여 자질의 개수를 제한하였을 때의 성능을 측정하였으며 전체 자질조합과 위 표 5에서 가장 높은 정확도를 보인 자질 조합 (형태소-품사 쌍, 마지막 어절, 마지막 용언, 마지막 부사, 어미, 형식 형태소 어휘 열, 발화의 길이(S, M, L), 상대방 발화 화행, 자기 발화 화행)을 대상으로 실험하였다. 그 결과는 표 7, 그림 4와 같다.
본 연구에서는 이진 가중치를 적용하여 해당 자질이 주어진 문장에서 출현했을 경우 1을, 출현하지 않았을 경우에는 0을 가중치로 부여하였다. 지지 벡터 기계는 이진 분류기이므로 각각의 화행을 위한 지지 벡터 기계를 따로 학습하고 실험하여 출력 값이 가장 큰 지지 벡터기계에 해당하는 화행을 주어진 발화의 화행으로 최종적으로 결정한다. 본 연구에서는 SVM light[21]를 이용하였고 선형 커널을 이용하여 학습하였다.
카이제곱 통계량은 문서 분류 분야에서 자질 선택 기법으로 많이 사용되며 본 논문에서는 자질 f와 화행 s간의 정보량을 측정하기 위해 다음 수식과 같이 계산하였다. 2 / )
대상 데이터
추가한 실험 결과이다. 발화 자질 조합으로 사용한 자질은 형태소-품사 쌍, 마지막 어절, 마지막 용언, 마지막 부사, 어미, 형식 형태소 어휘 열, 발화의 길이 (S, M, L)이다. 위 발화 자질 조합과 문맥 자질 중 자기발화 화행과 상대방 발화 화행을 사용하였을 때 가장높은 성능을 보임을 알 수 있다.
서론의 그림 1은 화행 정보가 부착된 말뭉치의 일부분이다. 본 연구에서는 이 중 9, 711 발화를 학습에 이용하였으며 나머지 1, 496 발화를 실험에 사용하였다.
화행 부착 말뭉치를 이용한 많은 통계 기반 영어 화행 분류에서 n-gram을 화행 분류의 자질로 사용하였다 [3, 11-16], 이 중 Stolcke, Webb, Lane SWITCHBOARD 말뭉치 U기을 동일하게 사용하였다. SWITCHBOARD 말뭉치는 70가지 다른 주제를 다룬 전화 내용으로 구성되어 있으며 205,000발화로 구축되어 있다.
데이터처리
실험 결과에 대한 평가 척도로는 정확도를 사용하였으며 다음 수식과 같이 계산하였다.
추가로 실행한 자질선택기법 실험에서는 여러 자질선택 기법 중 이전 연구에서 한국어 화행 분류에 가장높은 성능을 보인 카이제곱 통계량을 사용하였다[8]. 카이제곱 통계량은 문서 분류 분야에서 자질 선택 기법으로 많이 사용되며 본 논문에서는 자질 f와 화행 s간의 정보량을 측정하기 위해 다음 수식과 같이 계산하였다.
이론/모형
지지 벡터 기계는 이진 분류기이므로 각각의 화행을 위한 지지 벡터 기계를 따로 학습하고 실험하여 출력 값이 가장 큰 지지 벡터기계에 해당하는 화행을 주어진 발화의 화행으로 최종적으로 결정한다. 본 연구에서는 SVM light[21]를 이용하였고 선형 커널을 이용하여 학습하였다.
성능/효과
개별 자질의 화행 분류 성능 실험결과를 통해 형태소-품사 쌍, 마지막 어절, 형식 형태소 어휘 열/집합 등의 순으로 유용한 것을 알 수 있었다. 그리고 자질 결합실험 결과, 품사 바이그램과 주어, 마지막 보조 용언 발화의 위치를 제외한 자질을 모두 사용했을 때 가장 좋은 성능을 보였다.
순으로 유용한 것을 알 수 있었다. 그리고 자질 결합실험 결과, 품사 바이그램과 주어, 마지막 보조 용언 발화의 위치를 제외한 자질을 모두 사용했을 때 가장 좋은 성능을 보였다.
기존 연구 [6]에서는 자질 개수를 적절한 수로 선택했을 때 최고의 성능을 보였으나, 본 논문에서는 모든 자질을 사용했을 때는 전체 자질을 사용하는 것보다 상위 40%의 자질을 사용하는 것이 더 성능이 좋으며, 최고성능 자질 조합에서는 상위 50% 이상 쓸 경우 전체 자질을 사용한 것과 성능이 같다. 이는 자질 조합을 구성하면서 화행 분류에 필요없는 자질을 적절하게 삭제한 것으로 볼 수 있다.
'-'표시가 된 부분 은 이전 연구에서 사용하지 않은 자질이다. 두 통계 기반 학습 방법의 결과를 통해 본 연구에서 사용하는 자질이 특정 학습 방법에 종속적이지 않음을 확인할 수 있다.
알 수 있다. 또한 품사 바이그램은 그에 비해 현저하게 떨어지는 성능을 보였으며 오히려 마지막 어절을 사용했을 때 성능이 높다. 형식 형태소 열/집합 자질 군에서는 어휘를 사용한 것이 전반적으로 품사를 사용한 것보다 좋은 성능을 보이며, 길이 자질은 그룹화 하여 사용한 것이 어절 수를 그대로 사용한 것보다 성능이 월등히 좋다.
또한, 이전 연구[10]에서 최대 엔트로피 모형을 사용한 실험 결과와의 비교를 통해 본 연구에서 사용한 자질이 특정 학습 방법에 종속적이지 않으며 특히 마지막 어절, 형식 형태소 어휘 열과 같은 자질은 학습 방법에 상관없이 화행 분류에 유용함을 알 수 있었다.
이에 본 논문에서는 한국어의 자유 어순 특성으로 두자질 개수가 차이가 나지만 표 2에서 성능이 비슷하게 나타났으며, 표 3, 표 4를 통해 이를 다른 자질들과 함께 사용했을 때도 역시 성능이 비슷함을 알 수 있다. 또한, 표 3과 표 4에서 공통적으로 품사 바이그램을 제외하였을 때 가장 좋은 성능을 보인 것을 알수 있다. 특히 형식 형태소 어휘 열을 사용했을 때 더높은 성능 향상을 보이는데 이는 품사 바이그램과 형식형태소 어휘 열이 중복되어 서로 상충되는 것으로 해석할 수 있다.
통해 확인할 수 있었다. 마지막 어절, 마지막 용언둥의 자질이 유용하다는 것을 통해 한국어의 화행 분류에서 마지막 서술부가 유용하다는 점을 알 수 있었으며, 형식 형태소 어휘 열 자질과 형식 형태소 어휘 집합 자질의 비교 실험을 통해 자유 어순을 고려한 자질 군집화가 가능함을 보였다. 화행 분류에서 주어가 중요하다는 직관과는 달리 주어 자질은 사용하지 않았을 때 오히려 성능이 좋았는데, 이것은 한국어의 잦은 주어 생략 현상이 화행 분류에 미치는 영향을 보여준다.
수 있는 어휘-품사의 쌍이다. 본 논문에서는 세종품사 집합口研을 사용하였으며 자동 형태소 분석 및 품사 부착기[19]를 사용하여 형태소 분석 및 품사 부착을 수행하였다’ 형태소 분석기 평가를 위해 100건의 발화에 대해 수작업으로 평가를 한 결과 어절 단위 정확도 949%의 성능을 보였다. 다음 (8)은 예제 문장 (7)을 형태소 분석, 품사 태깅한 결과이다.
본 연구에서 사용한 자질 중 형태소-품사 쌍, 품사바이그램, 형식 형태소 집합과 같은 자질들은 학습 집합의 크기에 따라 자질의 개수가 많아지게 된다’ 자질 선택 기법을 사용하면 자질이 지나치게 많아 학습 시간이 많이 소요될 경우 적절한 양만을 사용하여 학습 시간을 줄일 수 있으며, 자질 선택 기법으로 사용하는 자질의 양을 조절하여 과적응을 방지할 수 있다. 또한 자질 선택 기법으로 부여한 점수를 이용하여 상대적으로 유용한 자질을 알아보는데 사용할 수도 있다.
볼 수 있다. 실제 형식 형태소 어휘 열로 표현했을때 자질은 5, 904개로 표현되었으나 형식 형태소 어휘 집합으로 표현했을 때는 722개가 적은 5, 182개로 표현되었다 이는 한국어의 자유 어순 특성 때문에 형식 형태소 열로 표현했을 때 다양하게 표현이 되지만 이것을 집합으로 표현했을 때 거의 성능의 변화가 없이 자질수를 많이 줄일 수 있기 때문에 군집화와 같은 효과를낼 수 있음을 보여준다. 본 논문에서는 각 자질의 평가를 하기 위해 이후 실험에서는 형식 형태소 어휘 집합과 형식 형태소 어휘 열을 따로 사용하여 실험 결과를 비교한다
발화 자질 조합으로 사용한 자질은 형태소-품사 쌍, 마지막 어절, 마지막 용언, 마지막 부사, 어미, 형식 형태소 어휘 열, 발화의 길이 (S, M, L)이다. 위 발화 자질 조합과 문맥 자질 중 자기발화 화행과 상대방 발화 화행을 사용하였을 때 가장높은 성능을 보임을 알 수 있다.
위 실험결과를 통해 이후 보다 큰 말뭉치를 학습에 이용하여 학습 시간이 많이 소요될 경우 사용하는 자질의 양을 제한하여 학습 시간을 줄여도 성능에 크게 영향을 미치지 않을 것임을 예측할 수 있다.
이 연구에서는 어미, 보조용언과 같은 특정 형태소를 이용하여 구문 정보를 보다 유연성 있게 표현할 수 있었다. 하지만 이 논문에서 주장한 내용 자질과 형식 자질의 구분이 모호하고, 자질로 사용한 형태소에 제한을 두어 명사 등의 형태소가 화행 분류에 유용할 수 있음에도 제외하였다는 문제가 있다.
Lane n~gram과 함께 발화의 마지막 토큰, 발화 내 동사의 유무 등의 다양한 자질을 이용하여 Stolcke보다 좋은 성능을 보였다[16]. 이러한 연구를 통해 영어 화행 분류에서 n-gram이 매우 간단한 자질이고 좋은 성능을 내지만 다른 자질과 함께 사용했을 때 더 좋은 성능을 보임을 알 수 있다.
난다. 이에 본 논문에서는 한국어의 자유 어순 특성으로 두자질 개수가 차이가 나지만 표 2에서 성능이 비슷하게 나타났으며, 표 3, 표 4를 통해 이를 다른 자질들과 함께 사용했을 때도 역시 성능이 비슷함을 알 수 있다. 또한, 표 3과 표 4에서 공통적으로 품사 바이그램을 제외하였을 때 가장 좋은 성능을 보인 것을 알수 있다.
자질 선택 기법을 사용한 자질 비율 실험에서는 전체자질의 약 4%만 사용하였을 때에도 최고 성능의 95% 이상의 성능을 보이는 것을 통해 매우 적은 자질만으로도 화행 분류에 있어 안정된 성능을 낼 수 있다는 점을 알 수 있었다.
그 결과는 표 7, 그림 4와 같다. 전체 자질 중 4% 이상을 썼을 때 가장 좋은 성능의 95% 이상을 기록하였다.
제안하는 자질 중 마지막 서술부 자질의 경우 형태소의 위치 정보를 포함한 것이긴 하나 마지막 용언 등의 자질은 형태소-품사 쌍과 중복이 될 수 있다. 본 연구에서는 n-gram 자질을 기본으로 마지막 어절 및 특정 형태소를 이용한 자질을 추가하여 각 자질이 가지는 문제를 서로 보완해주는지 여부를 확인하고자 실험을 진행하였으므로 이 문제는 본 연구에서 다루지 않았다.
표 1을 통해 형태소-품사 쌍만을 사용했을 때도 83%가 넘는 성능을 보여 매우 많은 정보를 제공한다는 것을 알 수 있다. 또한 품사 바이그램은 그에 비해 현저하게 떨어지는 성능을 보였으며 오히려 마지막 어절을 사용했을 때 성능이 높다.
본 논문에서는 위 실험 결과를 기반으로 한 개 자질을 제외하였을 때 더 높은 성능을 보인 것이 있을 경우 해당 자질을 제외하고 다시 다른 자질을 한 개씩 제외하는 추가 실험을 통해 가장 좋은 발화 자질 조합을 찾아보았다. 품사 바이그램과 마지막 보조용언, 주어를 제외한 모든 발화 자질을 사용하였을 때 가장 좋은 성능을 보이며, 형식 형태소 집합을 사용하였을 때 86.16%, 형식 형태소 열을 사용하였을 때 86.23%로 성능의 차이가 미미하다. 이는 앞서 언급한 바와 같이 한국어의 자유 어순에 의한 영향으로 해석할 수 있다.
품사 바이그램을 형태소-품사 쌍과 함께 사용한 것이형태소-품사 쌍을 단독으로 사용한 것과 크게 차이가 나지 않는다는 점에서 기존 한국어 화행 분류 연구에서 기본 자질로 쓰인 품사 바이그램이 형태소-품사 쌍과같이 사용했을 때 많은 정보를 제공하지 않는다는 것을알 수 있다.
또한 품사 바이그램은 그에 비해 현저하게 떨어지는 성능을 보였으며 오히려 마지막 어절을 사용했을 때 성능이 높다. 형식 형태소 열/집합 자질 군에서는 어휘를 사용한 것이 전반적으로 품사를 사용한 것보다 좋은 성능을 보이며, 길이 자질은 그룹화 하여 사용한 것이 어절 수를 그대로 사용한 것보다 성능이 월등히 좋다.
후속연구
또한 본 연구에서는 기존에 사용한 n-gram 자질을 그대로 사용하도록 하였으나 이것을 좀 더 다양하게 시도해보는 것도 의미 있는 연구가 될 것이라고 생각한다. 따라서 향후 연구로써 n-gram 자질을 형태소 분석 쌍과 품사 바이그램뿐만이 아닌 다른 형태로 적용하는 방법과 제안하는 자질을 n-gram 자질과 중복되지 않고 적용시킬 수 있는 방법에 대해 연구하고자 한다.
제안한 자질이 형태소 분석 쌍과 중복될 수 있는 점이 있으나 이러한 부분은 기존에서 사용한 자질을 기반으로 하여 제안하는 자질을 추가하는 실험을 위주로 진행되었기 때문에 발생한 것이며, 추후 연구에서 보다 자질을 정밀히 선별하여 해결할 수 있을 것으로 판단된다.
본 연구에서는 n-gram 자질을 기본으로 마지막 어절 및 특정 형태소를 이용한 자질을 추가하여 각 자질이 가지는 문제를 서로 보완해주는지 여부를 확인하고자 실험을 진행하였으므로 이 문제는 본 연구에서 다루지 않았다. 하지만 이러한 한계는 추후 연구에서 좀 더 정밀한 자질 선별작업을 통해 개선되어야 할 것으로 판단된다.
참고문헌 (22)
J.A. Austin, "How to Do Things with words," Harvard University Press, 1962
Massaki Nagata and Tsuyoshi Morimoto, "First steps towards statistical modeling of dialogue to predict the speech act type of the next utterance," Speech Communication Vol. 15, issue 3-4, pp. 193-203, 2004
Maria Jose Castro et al., "Dialogue Act Classification in a Spoken Dialogue system," CAEPIA- TTIA 2003, LNAI 3040, pp. 260-270, 2004
이성욱, 서정연, "결정트리를 이용한 한국어 화행결정", 제 11회 한글 및 한국어 정보처리 학술대회 논문집, pp. 377-381, Oct. 1999
Won Seug Choi, Jeong-Mi Cho, Jungyun Seo, "Analysis System of Speech Acts and Discourse Structures Using Maximum Entropy Model," in the Proc. of 37th Annual Meeting of the ACL, pp. 230-237, Maryland, U.S.A., Jun. 1999
은종민, 이성욱, 서정연, "지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석", 정보처리학회논문지B, 제 12-B권 3호, pp. 365-368, 한국정보처리학회, Jun. 2005
김세종, 이용훈, 이종혁, "이전 문장 자질과 다음 발화의 후보 화행을 이용한 한국어화행 분석", 제 19회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 23-30, 2007
김경선, "개선된 자질 추출 및 가중치 부여 방법을 이용한 한국어 화행 분류 시스템", 서강대학교, 박사학위논문, 2005
이현정, 서정연, "일정관리 영역에서 신경망을 이용한 사용자 의도 파악", 한국인지과학회 춘계학술대회 논문집, pp. 87-90, Jun, 2006
김민정, 한경수, 박재현, 송영인, 임해창, "도메인에 비종속적인 대화에서의 화행 분류", 제 18회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 246-253, 2006
Massaki Nagata and Tsuyoshi Morimoto. "An experimental statistical dialogue model to predict the speech act type of the next utterance," In Proceedings of the International Symposium on Spoken Dialogues, pp. 83-86, 1993
Norbert Reithinger and Martin Klesen, "Dialogue act classification using language models," In Proceedings of EuroSpeech-97, pp. 2235-2238, 1997
Max Louwerse and Scott Crossley, "Dialog act classification using N-Gram algorithms," In Proceedings of the International Florida Artificial Intelligence Research Society, Menlo Park, California, pp. 758-763, 2006
Stolcke, A. et al., "Dialogue act modeling for automatic tagging and recognition of conversational speech," In Computational Linguistics 26(3), pp. 339-373, 2000
Webb, N., Hepple, M., Wilks, Y., 2005. Dialog act classification based on intra-utterance features. In Proceedings of the AAAI Workshop on Spoken Language Understanding
Kwok Cheung Lan et al., "Dialogue Act Recognition Using Maximum Entropy," In Journal of the American Society for Information Science and Technology, 59(6), pp. 859-874, 2008
Godfrey, J., Holliman, E., & McDaniel, J. SWITCHBOARD:Telephone speech corpus for research and development. In Proceedings of the IEEE International Conference on Acustics, Speech, and Signal Processing (ICASSP-92) Vol. 1, pp. 517-520, 1992
21세기 세종계획 국어 기초자료 구축 분과 연구 보고서, 2003
이상주, "자동 품사 부착을 위한 새로운 통계적 모형", 고려대학교, 박사학위논문, 1999
Jacob L. Mey. Pragmatics: an introduction. Blackwell Publishers, 2nd edition, 2001
T. Joachims, Making large-Scale SVM Learning Practical. Advances in Kernel Methods - Support Vector Learning, B. Scholkopf and C. Burges and A. Smola (ed.), MIT-Press, 1999
※ AI-Helper는 부적절한 답변을 할 수 있습니다.