[논문]오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅

서대룡; 정유진; 강인호

문제 정의

두번째로 품사 태깅(POS tagging) 문제는 형태소 분할 결과에 품사 정보까지 추가하여 “집/NNG”, “에/JKB”, “간다/VV”의 결과를 얻는 것까지를 목표로 한다.
먼저 형태소 단위 분할(segmentation) 문제는 입력문 “집에 간다”에 대해 품사 정보 없이 “집/에/간다”로 형태소 분할 경계를 구분하는 것까지만을 목표로 한다.
본 논문은 기존의 딥 러닝 기반 품사 태깅 방법론들에서 사용하던 pre-training 시킨 음절 임베딩 값이나 랜덤 초기화된 음절 임베딩 값을 이용하지 않고 한글 자모 임베딩 값을 조합시킨 음절 임베딩 값의 사용을 제안하였다. 음절 임베딩 방식은 오타가 있거나 또는 기존에 학습되지 못한 미등록어가 들어오는 경우 이로 인한 영향을 많이 받기 때문에 품사 태깅 성능이 크게 하락하는 문제가 있었다.

제안 방법

최종적으로 각 음절의 출력 값과 Viterbi 알고리즘을 이용하여 태그 사이의 전이 확률 값을 구하고 태그를 결정하게 된다. 4절의 실험 결과에서는 CRF를 사용한 모델과 사용하지 않은 모델의 성능도 함께 비교하였다.
RNN sequence length 는 100, LSTM의 hidden layer 개수는 256, learning rate는 0.03으로 설정하였고, 최대 140 epoch까지 학습을 진행하였다.
Word2vec 음절 임베딩 방식과의 성능 비교를 위해 별도의 학습 과정 없이 랜덤으로 초기화하여 생성한 음절 임베딩 데이터를 이용한 실험도 진행하였다. 표 3는 랜덤으로 값을 생성한 음절 임베딩 데이터를 사용했을 때의 성능이다.
다수의 오타가 발생하는 경우에서의 성능 평가를 위해 평가 데이터에서 각 어절 당 1개씩의 자모를 랜덤으로 변경시켰다. 그 후 평가 데이터 상에서 4.3, 4.4절과 동일한 조건으로 성능 평가를 진행하였다. 예를 들어 “중요한 일을 앞두고”이라는 문장이 있다면, 랜덤으로 한 어절 당 1 개씩 자모 변경이 적용되어 “중쵸한 일일 앞두교”과 같은 문장이 생성된다.
다수의 오타가 발생하는 경우에서의 성능 평가를 위해 평가 데이터에서 각 어절 당 1개씩의 자모를 랜덤으로 변경시켰다. 그 후 평가 데이터 상에서 4.
따라서 동일한 자소 “ㄱ”이더라도 초성인지, 종성인지 여부에 따라 구분하여 서로 다른 값을 갖도록 자모 임베딩 값을 생성하였다.
입력으로 사용되는 임베딩 벡터의 차원을 줄이더라도 동일한 결과를 얻을 수 있다면 메모리와 속도 측면에서 이득을 얻을 수 있다. 따라서 최적의 임베딩 크기를 찾기 위해 자모 및 음절 임베딩 벡터를 32, 64, 128, 256 차원으로 변화시키면서 성능을 비교해 보았다.
본 논문에서 제안하는 자모 조합 임베딩 방식과의 성능 비교를 위한 음절 임베딩 데이터는 word2vec을 이용한 pre-training 방식, 랜덤 초기화 방식 두 가지 방법을 이용하여 구축하였다. Word2vec을 이용한 학습에는 뉴스 50만 문서를 사용하였다.
015가 나왔고, 통계적으로 유의미하다는 결과를 얻을 수 있었다. 본 논문에서는 임베딩 벡터의 크기를 256차원으로 결정하여 사용하였다.
학습 및 평가 데이터로는 세종코퍼스 16만 문장을 이용하였으며, RNN 학습에 15만 문장, 평가에 1만 문장을 이용하였다. 본 연구에서는 색인어 추출을 위한 품사 태거 개발을 염두에 두고 진행한 관계로, 세세하게 분리된 어미 정보는 필요하지 않기 때문에 각 어미들은 앞의 어간과 결합하여 하나의 용언으로 구성하였다. 예를 들어 “가/VV + 았/EP + 다/EF”는 어간과 어미를 결합시킨 표층형 단어에 품사 정보를 부여하여 “갔다/VV”로 변환시켜 사용했다.
성능 비교는 형태소 분할만 하는 경우와(segmentation) 형태소 분할에 이어 품사 태깅까지 하는 경우(POS tagging) 두 가지 문제로 구분하여 실험하였다.
음절의 임베딩 정보는 64차원으로써 word2vec으로 학습했으며, 추가로 음절의 품사 분포 벡터를 구축하여 태깅 모델에 반영하였다. 음절 임베딩 값을 bi-LSTM모델에 넣어 음절 단위로 품사 태깅을 진행한 후, 기분석 사전과 원형복원 사전을 이용하여 복합 형태소의 품사를 결정한다. 세종코퍼스 40만 어절 상에서 테스트 한 결과, 97.
특히 품사 태깅 문제와 같이, 주변의 단어와 음절이 현재 단어와 음절 태깅에 영향을 주는 경우, 다른 딥 러닝 모델들에 비해 RNN 모델이 보다 좋은 효과를 기대할 수 있다. 이전 음절 정보와 다음 음절 정보를 모두 참조하여 현재 음절의 품사 결정에 사용하기 위해 bidirectional RNN 구조를 이용하였다.
본 논문에서는 sequence labeling 문제 해결에 좋은 성능을 보이는 것으로 잘 알려진 bi-LSTM-CRFs 모델을 사용하였다. 학습은 문장 단위로 진행하였으며, 각 음절들은 초성, 중성, 종성의 자모들로 분할한 후, 이들 자모들의 임베딩 값을 조합하여 음절 임베딩 값을 구성하였다. 이후 음절 단위로 각 품사 태그와 조합된 B(beginning), I(inside), E(end) 태깅을 수행하게 된다.

대상 데이터

본 논문에서 제안하는 자모 조합 임베딩 방식과의 성능 비교를 위한 음절 임베딩 데이터는 word2vec을 이용한 pre-training 방식, 랜덤 초기화 방식 두 가지 방법을 이용하여 구축하였다. Word2vec을 이용한 학습에는 뉴스 50만 문서를 사용하였다. 전체 음절의 개수는 기호류를 정규화한 경우에는 5,602개, 기호류를 정규화하지 않은 경우에는 6,034개였다.
여기서 B는 형태소에서 시작을(beginning), I는 중간을(inside), E는 끝을(end) 의미한다. 그리고 추가로 문장의 처음, 끝, PADDING을 나타내는 3개의 태그를 정의하여 129 + 3 = 총 132개의 태그를 사용하였다.
또한, 최종 품사 태그는 NNG, NNP, VV를 비롯한 43개의 세종 코퍼스 품사에 B, I, E 태그를 조합하여 43 x 3 = 129개를 생성하였다 (예: NNG-B, NNG-I, NNG-E). 여기서 B는 형태소에서 시작을(beginning), I는 중간을(inside), E는 끝을(end) 의미한다.
두번째로 품사 태깅(POS tagging) 문제는 형태소 분할 결과에 품사 정보까지 추가하여 “집/NNG”, “에/JKB”, “간다/VV”의 결과를 얻는 것까지를 목표로 한다. 모델 학습에는 앞서 4.1절에서 설명한 132개의 태그셋을 사용하였다. 자모 임베딩 및 음절 임베딩은 모두 동일하게 256차원으로 설정하였다.
학습 및 평가 데이터로는 세종코퍼스 16만 문장을 이용하였으며, RNN 학습에 15만 문장, 평가에 1만 문장을 이용하였다. 본 연구에서는 색인어 추출을 위한 품사 태거 개발을 염두에 두고 진행한 관계로, 세세하게 분리된 어미 정보는 필요하지 않기 때문에 각 어미들은 앞의 어간과 결합하여 하나의 용언으로 구성하였다.

데이터처리

또한 McNemar’s test를 이용하여 word2vec 128차원 결과와 256차원 결과를 비교한 결과 p-value 값으로 0.015가 나왔고, 통계적으로 유의미하다는 결과를 얻을 수 있었다.

이론/모형

따라서 본 논문에서는 단어의 다양한 변이형 및 오타에 강건한 품사 태깅 시스템을 구축하기 위해 한글의 구성 원리에 착안하여 초성, 중성, 종성으로 구성된 자모 조합 기반의 임베딩 방식을 사용하였다. 자모의 구성이 비슷한 음절은 벡터 공간상에서 코사인 유사도가 높기 때문에, 단어에 일부 오타가 있더라도 매우 유사한 임베딩 값을 갖게 된다.
본 논문에서는 sequence labeling 문제 해결에 좋은 성능을 보이는 것으로 잘 알려진 bi-LSTM-CRFs 모델을 사용하였다. 학습은 문장 단위로 진행하였으며, 각 음절들은 초성, 중성, 종성의 자모들로 분할한 후, 이들 자모들의 임베딩 값을 조합하여 음절 임베딩 값을 구성하였다.

성능/효과

1절에서 기술한 바와 같이 뉴스 50만 문서 상에서 word2vec으로 pre-training 시킨 음절 임베딩 값을 이용해서 실험한 결과이다. 4.3절의 자모 조합 임베딩 결과와 비슷하게 CRF를 이용하는 경우 형태소 분할에서는 큰 차이가 없었으나 품사 태깅 시에는 음절 임베딩 방식이 약간 더 높은 정확률을 기록하였다. 그림 2의 결과에서 볼 수 있듯이, 일반적인 문서 분석의 경우에는 word2vec 음절 임베딩 성능이 자모 조합 임베딩에 비해 전반적으로 비슷하거나 또는 0.
그림 5, 6는 학습 시 LSTM에 layer normalization을 적용한 경우와 그렇지 않은 경우의 loss 및 정확도 추이를 보여주고 있다. Layer normalization을 사용하면 훨씬 더 빠르게 loss값이 수렴하는 것을 확인할 수 있으며, 약 절반 정도의 epoch만으로도 동일한 정확률에 도달함으로써 학습 시간을 단축 할 수 있었다.
또한 learning rate를 설정할 때 조금 큰 값을 사용하여도 loss 값이 튀지 않고 일정하게 학습이 되는 것을 확인 할 수 있었다. RNN-LSTM을 사용하고 있는 본 논문에서의 실험 결과 역시, layer normalization 적용에 의해 동일 epoch 대비 빠르게 성능이 올라가는 것을 확인 할 수 있었다.
음절 임베딩 방식은 오타가 있거나 또는 기존에 학습되지 못한 미등록어가 들어오는 경우 이로 인한 영향을 많이 받기 때문에 품사 태깅 성능이 크게 하락하는 문제가 있었다. 그러나 자모 조합 임베딩을 사용하면 오타 및 변이형에 강건한 품사 태거 구축이 가능함을 실험으로 보였다. 자모 조합 임베딩의 이러한 특성은 신조어가 끊임없이 증가하고 오타가 빈번하게 발생하는 모바일환경에서의 품사 태깅 시 안정적인 태깅 성능을 유지하는데 큰 도움이 되리라 생각된다.
3절의 자모 조합 임베딩 결과와 비슷하게 CRF를 이용하는 경우 형태소 분할에서는 큰 차이가 없었으나 품사 태깅 시에는 음절 임베딩 방식이 약간 더 높은 정확률을 기록하였다. 그림 2의 결과에서 볼 수 있듯이, 일반적인 문서 분석의 경우에는 word2vec 음절 임베딩 성능이 자모 조합 임베딩에 비해 전반적으로 비슷하거나 또는 0.1~0.2% 정도 높은 성능을 보여주는 것을 확인할 수 있다.
표 1은 자모 조합 임베딩을 사용하여 실험한 결과를 보여주고 있다. 기존의 논문들에서도 확인된 바 있듯이, 일반적으로 CRF를 사용하는 경우 품사 태깅 성능이 더 향상되는 것을 확인할 수 있었으며, 특히 기호류를 정규화 하지 않고 그대로 사용하는 편이 정규화 시킨 경우에 비해 더 좋은 성능을 기록하였다. 이는 형태소 분할 뿐만 아니라 품사 태깅 과정에서 특별한 기호들의 정보가 주변 음절의 태깅 성능 향상에 도움을 주는 것으로 보여진다.
하지만 자모 조합 임베딩 방식에서는 자모 한 개의 변형 정도로는 기존 단어와 거의 유사한 임베딩 값을 유지하게 된다. 따라서 이와 같은 특성 덕분에 표 7에서 확인 할 수 있듯이 자모 조합 임베딩은 word2vec 음절 임베딩보다 오타에 강건한 분석 결과를 생성해 낼 수 있다.
자모 조합 임베딩의 이러한 특성은 신조어가 끊임없이 증가하고 오타가 빈번하게 발생하는 모바일환경에서의 품사 태깅 시 안정적인 태깅 성능을 유지하는데 큰 도움이 되리라 생각된다. 또한 layer normalization을 적용하면 훨씬 빠른 학습 모델이 수렴이 가능하여 학습 시간 단축에 매우 효과적임을 확인할수 있었다.
따라서, loss 값이 수렴하는 시간이 짧아지고 학습 속도를 개선 할 수 있다. 또한 learning rate를 설정할 때 조금 큰 값을 사용하여도 loss 값이 튀지 않고 일정하게 학습이 되는 것을 확인 할 수 있었다. RNN-LSTM을 사용하고 있는 본 논문에서의 실험 결과 역시, layer normalization 적용에 의해 동일 epoch 대비 빠르게 성능이 올라가는 것을 확인 할 수 있었다.
RNN 모델은 동일한 구조의 cell이 연속적으로 이어져 있는 구조이기 때문에 gradient vanishing 문제가 발생할 수 있으나, LSTM은 cell 내부에 입력, 출력, 제거를 담당하는 게이트를 갖고 있기 때문에 긴 시퀀스에 대해서도 강건한 것으로 알려져 있다[8]. 본 논문에서도 LSTM을 사용하였으며, 시퀀스 길이 100인 경우에서 문제없이 학습이 되는 것을 확인하였다.
음절 임베딩 값을 bi-LSTM모델에 넣어 음절 단위로 품사 태깅을 진행한 후, 기분석 사전과 원형복원 사전을 이용하여 복합 형태소의 품사를 결정한다. 세종코퍼스 40만 어절 상에서 테스트 한 결과, 97.09%의 정확률을 기록하였다.
자모의 구성이 비슷한 음절은 벡터 공간상에서 코사인 유사도가 높기 때문에, 단어에 일부 오타가 있더라도 매우 유사한 임베딩 값을 갖게 된다. 실험 결과, 강제로 오타를 발생시킨 테스트 집합에서 자모 조합 임베딩 방식은 word2vec을 이용해서 값을 생성 시킨 음절 임베딩 방식 대비 형태소 분할은 0.9%, 품사 태깅은 3.5% 높은 정확률을 기록하여 오타에 강건한 특성을 확인할 수 있었다.
표 4는 각 임베딩 차원에 따른 품사 태깅 정확률 추이를 보여주고 있다. 실험 결과를 보면 어떤 임베딩 방식을 사용하더라도 전체적으로 임베딩 크기가 증가할수록 태깅 성능이 비례하여 향상되는 경향을 확인할 수 있다.
표 5,6은 강제로 오타를 생성한 문장에서의 형태소 분할 및 품사 태깅 성능을 보여주고 있다. 일반 문장 분석 시에는 자모 조합 임베딩, word2vec 음절 임베딩, 랜덤 음절 임베딩의 성능이 거의 비슷했던 것에 비해 (표 1,2,3), 강제 오타를 발생시킨 경우에는 자모 조합 임베딩의 성능이 word2vec 음절 임베딩 방식보다 모든 조건에서 우월하게 나타나는 것을 확인할 수 있다 (표 5,6). 자모 조합 임베딩이 형태소 분할만 하는 경우에는 0.
일반 문장 분석 시에는 자모 조합 임베딩, word2vec 음절 임베딩, 랜덤 음절 임베딩의 성능이 거의 비슷했던 것에 비해 (표 1,2,3), 강제 오타를 발생시킨 경우에는 자모 조합 임베딩의 성능이 word2vec 음절 임베딩 방식보다 모든 조건에서 우월하게 나타나는 것을 확인할 수 있다 (표 5,6). 자모 조합 임베딩이 형태소 분할만 하는 경우에는 0.9%, 품사 태깅 시에는 약 3.5% 이상 높은 정확률을 기록하였다.
표 3는 랜덤으로 값을 생성한 음절 임베딩 데이터를 사용했을 때의 성능이다. 표 2,3에서 보이듯이, 음절 임베딩 방식은 대규모 말뭉치 상에서 학습시켜 사용하거나 또는 랜덤으로 초기화시켜 사용하거나 어느 방식이건 관계없이 둘 간에는 성능 상의 차이가 거의 발생하지 않음을 확인할 수 있었다.
[3]은 미리 형태소 분할을 한 뒤 SENNA + CRF 모델을 이용하여 품사를 태깅하는 방법을 제시하였다. 형태소 단위의 단어 임베딩을 이용한 결과 98.23%의 정확률을 얻었으나, 미등록 형태소가 존재하면 성능이 낮아지는 문제가 있었다.

후속연구

향후에는 보다 실제 조건에 근접한 오타 발생 실험을 위해, 랜덤 자모 변경이 아닌 실제 물리적인 키보드 또는 모바일 자판 상의 인접 키 위주로 오타 생성 실험을 진행해보면 더 의미 있는 결과를 얻을 수 있을 것으로 예상된다.

핵심어	질문	논문에서 추출한 답변
	한국어 품사 태깅 문제는?	본 논문에서는 다양한 딥 러닝 모델 중에서 sequence labeling에 강점을 갖고 있는 bidirectional LSTM CRFs 모델을 사용하였다. 한국어 품사 태깅 문제에서 일반적으로 사용되는 음절 임베딩은 약간의 오타에도 품사 태깅 성능이 크게 하락하는 한계가 있었다. 따라서 이를 개선하기 위해 본 논문에서는 한글 자모 임베딩 값을 조합시킨 음절 임베딩 방식을 제안하였다.
	한국어 형태소 분석 및 품사 태깅이란?	한국어 형태소 분석 및 품사 태깅은 주어진 어절을 형태소 단위로 분리하고 원형을 복원한 후, 각 형태소에 적절한 품사를 부여하는 과정이다. 한국어 형태소 분석은 기계번역, 음성인식, 개체명 인식을 비롯한 많은 자연어처리 응용 분야에서 필수적으로 사용되는 중요한 기술이다.
	기존 품사 태깅 문제에서는 CRF 또는 SVM 기반 기계학습 방법을 많이 사용했는데 장단점은?	기존 품사 태깅 문제에서는 CRF 또는 SVM 기반 기계학습 방법이 많이 사용되었다. CRF와 SVM은 다양한 자질을 추출하고 이를 조합함으로써 우수한 성능을 얻을 수 있는 장점이 있으나, 자질을 추출하는 과정 자체가 어렵고 많은 비용을 요구하는 작업이기 때문에 어려움이 있었다[1-2].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅
A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅 A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅
A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper