[논문]음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해

이현영; 강승식

doi:10.30693/smj.2019.8.2.74

제안 방법

그리하여 단어를 벡터 공간에 표현하기보다는 음절사전에 등록된 음절 unigram과 bigram을 연속적인 벡터 공간에 표현하였다. 그리고 복합명사를 구성하는 음절들의 의존정보를 고정된 길이의 새로운 벡터로 표현하기 위해 그림 2와 그림 3과 같이 음절 벡터를 단방향 LSTM 또는 양방향 LSTM으로 인코딩하는 방법을 두 가지 모델로 각각 구성하여 복합명사를 구성하는 음절에 복합명사 분해 태그를 부착한다.
단어 벡터를 사용하는 모델은 말뭉치에 존재하는 단어를 연속적인 벡터 공간에 표현하기 때문에 말뭉치에 존재하지 않는 단어를 처리해야하는 문제가 발생한다. 그리하여 단어를 벡터 공간에 표현하기보다는 음절사전에 등록된 음절 unigram과 bigram을 연속적인 벡터 공간에 표현하였다. 그리고 복합명사를 구성하는 음절들의 의존정보를 고정된 길이의 새로운 벡터로 표현하기 위해 그림 2와 그림 3과 같이 음절 벡터를 단방향 LSTM 또는 양방향 LSTM으로 인코딩하는 방법을 두 가지 모델로 각각 구성하여 복합명사를 구성하는 음절에 복합명사 분해 태그를 부착한다.
한국어의 단위명사간의 결합은 자유로워 복합명사는 수는 다양하고 이에 따라 단위명사 사전의 용량은 커지게 된다. 그리하여 명사 기반의 어절 단위에서 복합명사를 분해하지 않고, 음절 단위에서 복합명사를 분해하는 방식으로 공백문자가 없는 복합명사를 단위명사로 분해하는 시스템을 제안한다.
001, 배치 사이즈(batch size)는 10, 20으로, 음절 벡터의 인코딩을 위한 단방향 LSTM 또는 양방향 LSTM 층수는 1로 모델을 학습하였다. 단방향 LSTM과 음절 unigram를 사용하는 모델의 경우에는 단방향 LSTM의 출력 결과를 그대로 전방향 신경망의 입력으로 하여 모델을 학습하였다.
그림 3과 같이 양방향 LSTM은 단방향 LSTM과 달리 현재 입력에 과거 입력과 미래 입력들의 의존정보를 고려하여 새로운 자질 벡터를 생성한다. 단방향 LSTM을 이용하여 음절 unigram 벡터와 음절 bigram 벡터를 인코딩 할 때에는, 그림 2와 같이 음절 unigram 벡터와 음절 bigram 벡터에 각각 하나의 단방향 LSTM으로 인코딩하고 음절 unigram과 음절 bigram의 왼쪽에서부터 오른쪽으로 대응되는 순서로 단방향 LSTM의 출력값을 결합하여 새로운 자질 벡터를 생성하였다. 양방향 LSTM을 이용하는 경우에도 그림 3과 같이 음절 unigram 벡터와 음절 bigram 벡터에 각각 하나의 양방향 LSTM으로 인코딩하고 음절 unigram과 음절 bigram의 왼쪽에서부터 오른쪽으로 대응되는 순서로 양방향 LSTM의 출력 값을 더하거나 이어붙이는 형태로 새로운 자질 벡터를 생성하였다.
명사 사전 없이 음절 정보만을 사용하여 복합명사를 분해하는 방법으로 복합명사 분해 문제를 순차적인 태그 열 부착 문제로 정의하고 복합명사를 단위명사로 분해하기 위해 음절 임베딩 기법과 단방향 LSTM 및 선형체인 CRF 또는 양방향 LSTM 및 선형체인 CRF를 이용하는 딥러닝 모델을 제안하였다. 그 결과 단방향 LSTM과 양방향 LSTM의 두 가지 모델에서 음절 unigram 벡터만 사용하여 새로운 자질 벡터를 생성하기보다는 음절 unigram 벡터와 음절 bigram 벡터를 함께 연속적인 벡터 공간에 표현하고 새로운 자질 벡터를 생성하였을 때 복합명사 분해 성능인 복합명사 분해 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율, 공백 정확도가 우수함을 보여 주었다.
테스트용 학습 데이터 집합에는 포함되지만 테스트 데이터 집합에는 포함되지 않는 음절 벡터의 경우에는 무작위로 초기화한 벡터를 사용하였다. 복합명사를 단위명사로 분해하기 위해 사용한 단방향 LSTM과 선형체인 CRF 또는 양방향 LSTM과 선형체인 CRF를 이용하는 모델은 텐서플로우*로 구현하였다.
선형체인 CRF는 순차적인 입력 열의 태그 점수와 각 열과 이웃하는 태그의 의존성을 함께 고려하여 최적의 태그 열을 예측한다[10]. 본 논문에서 그림 2와 그림 3과 같이 단방향 LSTM과 양방향 LSTM을 통해 인코딩 된 자질 벡터를 전방향 신경망(feedforward neural network)의 입력으로 하여 복합명사의 각 음절에 해당하는 태그 클래스(B 또는 I) 점수를 계산하고 이를 바탕으로 선형체인 CRF를 통해 최적의 태그 열을 예측하여 복합명사를 단위명사들로 분해한다.
본 논문에서는 단위명사 사전을 이용하지 않고 음절을 연속적인 벡터 공간에 표현하고 음절 unigram과 음절 bigram 벡터를 이용하여 미등록어 처리에 유연하고, 순차적인 데이터의 길이에 유연한 딥러닝 기법인 단방향 LSTM 또는 양방향 LSTM 이용하여 복합명사를 분해하는 두 가지 방법을 제안한다.
따라서 사전에 미등록 단위명사를 구성하는 음절이 사전에 등록된 단위명사를 구성하는 음절로 사용되는 경우가 단위명사 자체로 사전에 존재하는 확률보다 높다. 본 논문에서는 복합명사들에 대해 음절 unigram과 bigram 형태의 음절 사전을 구축하고 음절 임베딩과 신경망(neural network)을 이용하여 복합명사를 단위명사로 분해한다.
음절 unigram 벡터만을 사용한 경우에는 “남북 회담 사무 국장”이라는 복합명사를 분해할 때, 음절 unigram 정보만을 사용하기 때문에 “남북”, “회담사무”, “국장”과 같이 음절 bigram이 하나의 단위명사로 되는 형태를 분해하지 못하는 오류가 발생하지만, 음절 uingram 벡터와 음절 bigram 벡터를 함께 사용한 경우 “남북”, “회담”, “사무”, “국장”의 형태로 분류하였다.
음절 사전을 구축할 때 복합명사를 구성하는 마지막 음절 표시를 위하여 마지막 음절과 “” 토큰을 사용하여 음절 bigram을 구축한다.
전방향 신경망은 복합명사의 각 음절의 태그 클래스의 점수 계산을 위해 비선형 함수를 사용하지 않고, 한 개의 출력층(output layer)만 사용하였다. 테스트용 학습 데이터 집합에는 포함되지만 테스트 데이터 집합에는 포함되지 않는 음절 벡터의 경우에는 무작위로 초기화한 벡터를 사용하였다.
표 2는 학습 및 평가를 위한 음절 임베딩, LSTM의 출력 연산의 종류, 음절 임베딩 크기, LSTM 셀 유닛 크기 등을 다르게 구성한 모델의 종류를 나타내고, 각 모델들은 미니 배치 확률적 경사 하강법(mini batch stochastic gradient descent)로 학습하였다. 표 2의 모델 종류 이외의 하이퍼 파라미터(hyper parameter)의 경우에는 학습 횟수(epoch)는 5씩 증가하여 5, 10, 15, 20, 학습률(learning rate)는 0.001, 배치 사이즈(batch size)는 10, 20으로, 음절 벡터의 인코딩을 위한 단방향 LSTM 또는 양방향 LSTM 층수는 1로 모델을 학습하였다. 단방향 LSTM과 음절 unigram를 사용하는 모델의 경우에는 단방향 LSTM의 출력 결과를 그대로 전방향 신경망의 입력으로 하여 모델을 학습하였다.

대상 데이터

복합명사 데이터 집합은 표 1과 같이 한 라인에 하나의 복합명사로 구성되어 총 2,889,709개의 복합명사이며, 복합명사를 구성하는 단위명사는 320,532개(중복 단위명사 미포함), 음절은 총 4,393개(중복 음절 미포함)로 구성되어 있다. 복합명사 분해 학습 및 평가를 위해 2,889,709개의 복합명사를 2,600,738개의 학습 데이터와 288,971개의 테스트 데이터로 나누어 학습 및 평가를 수행하였다.
복합명사 분해 실험 및 평가를 위한 말뭉치 데이터는 “차세정 언어처리 경진대회 2018”의 복합명사 분해 태스크(task)에서 제공하는 복합명사 말뭉치를 사용하였다.
복합명사 데이터 집합은 표 1과 같이 한 라인에 하나의 복합명사로 구성되어 총 2,889,709개의 복합명사이며, 복합명사를 구성하는 단위명사는 320,532개(중복 단위명사 미포함), 음절은 총 4,393개(중복 음절 미포함)로 구성되어 있다. 복합명사 분해 학습 및 평가를 위해 2,889,709개의 복합명사를 2,600,738개의 학습 데이터와 288,971개의 테스트 데이터로 나누어 학습 및 평가를 수행하였다.

이론/모형

자연어 처리를 위한 딥러닝 모델은 단어의 의미를 이해하고 표현하기 위해서 단어를 연속적인 벡터 공간에 표현하는 벡터공간 모델을 사용한다[1,11,12,13]. 단어 벡터를 사용하는 모델은 말뭉치에 존재하는 단어를 연속적인 벡터 공간에 표현하기 때문에 말뭉치에 존재하지 않는 단어를 처리해야하는 문제가 발생한다.
표 2는 학습 및 평가를 위한 음절 임베딩, LSTM의 출력 연산의 종류, 음절 임베딩 크기, LSTM 셀 유닛 크기 등을 다르게 구성한 모델의 종류를 나타내고, 각 모델들은 미니 배치 확률적 경사 하강법(mini batch stochastic gradient descent)로 학습하였다. 표 2의 모델 종류 이외의 하이퍼 파라미터(hyper parameter)의 경우에는 학습 횟수(epoch)는 5씩 증가하여 5, 10, 15, 20, 학습률(learning rate)는 0.

성능/효과

명사 사전 없이 음절 정보만을 사용하여 복합명사를 분해하는 방법으로 복합명사 분해 문제를 순차적인 태그 열 부착 문제로 정의하고 복합명사를 단위명사로 분해하기 위해 음절 임베딩 기법과 단방향 LSTM 및 선형체인 CRF 또는 양방향 LSTM 및 선형체인 CRF를 이용하는 딥러닝 모델을 제안하였다. 그 결과 단방향 LSTM과 양방향 LSTM의 두 가지 모델에서 음절 unigram 벡터만 사용하여 새로운 자질 벡터를 생성하기보다는 음절 unigram 벡터와 음절 bigram 벡터를 함께 연속적인 벡터 공간에 표현하고 새로운 자질 벡터를 생성하였을 때 복합명사 분해 성능인 복합명사 분해 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율, 공백 정확도가 우수함을 보여 주었다. 그리고 단방향 LSTM보다 양방향 LSTM을 이용하여 음절 unigram 벡터와 음절 bigram 벡터를 새로운 자질벡터로 표현했을 때가 복합명사 분해 성능이 우수함을 알 수 있었다.
그 결과 단방향 LSTM과 양방향 LSTM의 두 가지 모델에서 음절 unigram 벡터만 사용하여 새로운 자질 벡터를 생성하기보다는 음절 unigram 벡터와 음절 bigram 벡터를 함께 연속적인 벡터 공간에 표현하고 새로운 자질 벡터를 생성하였을 때 복합명사 분해 성능인 복합명사 분해 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율, 공백 정확도가 우수함을 보여 주었다. 그리고 단방향 LSTM보다 양방향 LSTM을 이용하여 음절 unigram 벡터와 음절 bigram 벡터를 새로운 자질벡터로 표현했을 때가 복합명사 분해 성능이 우수함을 알 수 있었다. 그리하여 양방향 LSTM으로 음절 unigram 벡터와 음절 bigram 벡터를 인코딩하여 새로운 고정된 길이의 자질 벡터를 연속적인 벡터 공간에 표현하고 이를 선형체인 CRF의 입력으로 하여 복합명사의 음절에 복합명사 분해 태그를 부착한 결과 분해 태그 정확도는 97.
그리고 단방향 LSTM보다 양방향 LSTM을 이용하여 음절 unigram 벡터와 음절 bigram 벡터를 새로운 자질벡터로 표현했을 때가 복합명사 분해 성능이 우수함을 알 수 있었다. 그리하여 양방향 LSTM으로 음절 unigram 벡터와 음절 bigram 벡터를 인코딩하여 새로운 고정된 길이의 자질 벡터를 연속적인 벡터 공간에 표현하고 이를 선형체인 CRF의 입력으로 하여 복합명사의 음절에 복합명사 분해 태그를 부착한 결과 분해 태그 정확도는 97.368%, 어절 재현율 94.09%, 어절 정확도 94.31%, 공백 재현율은 94.98%, 공백 정확도 95.20%를 보여 주었다.
단방향 LSTM과 선형체인 CRF 또는 양방향 LSTM과 선형체인 CRF 모델의 성능 평가 결과 복합명사 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율 그리고 공백 정확도에서는 단방향 LSTM과 양방향 LSTM과는 상관없이 음절 unigram 벡터만 사용한 경우보다 음절 unigram 벡터와 음절 bigram 벡터를 함께 사용했을 때가 우수함을 보여준다. 음절 unigram과 음절 bigram을 단방향 LSTM과 양방향 LSTM으로 인코딩 할때는 양방향 LSTM과 선형체인 CRF가 복합명사 분해 태그 정확도는 97.
60% 보다 우수함을 보여주었다. 또한, 본 논문에서 288,971개의 복합명사 데이터는 기존의 연구에서 사용한 데이터양보다 많음에도 어절 재현율, 어절 정확도에서 각각 94.09%, 94.31%를 보여주어 복합명사를 분해 시 단위명사 사전 사용 없이 음절 벡터와 딥러닝기법을 이용하는 방법이 미등록어 처리에서도 우수함을 보여준다.
또한, 음절 unigram 벡터만 사용하는 경우에는 “공리주의”를 “공리” 와 “주의”라는 단위명사로 분해하여 복합명사가 하나의 명확한 의미를 갖는 경우와 같은 모호한 복합명사 처리에서 미흡한 결과를 보여주었다.
단방향 LSTM과 선형체인 CRF 또는 양방향 LSTM과 선형체인 CRF 모델의 성능 평가 결과 복합명사 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율 그리고 공백 정확도에서는 단방향 LSTM과 양방향 LSTM과는 상관없이 음절 unigram 벡터만 사용한 경우보다 음절 unigram 벡터와 음절 bigram 벡터를 함께 사용했을 때가 우수함을 보여준다. 음절 unigram과 음절 bigram을 단방향 LSTM과 양방향 LSTM으로 인코딩 할때는 양방향 LSTM과 선형체인 CRF가 복합명사 분해 태그 정확도는 97.368%, 어절 재현율 94.09%, 어절 정확도 94.31%, 공백 재현율은 94.98%, 공백 정확도 95.20%로 나타났다.
이 기존 연구들은 사전에 미등록어의 존재유무에 따라 복합명사 분해 성능 차이를 보여준다. 하지만 본 논문에서 제안한 단방향 LSTM과 선형체인 CRF 또는 양방향 LSTM과 선형체인 CRF는 음절 unigram과 음절 bigram의 음절 벡터를 함께 사용할 때, 단위 명사 사전을 사용하지 않고 각각 어절 정확도가 93.23%, 94.31%를 보여주어 심광섭(1997)의 미등록어가 존재한 경우인 어절 정확도 90.60% 보다 우수함을 보여주었다. 또한, 본 논문에서 288,971개의 복합명사 데이터는 기존의 연구에서 사용한 데이터양보다 많음에도 어절 재현율, 어절 정확도에서 각각 94.

핵심어	질문	논문에서 추출한 답변
	한국어 문장에서 명사 성분은 어떻게 추출되는가?	한국어 문장에서 명사는 중요한 의미 정보를 갖는 성분으로 검색엔진에서 색인어 추출, 질의어 분석 등에 사용되므로 자동 띄어쓰기, 오타교정 및 복합명사 분해를 통해 명사 성분을 추출한다[1,2,3]. 하지만 둘 이상의 명사들이 결합된 복합명사의 경우 띄어쓰기가 자유롭기 때문에 중의적인 표현으로 인해 색인어와 질의어 간의 용어 불일치가 발생하고 이는 검색 성능을 저하시키는 요인이 되기도 한다[4,5].
	복합명사의 분해에서 구문적 불일치 문제가 발생하는 예는?	복합명사의 분해는 분해 기준에 따라 중의성이 발생하여 이는 복합명사의 구문적 불일치 문제가 발생한다. 예를 들어, “국어정보처리”라는 복합명사를 검색할 때 질의어 처리 과정에서 “국어 정보처리”, “국어정보 처리”, “국어 정보 처리” 또는 “한미동맹”의 경우에는 “한 미 동맹”, “한미 동맹”과 같이 다양한 형태로 분해가 가능하다. 이처럼 복합명사를 단위명사로 분해하는 방식은 다양하고 사전 기반의 복합명사 분해 방식은 고유명사, 외래어, 신조어 등 사전에 등록되지 않은 미등록 단위명사를 처리해야 하는 어려운 점이 있다[6].
	둘 이상의 명사들이 결합된 복합명사는 무엇을 저하시키는 요인이 되는가?	한국어 문장에서 명사는 중요한 의미 정보를 갖는 성분으로 검색엔진에서 색인어 추출, 질의어 분석 등에 사용되므로 자동 띄어쓰기, 오타교정 및 복합명사 분해를 통해 명사 성분을 추출한다[1,2,3]. 하지만 둘 이상의 명사들이 결합된 복합명사의 경우 띄어쓰기가 자유롭기 때문에 중의적인 표현으로 인해 색인어와 질의어 간의 용어 불일치가 발생하고 이는 검색 성능을 저하시키는 요인이 되기도 한다[4,5]. 이러한 문제점을 해결하기 위해 복합명사 분해에 대한 기존의 연구는 단위명사 사전을 구축한 후 복합명사를 단위명사 형태로 분해하는 방식으로 연구를 진행하였다[6,7,8,9].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해
Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해 Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

이현영 (3) 강승식 (27)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해
Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper