$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해
Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning 원문보기

스마트미디어저널 = Smart media journal, v.8 no.2, 2019년, pp.74 - 79  

이현영 (국민대학교 컴퓨터공학과) ,  강승식 (국민대학교 소프트웨어학부)

초록
AI-Helper 아이콘AI-Helper

기존의 복합명사 분해 알고리즘은 미등록어 단위명사들이 포함된 복합명사를 분해할 때 미등록어를 분리하기 어려운 문제가 발생한다. 이는 현실적으로 모든 고유명사, 신조어, 외래어 등의 모든 단위 명사를 사전에 등록하는 것은 불가능하다는 한계가 존재하기 때문이다. 이 문제를 해결하기 위하여 복합명사 분해 문제를 태그 열 부착(sequence labeling) 문제로 정의하고 음절 단위 임베딩딥러닝 기법을 이용하는 복합명사 분해 방법을 제안한다. 단위명사 사전을 구축하지 않고 미등록 단위명사를 인식하기 위하여 복합명사를 구성하는 각 음절들을 연속적인 벡터 공간에 표현하여 LSTM과 선형체인(linear-chain) CRF를 이용하는 방식으로 복합명사를 단위명사들로 분해한다.

Abstract AI-Helper 아이콘AI-Helper

Traditional compound noun decomposition algorithms often face challenges of decomposing compound nouns into separated nouns when unregistered unit noun is included. It is very difficult for those traditional approach to handle such issues because it is impossible to register all existing unit nouns ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 그리하여 단어를 벡터 공간에 표현하기보다는 음절사전에 등록된 음절 unigram과 bigram을 연속적인 벡터 공간에 표현하였다. 그리고 복합명사를 구성하는 음절들의 의존정보를 고정된 길이의 새로운 벡터로 표현하기 위해 그림 2와 그림 3과 같이 음절 벡터를 단방향 LSTM 또는 양방향 LSTM으로 인코딩하는 방법을 두 가지 모델로 각각 구성하여 복합명사를 구성하는 음절에 복합명사 분해 태그를 부착한다.
  • 단어 벡터를 사용하는 모델은 말뭉치에 존재하는 단어를 연속적인 벡터 공간에 표현하기 때문에 말뭉치에 존재하지 않는 단어를 처리해야하는 문제가 발생한다. 그리하여 단어를 벡터 공간에 표현하기보다는 음절사전에 등록된 음절 unigram과 bigram을 연속적인 벡터 공간에 표현하였다. 그리고 복합명사를 구성하는 음절들의 의존정보를 고정된 길이의 새로운 벡터로 표현하기 위해 그림 2와 그림 3과 같이 음절 벡터를 단방향 LSTM 또는 양방향 LSTM으로 인코딩하는 방법을 두 가지 모델로 각각 구성하여 복합명사를 구성하는 음절에 복합명사 분해 태그를 부착한다.
  • 한국어의 단위명사간의 결합은 자유로워 복합명사는 수는 다양하고 이에 따라 단위명사 사전의 용량은 커지게 된다. 그리하여 명사 기반의 어절 단위에서 복합명사를 분해하지 않고, 음절 단위에서 복합명사를 분해하는 방식으로 공백문자가 없는 복합명사를 단위명사로 분해하는 시스템을 제안한다.
  • 001, 배치 사이즈(batch size)는 10, 20으로, 음절 벡터의 인코딩을 위한 단방향 LSTM 또는 양방향 LSTM 층수는 1로 모델을 학습하였다. 단방향 LSTM과 음절 unigram를 사용하는 모델의 경우에는 단방향 LSTM의 출력 결과를 그대로 전방향 신경망의 입력으로 하여 모델을 학습하였다.
  • 그림 3과 같이 양방향 LSTM은 단방향 LSTM과 달리 현재 입력에 과거 입력과 미래 입력들의 의존정보를 고려하여 새로운 자질 벡터를 생성한다. 단방향 LSTM을 이용하여 음절 unigram 벡터와 음절 bigram 벡터를 인코딩 할 때에는, 그림 2와 같이 음절 unigram 벡터와 음절 bigram 벡터에 각각 하나의 단방향 LSTM으로 인코딩하고 음절 unigram과 음절 bigram의 왼쪽에서부터 오른쪽으로 대응되는 순서로 단방향 LSTM의 출력값을 결합하여 새로운 자질 벡터를 생성하였다. 양방향 LSTM을 이용하는 경우에도 그림 3과 같이 음절 unigram 벡터와 음절 bigram 벡터에 각각 하나의 양방향 LSTM으로 인코딩하고 음절 unigram과 음절 bigram의 왼쪽에서부터 오른쪽으로 대응되는 순서로 양방향 LSTM의 출력 값을 더하거나 이어붙이는 형태로 새로운 자질 벡터를 생성하였다.
  • 명사 사전 없이 음절 정보만을 사용하여 복합명사를 분해하는 방법으로 복합명사 분해 문제를 순차적인 태그 열 부착 문제로 정의하고 복합명사를 단위명사로 분해하기 위해 음절 임베딩 기법과 단방향 LSTM 및 선형체인 CRF 또는 양방향 LSTM 및 선형체인 CRF를 이용하는 딥러닝 모델을 제안하였다. 그 결과 단방향 LSTM과 양방향 LSTM의 두 가지 모델에서 음절 unigram 벡터만 사용하여 새로운 자질 벡터를 생성하기보다는 음절 unigram 벡터와 음절 bigram 벡터를 함께 연속적인 벡터 공간에 표현하고 새로운 자질 벡터를 생성하였을 때 복합명사 분해 성능인 복합명사 분해 태그 정확도, 어절 재현율, 어절 정확도, 공백 재현율, 공백 정확도가 우수함을 보여 주었다.
  • 테스트용 학습 데이터 집합에는 포함되지만 테스트 데이터 집합에는 포함되지 않는 음절 벡터의 경우에는 무작위로 초기화한 벡터를 사용하였다. 복합명사를 단위명사로 분해하기 위해 사용한 단방향 LSTM과 선형체인 CRF 또는 양방향 LSTM과 선형체인 CRF를 이용하는 모델은 텐서플로우*로 구현하였다.
  • 선형체인 CRF는 순차적인 입력 열의 태그 점수와 각 열과 이웃하는 태그의 의존성을 함께 고려하여 최적의 태그 열을 예측한다[10]. 본 논문에서 그림 2와 그림 3과 같이 단방향 LSTM과 양방향 LSTM을 통해 인코딩 된 자질 벡터를 전방향 신경망(feedforward neural network)의 입력으로 하여 복합명사의 각 음절에 해당하는 태그 클래스(B 또는 I) 점수를 계산하고 이를 바탕으로 선형체인 CRF를 통해 최적의 태그 열을 예측하여 복합명사를 단위명사들로 분해한다.
  • 본 논문에서는 단위명사 사전을 이용하지 않고 음절을 연속적인 벡터 공간에 표현하고 음절 unigram과 음절 bigram 벡터를 이용하여 미등록어 처리에 유연하고, 순차적인 데이터의 길이에 유연한 딥러닝 기법인 단방향 LSTM 또는 양방향 LSTM 이용하여 복합명사를 분해하는 두 가지 방법을 제안한다.
  • 따라서 사전에 미등록 단위명사를 구성하는 음절이 사전에 등록된 단위명사를 구성하는 음절로 사용되는 경우가 단위명사 자체로 사전에 존재하는 확률보다 높다. 본 논문에서는 복합명사들에 대해 음절 unigram과 bigram 형태의 음절 사전을 구축하고 음절 임베딩과 신경망(neural network)을 이용하여 복합명사를 단위명사로 분해한다.
  • 음절 unigram 벡터만을 사용한 경우에는 “남북 회담 사무 국장”이라는 복합명사를 분해할 때, 음절 unigram 정보만을 사용하기 때문에 “남북”, “회담사무”, “국장”과 같이 음절 bigram이 하나의 단위명사로 되는 형태를 분해하지 못하는 오류가 발생하지만, 음절 uingram 벡터와 음절 bigram 벡터를 함께 사용한 경우 “남북”, “회담”, “사무”, “국장”의 형태로 분류하였다.
  • 음절 사전을 구축할 때 복합명사를 구성하는 마지막 음절 표시를 위하여 마지막 음절과 “” 토큰을 사용하여 음절 bigram을 구축한다.
  • 전방향 신경망은 복합명사의 각 음절의 태그 클래스의 점수 계산을 위해 비선형 함수를 사용하지 않고, 한 개의 출력층(output layer)만 사용하였다. 테스트용 학습 데이터 집합에는 포함되지만 테스트 데이터 집합에는 포함되지 않는 음절 벡터의 경우에는 무작위로 초기화한 벡터를 사용하였다.
  • 표 2는 학습 및 평가를 위한 음절 임베딩, LSTM의 출력 연산의 종류, 음절 임베딩 크기, LSTM 셀 유닛 크기 등을 다르게 구성한 모델의 종류를 나타내고, 각 모델들은 미니 배치 확률적 경사 하강법(mini batch stochastic gradient descent)로 학습하였다. 표 2의 모델 종류 이외의 하이퍼 파라미터(hyper parameter)의 경우에는 학습 횟수(epoch)는 5씩 증가하여 5, 10, 15, 20, 학습률(learning rate)는 0.001, 배치 사이즈(batch size)는 10, 20으로, 음절 벡터의 인코딩을 위한 단방향 LSTM 또는 양방향 LSTM 층수는 1로 모델을 학습하였다. 단방향 LSTM과 음절 unigram를 사용하는 모델의 경우에는 단방향 LSTM의 출력 결과를 그대로 전방향 신경망의 입력으로 하여 모델을 학습하였다.

대상 데이터

  • 복합명사 데이터 집합은 표 1과 같이 한 라인에 하나의 복합명사로 구성되어 총 2,889,709개의 복합명사이며, 복합명사를 구성하는 단위명사는 320,532개(중복 단위명사 미포함), 음절은 총 4,393개(중복 음절 미포함)로 구성되어 있다. 복합명사 분해 학습 및 평가를 위해 2,889,709개의 복합명사를 2,600,738개의 학습 데이터와 288,971개의 테스트 데이터로 나누어 학습 및 평가를 수행하였다.
  • 복합명사 분해 실험 및 평가를 위한 말뭉치 데이터는 “차세정 언어처리 경진대회 2018”의 복합명사 분해 태스크(task)에서 제공하는 복합명사 말뭉치를 사용하였다.
  • 복합명사 데이터 집합은 표 1과 같이 한 라인에 하나의 복합명사로 구성되어 총 2,889,709개의 복합명사이며, 복합명사를 구성하는 단위명사는 320,532개(중복 단위명사 미포함), 음절은 총 4,393개(중복 음절 미포함)로 구성되어 있다. 복합명사 분해 학습 및 평가를 위해 2,889,709개의 복합명사를 2,600,738개의 학습 데이터와 288,971개의 테스트 데이터로 나누어 학습 및 평가를 수행하였다.

이론/모형

  • 자연어 처리를 위한 딥러닝 모델은 단어의 의미를 이해하고 표현하기 위해서 단어를 연속적인 벡터 공간에 표현하는 벡터공간 모델을 사용한다[1,11,12,13]. 단어 벡터를 사용하는 모델은 말뭉치에 존재하는 단어를 연속적인 벡터 공간에 표현하기 때문에 말뭉치에 존재하지 않는 단어를 처리해야하는 문제가 발생한다.
  • 표 2는 학습 및 평가를 위한 음절 임베딩, LSTM의 출력 연산의 종류, 음절 임베딩 크기, LSTM 셀 유닛 크기 등을 다르게 구성한 모델의 종류를 나타내고, 각 모델들은 미니 배치 확률적 경사 하강법(mini batch stochastic gradient descent)로 학습하였다. 표 2의 모델 종류 이외의 하이퍼 파라미터(hyper parameter)의 경우에는 학습 횟수(epoch)는 5씩 증가하여 5, 10, 15, 20, 학습률(learning rate)는 0.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
한국어 문장에서 명사 성분은 어떻게 추출되는가? 한국어 문장에서 명사는 중요한 의미 정보를 갖는 성분으로 검색엔진에서 색인어 추출, 질의어 분석 등에 사용되므로 자동 띄어쓰기, 오타교정 및 복합명사 분해를 통해 명사 성분을 추출한다[1,2,3]. 하지만 둘 이상의 명사들이 결합된 복합명사의 경우 띄어쓰기가 자유롭기 때문에 중의적인 표현으로 인해 색인어와 질의어 간의 용어 불일치가 발생하고 이는 검색 성능을 저하시키는 요인이 되기도 한다[4,5].
복합명사의 분해에서 구문적 불일치 문제가 발생하는 예는? 복합명사의 분해는 분해 기준에 따라 중의성이 발생하여 이는 복합명사의 구문적 불일치 문제가 발생한다. 예를 들어, “국어정보처리”라는 복합명사를 검색할 때 질의어 처리 과정에서 “국어 정보처리”, “국어정보 처리”, “국어 정보 처리” 또는 “한미동맹”의 경우에는 “한 미 동맹”, “한미 동맹”과 같이 다양한 형태로 분해가 가능하다. 이처럼 복합명사를 단위명사로 분해하는 방식은 다양하고 사전 기반의 복합명사 분해 방식은 고유명사, 외래어, 신조어 등 사전에 등록되지 않은 미등록 단위명사를 처리해야 하는 어려운 점이 있다[6].
둘 이상의 명사들이 결합된 복합명사는 무엇을 저하시키는 요인이 되는가? 한국어 문장에서 명사는 중요한 의미 정보를 갖는 성분으로 검색엔진에서 색인어 추출, 질의어 분석 등에 사용되므로 자동 띄어쓰기, 오타교정 및 복합명사 분해를 통해 명사 성분을 추출한다[1,2,3]. 하지만 둘 이상의 명사들이 결합된 복합명사의 경우 띄어쓰기가 자유롭기 때문에 중의적인 표현으로 인해 색인어와 질의어 간의 용어 불일치가 발생하고 이는 검색 성능을 저하시키는 요인이 되기도 한다[4,5]. 이러한 문제점을 해결하기 위해 복합명사 분해에 대한 기존의 연구는 단위명사 사전을 구축한 후 복합명사를 단위명사 형태로 분해하는 방식으로 연구를 진행하였다[6,7,8,9].
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로