[논문]품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식

유홍연; 고영중

문제 정의

본 논문에서는 단어 임베딩 벡터를 잘 만들기 위하여, 사전 학습을 진행한다. 단어 임베딩을 사전 학습하기 위해 3GB의 뉴스 말뭉치를 사용하였고, word2vec의 CBOW 모델을 사용하였다.

제안 방법

본 논문에서는 한국어 개체명 인식을 위해 bi-LSTM-CRFs에 입력으로 들어가는 단어 표상을 확장하는 방법을 이용하였다. 단어 표상을 확장하기 위하여 사전 학습된 단어 임베딩 벡터, 사전 학습된 품사 임베딩 벡터, 그리고 음절 기반 단위 임베딩 벡터를 사용하였다. 그 결과 품사 임베딩 벡터와 음절 기반 단어 임베딩 벡터를 추가한 모델이 사전 학습된 단어 임베딩 벡터만을 사용한 모델에 비해 4.
두 번째로는 사전 학습된 품사 임베딩 벡터를 사용하여 단어 표상을 확장한다. 개체명 인식에서는 품사의 시퀀스 또한 중요하기 때문에 품사를 잘 표현하는 임베딩 벡터가 중요하다.
LSTM 기반의 모델은 각 단어의 임베딩 벡터를 입력으로 받기 때문에 단어 표상에 의존적이다. 따라서 본 논문에서는 그림 3과 같이 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반 단어 임베딩 벡터를 사용하여 단어 표상을 확장한다.
개체명 인식에서는 품사의 시퀀스 또한 중요하기 때문에 품사를 잘 표현하는 자질 임베딩 벡터가 중요하다. 따라서 본 논문에서는 단어 임베딩 벡터를 사전 학습하는 것처럼 품사 단위의 사전 학습 결과를 품사 임베딩 벡터로 사용하였다. 품사 임베딩 벡터를 사전 학습하기 위하여 3GB의 뉴스 말뭉치를 형태소 분석 후 단어를 삭제 한 뒤 품사를 임베딩의 단위로 사용하였다.
따라서 본 논문에서는 한국어 개체명 인식을 위해 bi-LSTM-CRFs를 이용하고, 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다.
단어는 음절의 시퀀스이기 때문에 음절 단위의 임베딩 벡터의 확장은 단어를 표현하기에 적합하다. 본 논문에서는 그림 4에서 보이는 것과 같이 bidirectional LSTM을 이용하고, forward의 마지막 상태와 backward의 마지막 상태를 결합하여 단어 단위 임베딩 벡터로 사용하였다.
본 논문에서는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터에 품사 임베딩 벡터를 추가하고, 음절 임베딩 벡터로부터 확장된 단어 임베딩 벡터를 추가한다.
본 논문에서는 한국어 개체명 인식을 위해 bi-LSTM-CRFs에 입력으로 들어가는 단어 표상을 확장하는 방법을 이용하였다. 단어 표상을 확장하기 위하여 사전 학습된 단어 임베딩 벡터, 사전 학습된 품사 임베딩 벡터, 그리고 음절 기반 단위 임베딩 벡터를 사용하였다.
음절 기반 단어 임베딩 벡터 실험에서는 음절 입력을 랜덤 벡터, 사전 학습된 음절 임베딩 벡터, 개체명 분포 임베딩 벡터, 그리고 사전 학습된 음절 임베딩 벡터와 음절 단위 개체명 분포 임베딩 벡터를 결합한 벡터로 실험을 진행하였다. 랜덤 벡터와 사전 학습된 음절 임베딩 벡터는 64차원을 사용 하였고, 음절 단위 개체명 분포 임베딩 벡터는 11차원을 사용하였다.
따라서 본 논문에서는 단어 임베딩 벡터를 사전 학습하는 것처럼 품사 단위의 사전 학습 결과를 품사 임베딩 벡터로 사용하였다. 품사 임베딩 벡터를 사전 학습하기 위하여 3GB의 뉴스 말뭉치를 형태소 분석 후 단어를 삭제 한 뒤 품사를 임베딩의 단위로 사용하였다. 품사 임베딩 벡터 학습의 모델로는 단어 임베딩 벡터를 학습할 때와 같은 word2vec의 CBOW모델을 사용하였다.
개체명 인식에서는 품사의 시퀀스 또한 중요하기 때문에 품사를 잘 표현하는 임베딩 벡터가 중요하다. 품사 임베딩 벡터를 사전 학습하기 위해 대량의 말뭉치를 형태소 분석을 하고, 단어를 삭제한 뒤 품사만 학습하여 사용한다.

대상 데이터

개체명 인식 평가 데이터로는 2016년 국어 정보 처리 시스템 경진 대회에서 배포한 개체명 인식 말뭉치 4,056 문장을 사용 하였다. 4,056 문장 중 3,244 문장을 학습 데이터로, 812 문장을 평가 데이터로 사용 하였다. 개발 데이터로는 학습 데이터 중에서 랜덤으로 500 문장을 추출하여 사용하였다.
4,056 문장 중 3,244 문장을 학습 데이터로, 812 문장을 평가 데이터로 사용 하였다. 개발 데이터로는 학습 데이터 중에서 랜덤으로 500 문장을 추출하여 사용하였다. 전체적인 실험 성능은 개발 데이터에서 가장 좋은 성능을 보인 97 epoch로 평가하였다.
개체명 인식 평가 데이터로는 2016년 국어 정보 처리 시스템 경진 대회에서 배포한 개체명 인식 말뭉치 4,056 문장을 사용 하였다. 4,056 문장 중 3,244 문장을 학습 데이터로, 812 문장을 평가 데이터로 사용 하였다.
사전 학습된 단어 임베딩 벡터에 품사 임베딩 벡터와 음절 기반 단어 임베딩 벡터를 확장한 결과 4.93%의 성능 향상을 얻었으며, 성능 평가를 위한 개체명 말뭉치로는 2016년 국어 경진대회에서 배포한 4,056문장을 사용하였다.
품사 임베딩 벡터 실험에서는 사전 학습된 품사 임베딩 벡터가 one-hot입력보다 좋은 자질이 될 수 있음을 보인다. 품사 임베딩 벡터에 16차원을 사용하였고, word2vec의 파라미터로 window size와, iteration은 각각 5를 사용하였다. 품사 임베딩 벡터 실험에서는 품사를 one-hot으로 추가한 실험보다 사전 학습된 품사 임베딩 벡터를 사용한 실험이 0.

데이터처리

최종 실험 결과로는 총 세 종류의 실험 중 가장 높은 성능을 모아서 비교한다. 결과적으로 사전 학습된 단어 임베딩 벡터만 사용한 실험 대비 품사 임베딩 벡터와 음절 기반 단어 임베딩 벡터를 추가한 실험의 성능이 4.

이론/모형

단어 임베딩 벡터 실험에서는 단어의 차원을 64로 하였고, 3GB의 뉴스 말뭉치로 word2vec의 CBOW모델을 사용하여 학습한 결과를 사용하였다. word2vec의 파라미터로는 window size, iteration을 각각 5로 사용하였다.
본 논문에서는 단어 임베딩 벡터를 잘 만들기 위하여, 사전 학습을 진행한다. 단어 임베딩을 사전 학습하기 위해 3GB의 뉴스 말뭉치를 사용하였고, word2vec의 CBOW 모델을 사용하였다. 이때 학습이 되는 단어의 단위는 형태소와 품사태그가 결합된 형태로 사용하였다.
bi-LSTM-CRFs는 그림 2에서 보이는 것과 같이 LSTM에 입력 문자열을 양방향으로 받아서 각 단어 별로 은닉 계층의 결과를 얻고, 그 결과 간의 의존성을 추가한 모델이다. 본 논문에서는 bi-LSTM-CRFs를 이용하여 한국어 개체명 인식 실험을 진행한다.
음절 임베딩 벡터로부터 단어 임베딩 벡터를 유도하는 방식에는 bidirectional LSTM을 사용하고, 그 음절 열의 입력으로 학습 데이터에서 추출한 음절단위 개체명 분포를 이용한다.
제안한 한국어 개체명 인식에서 단어 표상 확장 방법의 성능 평가를 위해 bi-LSTM-CRFs를 TensorFlow[12]로 구현하여 사용하였다.
품사 임베딩 벡터를 사전 학습하기 위하여 3GB의 뉴스 말뭉치를 형태소 분석 후 단어를 삭제 한 뒤 품사를 임베딩의 단위로 사용하였다. 품사 임베딩 벡터 학습의 모델로는 단어 임베딩 벡터를 학습할 때와 같은 word2vec의 CBOW모델을 사용하였다.
품사 임베딩 벡터는 대량의 말뭉치를 형태소 분석한 결과에 단어를 삭제하고 품사를 하나의 단어 단위로 하여 word2vec[11]의 CBOW(Continuous bag-of-words) 모델을 이용하여 학습하고, 그 결과로 나오는 벡터를 사용한다.

성능/효과

최종 실험 결과로는 총 세 종류의 실험 중 가장 높은 성능을 모아서 비교한다. 결과적으로 사전 학습된 단어 임베딩 벡터만 사용한 실험 대비 품사 임베딩 벡터와 음절 기반 단어 임베딩 벡터를 추가한 실험의 성능이 4.93% 증가 하였다.
랜덤 벡터와 사전 학습된 음절 임베딩 벡터는 64차원을 사용 하였고, 음절 단위 개체명 분포 임베딩 벡터는 11차원을 사용하였다. 그 결과 랜덤으로 입력한 것 보다 사전 학습된 벡터와 음절 단위 개체명 분포 벡터를 결합한 성능이 1.94%향상하여 가장 좋은 성능을 보였다. 본 실험에서 개체명 분포 임베딩 벡터를 단독으로 사용한 경우의 성능이 높지는 않지만, 사전 학습된 음절 단위 임베딩 벡터에 결합하여 사용한 음절 단위 개체명 분포 벡터가 의미 있는 벡터임을 증명 하였다.
단어 표상을 확장하기 위하여 사전 학습된 단어 임베딩 벡터, 사전 학습된 품사 임베딩 벡터, 그리고 음절 기반 단위 임베딩 벡터를 사용하였다. 그 결과 품사 임베딩 벡터와 음절 기반 단어 임베딩 벡터를 추가한 모델이 사전 학습된 단어 임베딩 벡터만을 사용한 모델에 비해 4.93% 증가한 높은 성능을 얻을 수 있었다.
word2vec의 파라미터로는 window size, iteration을 각각 5로 사용하였다. 단어 임베딩 벡터를 랜덤으로 초기화한 실험보다 사전 학습된 임베딩 벡터를 사용한 실험의 성능이 3.16% 높았다.
94%향상하여 가장 좋은 성능을 보였다. 본 실험에서 개체명 분포 임베딩 벡터를 단독으로 사용한 경우의 성능이 높지는 않지만, 사전 학습된 음절 단위 임베딩 벡터에 결합하여 사용한 음절 단위 개체명 분포 벡터가 의미 있는 벡터임을 증명 하였다.
개발 데이터로는 학습 데이터 중에서 랜덤으로 500 문장을 추출하여 사용하였다. 전체적인 실험 성능은 개발 데이터에서 가장 좋은 성능을 보인 97 epoch로 평가하였다.
품사 임베딩 벡터에 16차원을 사용하였고, word2vec의 파라미터로 window size와, iteration은 각각 5를 사용하였다. 품사 임베딩 벡터 실험에서는 품사를 one-hot으로 추가한 실험보다 사전 학습된 품사 임베딩 벡터를 사용한 실험이 0.84%증가하였고, 사전 학습된 단어 임베딩 벡터 만 사용한 결과 대비 2.99%증가하였다.

핵심어	질문	논문에서 추출한 답변
	개체명 인식이란?	개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다.
	개체명이란?	개체명(Named Entity)이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 단어를 말한다. 이러한 개체명을 문서로부터 추출하여 개체명의 종류를 결정하는 것이 개체명 인식(Named Entity Recognition) 이다[1].
	단어 임베딩 벡터를 유도해내는 방법에는 무엇이 있는가?	대표적인 방법으로는 대량의 말뭉치를 이용하여 사전 학습된 (pretrained) 단어 임베딩 벡터를 활용하거나[2-4], 단어를 구성하고 있는 문자들의 임베딩 벡터(Character embedding vector)로부터 단어 임베딩 벡터를 유도해내는 방법들이 연구 되고 있다. 이러한 유도 방법 들은 LSTM과 CNN을 사용하는 방법들이 있으며, 최근에 가장 좋은 성능을 보여주고 있다[5-10].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식
Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식 Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식
Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper