개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다. 최근에는 딥러닝 기반의 RNN(Recurrent Neural Networks), LSTM(Long-short Term Memory)과 같은 모델을 이용하여 문장을 표현하는 자질을 구성하고 이를 개체명 인식과 같이 순서 라벨링(sequence labeling) 문제 해결에 이용한 연구가 제안되었다. 본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 실험 결과 본 논문에서 제안하는 방법에 따라 자질을 보강한 한국어 개체명 인식 시스템의 성능 향상을 확인하였다. 또한 본 연구의 결과를 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 공개하였다.
개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다. 최근에는 딥러닝 기반의 RNN(Recurrent Neural Networks), LSTM(Long-short Term Memory)과 같은 모델을 이용하여 문장을 표현하는 자질을 구성하고 이를 개체명 인식과 같이 순서 라벨링(sequence labeling) 문제 해결에 이용한 연구가 제안되었다. 본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 실험 결과 본 논문에서 제안하는 방법에 따라 자질을 보강한 한국어 개체명 인식 시스템의 성능 향상을 확인하였다. 또한 본 연구의 결과를 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 공개하였다.
The Named Entity Recognition system is a system that recognizes words or phrases with object names such as personal name (PS), place name (LC), and group name (OG) in the document as corresponding object names. Traditional approaches to named entity recognition include statistical-based models that ...
The Named Entity Recognition system is a system that recognizes words or phrases with object names such as personal name (PS), place name (LC), and group name (OG) in the document as corresponding object names. Traditional approaches to named entity recognition include statistical-based models that learn models based on hand-crafted features. Recently, it has been proposed to construct the qualities expressing the sentence using models such as deep-learning based Recurrent Neural Networks (RNN) and long-short term memory (LSTM) to solve the problem of sequence labeling. In this research, to improve the performance of the Korean named entity recognition system, we used a hand-crafted feature, part-of-speech tagging information, and pre-built lexicon information to augment features for representing sentence. Experimental results show that the proposed method improves the performance of Korean named entity recognition system. The results of this study are presented through github for future collaborative research with researchers studying Korean Natural Language Processing (NLP) and named entity recognition system.
The Named Entity Recognition system is a system that recognizes words or phrases with object names such as personal name (PS), place name (LC), and group name (OG) in the document as corresponding object names. Traditional approaches to named entity recognition include statistical-based models that learn models based on hand-crafted features. Recently, it has been proposed to construct the qualities expressing the sentence using models such as deep-learning based Recurrent Neural Networks (RNN) and long-short term memory (LSTM) to solve the problem of sequence labeling. In this research, to improve the performance of the Korean named entity recognition system, we used a hand-crafted feature, part-of-speech tagging information, and pre-built lexicon information to augment features for representing sentence. Experimental results show that the proposed method improves the performance of Korean named entity recognition system. The results of this study are presented through github for future collaborative research with researchers studying Korean Natural Language Processing (NLP) and named entity recognition system.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이를 근거로, 문장 표현을 위한 자질을 구성할 때 단어의 형태적 특징과 문법적 특징 그리고 기구축 사전 정보를 추가로 활용할 시, 더 정확한 개체명 인식이 가능하다는 것을 확인할 수 있었다. 또한 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통하여 본 연구에서 제안하는 한국어 개체명 인식 시스템을 공개하였다.
본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 bi-directional LSTM-CNN-CRF 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안하였다.
본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, 위에서 제안된 end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 본 연구의 기여(contribution)는 다음과 같다.
제안 방법
● 오픈 소스 – 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 본 연구에서 제안하는 한국어 개체명 인식 시스템 모델을 공개하였다(https://github.com/ JudeLee19/korean_ner_tagging_challenge).
●한국어 특성을 고려한 다양한 실험 - 본 연구에서는 한국어 문장을 표현하기 위해 CNN을 이용하여 음절 단위로 글자를 구성하고 이를 자질로 표현하는 실험과, 자소 단위로 글자를 구성하여 자질을 표현하는 실험을 진행하고 각각에 대한 성능을 비교하였다. 실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현하는 경우보다 약 2% 높은 f1-score를 나타냈다.
본 연구에서는 기존 연구와의 비교를 위해 양방향 LSTM을 이용하여 음절 단위의 자질을 표현한 방법과 본 실험에서 제안하는 CNN을 이용한 음절 단위의 자질을 표현한 방법과의 성능 비교 실험을 진행하였다. 또한 개체명 인식 모델의 학습이 진행되는 동안 역전파(backpropagation)과정에서 미리 학습(pre-trained)된 워드 임베딩 모델의 fine-tuning 여부(static, non-static)에 따른 성능 비교 실험을 진행하였다. [Table 4]는 기존 연구와의 비교 실험 및 워드 임베딩의 fine-tuning 여부에 따른 f1-score를 나타낸다.
또한 기존 연구와의 비교를 위해 양방향 LSTM을 이용하여 음절 단위의 자질을 표현한 방법과 본 실험에서 제안하는 CNN을 이용한 음절 단위의 자질을 보강한 방법과의 성능 비교 실험을 진행하고, 역전파 과정에서 미리 학습(pre-trained)된 워드 임베딩 모델의 fine-tuning여부(static, non-static)에 따른 성능 비교 실험을 진행하
였다. 실험 결과 본 논문에서 이용한 BLSTM-CNN-CRF 방식의 모델에 CNN을 이용하여 음절 단위의 자질을 보강한 개체명 인식 시스템의 성능이 BLSTM-CRF 방식의 개체명 인식 시스템보다 약 2.
본 실험에서는 한국어의 특성을 고려하여 음절 단위와, 자소 단위의 특징을 고려한 자질을 추가로 구성하여 문장 표현을 보강하였고 각각의 성능을 비교하였다. 또한 음절 단위와 자소 단위의 자질을 구성하기 위해 CNN을 이용하여 하였는데, 이를 기존 연구인 양방향 LSTM을 이용하여 자질을 구성하는 방법과의 성능 비교 실험을 진행하였다.
실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현하는 경우보다 약 2% 높은 f1-score를 나타냈다. 또한 한국어 형태소 단위의 자질 표현을 위해 GloVe, Word2Vec, fastText과 같이 3가지의 워드 임베딩 방식을 이용하여 각각의 임베딩 방법으로 표현된 자질을 이용한 성능 비교 실험을 진행하였다. 실험 결과 한국어의 경우 일반적으로 워드 임베딩 방식에 많이 이용되는 word2vec를 이용한 자질 표현 방법보다, GloVe 워드 임베딩 모델을 이용할 경우 word2vec, fastText를 이용하여 자질을 표현하는 방법보다 f1-score가 약 2%가량 높은 성능을 나타냈다.
문장을 구성하는 단어간의 형태적 특징을 고려하기 위해 추가로 형태소 분석 결과인 품사 태깅 정보를 이용하여 자질을 구성하였다. 품사 태깅 정보를 함께 활용할 경우, 각 품사간의 의존 관계를 학습하여 새로운 단어가 입력으로 주어지더라도 그 단어의 형태적 특징을 고려하여 기존의 다른 단어들과 연관 지을 수 있다는 장점이 있다.
본 실험에서는 “9시 광산구”라는 문장이 주어졌을 때, “광산구”라는 단어에 대해 [Fig 3]와 같이 품사 태깅 된 결과를 이용하여 one-hot vector 형태로 자질을 구성하였다.
본 실험에서는 문장을 표현하기 위해 (2.1)장에서 제안하는 방법에 따라 구성한 문장 표현 벡터들을 양방향 LSTM의 입력으로 사용하여, 문장 표현 벡터들 간의 상호 의존성을 보다 풍부하게 고려하여 개체명 인식을 할 수 있도록 하였다.
CNN을 이용하여 문장을 이루고 있는 단어 벡터들의 자질을 추출하고 이를 감성 분석에 활용한 연구가 있고, 접두사(prefix)와 접미사(suffix) 같은 형태학적인 자질을 추출하기 위해 CNN을 활용한 연구가 있다[13,14]. 본 실험에서는 한국어 문장에서 음절과 자소 단위의 특징을 표현하기 위해 CNN을 이용하였다. [Fig 2]는 CNN을 이용하여 문장을 구성하는 단어들에 대해 자소 단위로 특징을 추출하는 과정을 나타낸다.
‘ㅏ’ 와 같이 자소 단위로 분리될 수 있다. 본 실험에서는 한국어의 특성을 고려하여 음절 단위와, 자소 단위의 특징을 고려한 자질을 추가로 구성하여 문장 표현을 보강하였고 각각의 성능을 비교하였다. 또한 음절 단위와 자소 단위의 자질을 구성하기 위해 CNN을 이용하여 하였는데, 이를 기존 연구인 양방향 LSTM을 이용하여 자질을 구성하는 방법과의 성능 비교 실험을 진행하였다.
본 연구에서는 기존 연구와의 비교를 위해 양방향 LSTM을 이용하여 음절 단위의 자질을 표현한 방법과 본 실험에서 제안하는 CNN을 이용한 음절 단위의 자질을 표현한 방법과의 성능 비교 실험을 진행하였다. 또한 개체명 인식 모델의 학습이 진행되는 동안 역전파(backpropagation)과정에서 미리 학습(pre-trained)된 워드 임베딩 모델의 fine-tuning 여부(static, non-static)에 따른 성능 비교 실험을 진행하였다.
“9시 광산구”라는 단어와 그에 해당하는 품사 태깅 결과가 주어졌을 때, 제안하는 시스템은 4가지의 방법으로 문서를 표현한다. 음절 단위의 자질 표현을 구성하기 위해 단어를 이루는 음절 단위로 임베딩을 구성한 뒤 CNN을 통하여 음절의 자질을 추출 한 후 이를 음절 단위 자질 표현으로 활용한다. 형태소 단위로 나눠진 단어에 대해 GloVe 워드 임베딩 모델을 이용한 워드 임베딩을 구성하여 이를 형태소 단위의 자질 표현으로 활용한다.
한국어로 구성된 위키피디아 데이터 약 345만 문장을 이용하여 각각의 워드 임베딩 모델을 학습하였다. 이후 한국어 개체명 인식에 어떤 워드 임베딩 모델이 더욱 좋은 성능을 나타내는지 비교하기 위해 각 워드 임베딩을 통해 형태소 단위의 자질을 표현하고 이를 이용하여 학습한 개체명 인식 시스템의 성능 비교 실험을 진행하였다.
한국어의 특성을 고려하기 위해 CNN을 이용하여 음절 단위로 글자를 구성하여 자질을 표현하는 실험과, 자소 단위로 글자를 구성하여 자질을 표현하는 실험을 진행하고 각 방법의 성능을 비교하였으며, 한국어 형태소 단위의 자질 표현을 위해 GloVe, Word2Vec, fastText와 같이 3가지의 워드 임베딩 방식을 이용하여 각각의 임베딩 방법으로 표현된 자질을 이용한 성능 비교 실험을 진행하였다. 실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현한 경우보다 약 2% 높은 f1-score를 나타냈고, 워드 임베딩 모델 선택의 경우 영어 데이터에서 많이 쓰이는 Word2Vec 모델이나 최근 제안된 fastText 워드 임베딩 모델보다 GloVe 워드 임베딩 모델을 이용한 한국어 개체명 인식 시스템 모델의 성능이 약 2% 가량 높은 f1-score를 나타냈다.
대상 데이터
실험은 2017 국어 정보 시스템 경진대회에서 제공한 데이터를 이용하여 진행하였다. 제공된 데이터는 전체 4258 개의 문장으로 이루어져 있으며, 각 문장과 문장에 대한 형태소 분석 결과, 그리고 분석된 형태소에 대한 개체명이 같이 라벨링 되어 있다.
[Fig 1]은 본 논문에서 제안하는 한국어 개체명 인식 시스템의 전체 구조도를 나타낸다. 실험은 2017 국어 정보 처리 시스템 경진대회에서 제공한 2016klpNER 데이터 4258 문장을 이용하여 진행하였다. 제공된 학습 데이터는 문장이 형태소 단위로 나누어져 있다.
제공된 데이터는 전체 4258 개의 문장으로 이루어져 있으며, 각 문장과 문장에 대한 형태소 분석 결과, 그리고 분석된 형태소에 대한 개체명이 같이 라벨링 되어 있다. 실험을 진행하기 위해 전체 4258 개의 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 모델의 학습 및 성능 평가를 진행하였다.
형태소 단위의 자질 표현을 위해 자연어처리 문제에 많이 이용되는 다음과 같은 3가지의 워드 임베딩 모델 GloVe, Word2Vec, fastText을 이용하였다. 전체 데이터는 4258 문장으로, 워드 임베딩 모델을 학습하기에는 매우 부족하기 때문에 본 실험에서는 한글로 구성된 위키피디아 데이터 약 345만건을 이용하여 워드 임베딩 모델을 학습하였다. 이렇게 미리 학습된(pre-trained)된 워드 임베딩 모델을 이용할 경우, 학습 데이터의 양이나 사전 지식이 부족하더라도 새로운 단어에 대해 기존 단어들과의 관계를 잘 고려할 수 있다.
실험은 2017 국어 정보 시스템 경진대회에서 제공한 데이터를 이용하여 진행하였다. 제공된 데이터는 전체 4258 개의 문장으로 이루어져 있으며, 각 문장과 문장에 대한 형태소 분석 결과, 그리고 분석된 형태소에 대한 개체명이 같이 라벨링 되어 있다. 실험을 진행하기 위해 전체 4258 개의 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 모델의 학습 및 성능 평가를 진행하였다.
형태소 단위의 자질을 표현하기 위해 GloVe, word2vec, fastText와 같이 3개의 워드 임베딩 모델을 이용하였다. 한국어로 구성된 위키피디아 데이터 약 345만 문장을 이용하여 각각의 워드 임베딩 모델을 학습하였다. 이후 한국어 개체명 인식에 어떤 워드 임베딩 모델이 더욱 좋은 성능을 나타내는지 비교하기 위해 각 워드 임베딩을 통해 형태소 단위의 자질을 표현하고 이를 이용하여 학습한 개체명 인식 시스템의 성능 비교 실험을 진행하였다.
이론/모형
순서 라벨링 문제에 LSTM을 적용하는 경우 LSTM의 은닉 상태는 전향(forward)의 정보만을 고려하여 갱신되기 때문에 이전 정보만을 이용할 수 있다는 한계가 존재한다. 문장이 주어졌을 때, 다음 단어가 이전 단어의 판단에 미치는 관계성을 추가로 고려하기 위해 양방향(bi-directional) LSTM을 활용할 수 있다. 양방향 LSTM의 경우 전향의 정보를 고려하여 갱신하는 은닉 층과, 후향(backward)의 정보를 고려하여 갱신하는 은닉 층 두 개를 이용하여 문장을 구성하는 단어의 앞, 뒤 관계를 모두 고려할 수 있다는 특징이 있다.
음절 단위의 자질 표현을 구성하기 위해 단어를 이루는 음절 단위로 임베딩을 구성한 뒤 CNN을 통하여 음절의 자질을 추출 한 후 이를 음절 단위 자질 표현으로 활용한다. 형태소 단위로 나눠진 단어에 대해 GloVe 워드 임베딩 모델을 이용한 워드 임베딩을 구성하여 이를 형태소 단위의 자질 표현으로 활용한다. 또한 학습 데이터에 포함되어 있는 품사 태깅 정보를 기반으로 품사 태깅에 대한 임베딩을 구성하여 이를 자질로 활용할 수 있다.
형태소 단위의 자질 표현을 위해 자연어처리 문제에 많이 이용되는 다음과 같은 3가지의 워드 임베딩 모델 GloVe, Word2Vec, fastText을 이용하였다. 전체 데이터는 4258 문장으로, 워드 임베딩 모델을 학습하기에는 매우 부족하기 때문에 본 실험에서는 한글로 구성된 위키피디아 데이터 약 345만건을 이용하여 워드 임베딩 모델을 학습하였다.
형태소 단위의 자질을 표현하기 위해 GloVe, word2vec, fastText와 같이 3개의 워드 임베딩 모델을 이용하였다. 한국어로 구성된 위키피디아 데이터 약 345만 문장을 이용하여 각각의 워드 임베딩 모델을 학습하였다.
성능/효과
● Feature Augmentation - 본 연구에서는 개체명 인식기의 성능을 향상시키기 위해 워드 임베딩과 같은 딥러닝 기반의 자질 표현 방법 이외에 문장에 대한 품사 태깅 정보 및 기구축 사전 정보를 추가로 활용하여 문장을 표현하는 자질을 보강하였다. 딥러닝 기반의 자질 표현 방법 이외에 품사 태깅 정보와 기구축 사전 정보를 추가로 활용하여 문장을 표현하는 자질을 보강할 시, 딥러닝만을 이용하여 자질 표현을 한 방법에 비해 약 1%의 정확도 향상과, 약 3%의 f1-score 향상을 나타냈다.
실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현하는 경우보다 약 2% 높은 f1-score를 나타냈다. 또한 단순히 형태소 단위의 자질만을 이용하여 문장을 표현하는 것보다 음절 단위의 자질을 추가로 문장 표현에 활용할 경우 약 8% 높은 f1-score를 나타냈다.
또한 학습 데이터에 포함되어 있는 품사 태깅 정보를 기반으로 품사 태깅에 대한 임베딩을 구성하여 이를 자질로 활용할 수 있다. 마지막으로 형태소 단위로 나눠진 단어를 대상으로 미리 구축된 기구축 사전을 이용하여 사전 기반의 자질을 표현할 수 있다. 학습데이터를 이용하여 표현된 각각의 자질들을 연결(concatenation)한 뒤 이를 bi-directional LSTM의 입력으로 사용한다.
[Table 2]는 음절 단위의 자질을 구성하기 위해 이용한 CNN의 필터 크기(filter size)와 필터 개수(number of filter)에 따른 f1-score 성능을 나타낸다. 실험 결과 2, 3, 4, 5 만큼의 필터 크기와 128개의 필터 개수를 이용하여 음절 단위의 자질을 구성하였을 때, 86.2로 가장 높은 f1-score를 나타냈다.
였다. 실험 결과 본 논문에서 이용한 BLSTM-CNN-CRF 방식의 모델에 CNN을 이용하여 음절 단위의 자질을 보강한 개체명 인식 시스템의 성능이 BLSTM-CRF 방식의 개체명 인식 시스템보다 약 2.5%가량 높은 f1-score를 나타냈고, 역전파 과정에서 워드 임베딩 모델을 fine-tuning 하는 경우, fine-tuning을 하지 않는 경우보다 약 2% 가량 높은 f1-score을 나타냈다.
●한국어 특성을 고려한 다양한 실험 - 본 연구에서는 한국어 문장을 표현하기 위해 CNN을 이용하여 음절 단위로 글자를 구성하고 이를 자질로 표현하는 실험과, 자소 단위로 글자를 구성하여 자질을 표현하는 실험을 진행하고 각각에 대한 성능을 비교하였다. 실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현하는 경우보다 약 2% 높은 f1-score를 나타냈다. 또한 한국어 형태소 단위의 자질 표현을 위해 GloVe, Word2Vec, fastText과 같이 3가지의 워드 임베딩 방식을 이용하여 각각의 임베딩 방법으로 표현된 자질을 이용한 성능 비교 실험을 진행하였다.
한국어의 특성을 고려하기 위해 CNN을 이용하여 음절 단위로 글자를 구성하여 자질을 표현하는 실험과, 자소 단위로 글자를 구성하여 자질을 표현하는 실험을 진행하고 각 방법의 성능을 비교하였으며, 한국어 형태소 단위의 자질 표현을 위해 GloVe, Word2Vec, fastText와 같이 3가지의 워드 임베딩 방식을 이용하여 각각의 임베딩 방법으로 표현된 자질을 이용한 성능 비교 실험을 진행하였다. 실험 결과 음절 단위로 글자를 구성하여 자질을 표현할 경우 자소 단위로 글자를 구성하여 자질을 표현한 경우보다 약 2% 높은 f1-score를 나타냈고, 워드 임베딩 모델 선택의 경우 영어 데이터에서 많이 쓰이는 Word2Vec 모델이나 최근 제안된 fastText 워드 임베딩 모델보다 GloVe 워드 임베딩 모델을 이용한 한국어 개체명 인식 시스템 모델의 성능이 약 2% 가량 높은 f1-score를 나타냈다.
[Table 1]은 형태소 단위의 자질 표현을 위해 이용한 3가지의 워드 임베딩 모델 별 f1-score를 나타낸다. 실험 결과 한국어 개체명 인식 분야의 경우, 일반적으로 많이 사용되는 Word2Vec, fastText의 워드 임베딩 방식보다 GloVe를 이용한 워드 임베딩 방식이 약 2% 높은 f1-score를 나타냈다.
또한 한국어 형태소 단위의 자질 표현을 위해 GloVe, Word2Vec, fastText과 같이 3가지의 워드 임베딩 방식을 이용하여 각각의 임베딩 방법으로 표현된 자질을 이용한 성능 비교 실험을 진행하였다. 실험 결과 한국어의 경우 일반적으로 워드 임베딩 방식에 많이 이용되는 word2vec를 이용한 자질 표현 방법보다, GloVe 워드 임베딩 모델을 이용할 경우 word2vec, fastText를 이용하여 자질을 표현하는 방법보다 f1-score가 약 2%가량 높은 성능을 나타냈다.
[Table 5]는 음절 단위의 자질 표현과 품사 태깅 정보, 기구축 사전 정보를 이용하여 자질을 보강한 한국어 개체명 인식 시스템의 최종 성능을 나타낸다. 실험 결과 형태소 단위와 음절 단위 그리고 품사 태깅 정보와 사전(lexicon) 정보를 모두 활용하여 자질을 구성하였을 때, 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score로 가장 높은 성능을 나타냈다.
4%의 f1-score를 나타냈다. 이를 근거로, 문장 표현을 위한 자질을 구성할 때 단어의 형태적 특징과 문법적 특징 그리고 기구축 사전 정보를 추가로 활용할 시, 더 정확한 개체명 인식이 가능하다는 것을 확인할 수 있었다. 또한 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통하여 본 연구에서 제안하는 한국어 개체명 인식 시스템을 공개하였다.
최종적으로 음절 단위의 자질 보강 방법 이외에 품사 태깅 정보와 기구축 사전 정보를 추가로 활용하여 자질을 보강하였을 때, 98.9%의 정확도(accuracy)와 89.4%의 f1-score를 나타냈다. 이를 근거로, 문장 표현을 위한 자질을 구성할 때 단어의 형태적 특징과 문법적 특징 그리고 기구축 사전 정보를 추가로 활용할 시, 더 정확한 개체명 인식이 가능하다는 것을 확인할 수 있었다.
후속연구
기구축 사전을 활용하여 문장을 표현하는 자질을 보강할 경우, 사전에 등록되어 있는 단어의 경우, 사전으로부터 선수 지식(prior knowledge)을 이용할 수 있기 때문에 단어에 대한 개체명 예측 시 더욱 높은 정확도를 보일 수 있다. 또한 사전에 등록되지 않은 단어의 경우에도(2.1.1) ~ (2.1.3)에서 서술한 자질 표현 방법을 이용한 모델의 학습 및 개체명 인식 예측이 가능할 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
개체명 인식 시스템은 어디에 활용되고, 어떻게 추출할 수 있는가?
개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템은 정보검색, 질의응답 등에 활용될 수 있고, 정보검색의 경우 검색을 하고자 하는 검색 대상을 개체명 인식을 통해 추출할 수 있고, 질의응답의 경우 질의 응답을 하고자 하는 대상을 개체명 인식 시스템을 통해 추출할 수 있다.
개체명 인식(Named Entity Recognition) 시스템이란?
개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다.
양방향 LSTM-CRF 모델의 특징은?
양방향 LSTM-CRF 모델의 경우 문장을 표현하는 자질을 구성하기 위해 문장을 구성하는 텍스트를 워드 임베딩 공간에서의 벡터값으로 표현하고 이를 양방향 LSTM의 입력으로 사용하는데, 문장의 텍스트에서 글자 단위(character-level) 특성을 추가로 고려하기 위해 CNN(Convolutional Neural Network)을 활용한 연구가 제안되었다[12]. 위에서 제안된 모델들의 경우 hand-craft된 자질이나 feature engineering된 자질을 활용하지 않고 end-to-end learning 방식으로 학습이 가능하다는 장점이 존재하지만 자질 구성의 방법이 순전히 신경망의 임베딩 공간 및 모델을 구성하는 가중치(weight) 값들에 의존한다는 특징이 있다.
참고문헌 (17)
L. Ratinov and D. Roth, 2009. "Design challenges and misconceptions in named entity recognition," In Proceedings of CoNLL, pp 147-155, 2009.
A. McCallum, D. Freitag, and F. Pereira. "Maximum entropy Markov models for information extraction and segmentation," Proceedings of ICML, 2000.
G. Luo, X. Huang, C Lin, and Z. Nie, "Joint entity recognition anddisambiguation," In Proceedings of EMNLP-2015, pp 879-888, 2015.
X. M, F. Xia, "Unsupervised de- pendency parsing with transferring distribution via parallel guidance and entropy regularization," In Proceedings of ACL, pp 1337-1348, 2014.
A. Graves, A. Mohamed, G. Hinton, "Speech recognition with deep recurrent neural networks," In Proceedings of ICASSP, pp 6645-6649, IEEE, 2013.
J. P. Chiu, E. Nichols, "Named entity recognition with bidirectional lstm-cnns," arXiv preprint arXiv:1511.08308, 2015.
K. Cho, B. Merrie, D. Bah-danau, Y. Bengio, "On the properties of neural machine translation: Encoder-decoder approaches," Syntax, Semantics and Structure in Statistical Translation, pp 103, 2014.
R. J. Pennington, C. Manning, "Glove: Global vectors for word representation," 2014.
T. Mikolov, K. Chen, G. Corrado, J. Dean, "Efficient Estimation of Word Representations in Vector Space," In Proceedings of Workshop at ICLR, 2013.
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov. "Enriching word vectors with subword information," Transactions of the Association for Computational Linguistics, 5:135-146, 2017.
Z. Huang, W. Xu, K. Yu. "Bidirectional LSTM-CRF models for sequence tagging," CoRR, abs/1508.01991, 2015
Ma, X. and Hovy, "End-to-end sequence labeling via bi-directional LSTM-CNNs- CRF," In Proc. of ACL, 2016.
K. Yoon, "Convolutional neural networks for sentence classification," arXivpreprint arXiv:1408.5882 2014.
J. P. Chiu and E. Nichols, "Named en- tity recognition with bidirectional lstm-cnns," arXiv preprint arXiv:1511.08308, 2015.
A. Graves and J. Schmidhuber, "Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures," Neural Networks, 2005.
T. Mikolov, A. Deoras, D. Povey, L. Burget, J. Eernocky. "Strategies for Training Large Scale Neural Network Language Models," Proceedings of ASRU, 2011.
R. Pascanu, T. Mikolov, and Y. Bengio, "On the difficulty of training recurrent neural networks," arXiv preprint arXiv:1211.5063, 2012.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.