한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs원문보기
개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.
개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.
Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition ...
Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition probability between output data from LSTM-based Bi-LSTM model considering forward and backward directions of input data, showed excellent performance in the study of object name recognition using deep-learning, and it has a good performance on the efficient embedding vector creation by character and word unit and the model using CNN and LSTM. In this research, we describe the Bi-LSTM-CNN-CRF model that enhances the features of the Korean named entity recognition system and propose a method for constructing the traditional culture corpus. We also present the results of learning the constructed corpus with the feature augmentation model for the recognition of Korean object names.
Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition probability between output data from LSTM-based Bi-LSTM model considering forward and backward directions of input data, showed excellent performance in the study of object name recognition using deep-learning, and it has a good performance on the efficient embedding vector creation by character and word unit and the model using CNN and LSTM. In this research, we describe the Bi-LSTM-CNN-CRF model that enhances the features of the Korean named entity recognition system and propose a method for constructing the traditional culture corpus. We also present the results of learning the constructed corpus with the feature augmentation model for the recognition of Korean object names.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
에서 기사를 추출하고, 추출된 데이터로부터 구축한 말뭉치에 대해 기술한다. 또한, 구축한 말뭉치를 Bi-LSTM-CNN- CRF 모델에 활용하여 한국어의 특성에 맞게 다양한 실험을 적용한 결과에 대해 기술한다. 논문의 구성은 다음과 같다.
본 연구에서는 전통문화에 적합한 말뭉치구축을 위해 한국학중앙연구원 디지털 인문학 웹사이트1)에서 기사를 추출하고, 추출된 데이터로부터 구축한 말뭉치에 대해 기술한다. 또한, 구축한 말뭉치를 Bi-LSTM-CNN- CRF 모델에 활용하여 한국어의 특성에 맞게 다양한 실험을 적용한 결과에 대해 기술한다.
제안 방법
세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다. 네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다. 학습 데이터로부터 표현한 각각의 자질(음절, 형태소, 품사, 사전)들을 연결 (concatenation)하고 Bi-LSTM의 입력 데이터로 사용한다.
데이터 구축을 위해 5명의 인원이 하루 평균 5시간씩 한 달 동안 진행했다. 문장 내의 태그 정보 추출을 수작업으로 진행하였으며 전체 2351개 기사로부터 4702개의 문장과 15만 형태소 단위의 데이터를 추출하였다.
한국학중앙연구원 디지털 인문학 웹사이트는 우리나라의 역사와 문화에 대한 정보를 데이터 자원으로 구축한 사이트이다. 말뭉치구축을 위해 해당 사이트의 백과사전 기사에서 전통문화와 관련된 기획기사 및 중심기사 5개로부터 각 기사의 개요와 내용에 대한 문장들을 크롤링하여 형태소 단위의 데이터를 생성하였다. Fig.
본 논문은 한국어 개체명 인식 시스템 성능 향상을 위해 제안한 Bi-LSTM-CNN-CRF 모델을 활용하여 전통문화 영역에서 활용 가능한 말뭉치를 구축하고 해당 모델에 적용하였다. 해당 모델에서는 음절 자질, 형태소 자질, 품사 태깅 자질, 구축된 사전 자질 보강을 통해 한국어 특성을 고려한 개체명 인식 성능을 향상시켰다.
또 다른 연구에서는 LSTM과 CNN으로 추출한 단어 임베딩 벡터를 결합하여 추가함으로써 좋은 성능을 보여주었다[2-4]. 본 논문의 모델에서는 자소 단위의 특징을 표현하였으며 Fig. 2는 자소 단위의 CNN을 활용하여 자질을 추출하는 과정을 나타낸다.
두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다. 세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다. 네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다.
모델은 “신돈 실각 후”라는 3개의 단어와 그에 해당하는 품사 태깅 결과를 입력 데이터로 받는다. 입력받은 데이터는 4가지 방법으로 문서를 표현하는데 첫 번째, 음절 단위의 자질 표현 구성을 위해 단어를 음절 단위 자질로 구성한 뒤 CNN을 통하여 음절 자질을 추출한 후 이를 음절 단위 자질 표현으로 활용한다. 두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다.
대상 데이터
모델은 “신돈 실각 후”라는 3개의 단어와 그에 해당하는 품사 태깅 결과를 입력 데이터로 받는다.
데이터 구축을 위해 5명의 인원이 하루 평균 5시간씩 한 달 동안 진행했다. 문장 내의 태그 정보 추출을 수작업으로 진행하였으며 전체 2351개 기사로부터 4702개의 문장과 15만 형태소 단위의 데이터를 추출하였다.
네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다. 학습 데이터로부터 표현한 각각의 자질(음절, 형태소, 품사, 사전)들을 연결 (concatenation)하고 Bi-LSTM의 입력 데이터로 사용한다. LSTM 모델은 은닉 계층(hidden layer)을 통해 데이터를 계산하여 출력하고, 해당 데이터를 CRF의 입력으로 사용하여 전이 확률값을 계산한 후 최종적으로 입력 값(형태소)에 대응하는 개체명을 예측한다.
1에서 전통문화 개체명 인식 데이터를 예시로 활용하여 전체 구조도를 나타낸다. 해당 데이터는 한국학중앙연구원 디지털 인문학 웹사이트에서 크롤링 및 전처리 과정을 거친 데이터를 사용했으며 결과적으로 전체 문장 수 4702로부터 형태소 단위의 15만 개의 말뭉치 데이터를 구축했다.
이론/모형
또한, 문장 간의 의존성을 양방향에서 고려하여 그 인접한 태그 간의 의존성을 고려할 수 있다. Fig. 3 본 논문은 Bi-LSTM-CRF 모델을 이용하여 한국어 개체명 인식을 수행한다.
입력받은 데이터는 4가지 방법으로 문서를 표현하는데 첫 번째, 음절 단위의 자질 표현 구성을 위해 단어를 음절 단위 자질로 구성한 뒤 CNN을 통하여 음절 자질을 추출한 후 이를 음절 단위 자질 표현으로 활용한다. 두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다. 세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다.
본 논문에서 사용한 Bi-LSTM-CNN-CRF 모델은 Fig. 1에서 전통문화 개체명 인식 데이터를 예시로 활용하여 전체 구조도를 나타낸다. 해당 데이터는 한국학중앙연구원 디지털 인문학 웹사이트에서 크롤링 및 전처리 과정을 거친 데이터를 사용했으며 결과적으로 전체 문장 수 4702로부터 형태소 단위의 15만 개의 말뭉치 데이터를 구축했다.
순서 레이블링(Sequence Labeling)에 LSTM을 적용할 경우 RNN의 그래디언트 소멸 문제를 어느 정도 해결할 수 있지만, 은닉 상태(Hidden state)를 고려해보았을 때 다음 단어가 이전 단어에 미치는 관계정보를 알 수 없으므로 관계정보를 추가로 고려하기 위해 Bi-LSTM을 사용한다. Bi-LSTM을 사용할 경우 전(forward), 후 (backward) 관계에 있는 모든 정보의 관계성에 대해 파악할 수 있다.
성능/효과
전통문화라는 기존 개체명 인식 영역과 다른 영역의 시스템은 기존 개체명 인식 시스템에서 인식하지 못하는 부분이 발생했다. 따라서 한국학중앙연구원 디지털 인문학 웹사이트를 통해 전통문화 말뭉치를 구축하였고 구축한 4702문장의 15만 어절 형태소 말뭉치 데이터로 학습시킨 결과 해당 모델은 전통문화와 관련된 문장에서 대부분의 해당 개체명을 인식할 수 있었다.
모델 결과 ‘세종’, ‘최항’, ‘박팽년’ 등을 사람(PS) 개체명으로 인식하고 ‘1443년 12월’을 날짜(DT) 개체명으로 인식한다.
모델 결과 ‘이순신’을 사람 개체명으로 인식하고 ‘1592년 4월 13일’, ‘전라좌수영’, ‘4월 29일’을 날짜 개체명으로, ‘일본’과 ‘수영 앞바다’를 장소 개체명으로 인식한다.
전체 4702문장으로부터 구축한 15만 형태소 말뭉치를 Bi-LSTM-CNN-CRF 모델에 학습시킨 결과, 일반적인 문장뿐만 아니라 전통문화에 적합한 문장을 입력으로 넣어도 개체명을 정확하게 인식하는 것을 확인할 수 있다.
본 논문은 한국어 개체명 인식 시스템 성능 향상을 위해 제안한 Bi-LSTM-CNN-CRF 모델을 활용하여 전통문화 영역에서 활용 가능한 말뭉치를 구축하고 해당 모델에 적용하였다. 해당 모델에서는 음절 자질, 형태소 자질, 품사 태깅 자질, 구축된 사전 자질 보강을 통해 한국어 특성을 고려한 개체명 인식 성능을 향상시켰다. 전통문화라는 기존 개체명 인식 영역과 다른 영역의 시스템은 기존 개체명 인식 시스템에서 인식하지 못하는 부분이 발생했다.
질의응답
핵심어
질문
논문에서 추출한 답변
개체명 인식(Named Entity Recognition)시스템은 무엇인가?
개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다.
최근 딥러닝 방식을 이용한 개체명 인식 연구에서 어떤 방식이 좋은 성능을 보이고 있는가?
개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다.
지도학습(Supervised Learning) 기반의 모델 생성을 위해 새로 구축해야 하는것은?
최근 준지도(Semi-supervised), 비지도(Unsupervised) 학습에서 이와 관련된 많은 연구가 진행되고 있다[5-7]. 그러나 지도학습 기반의 대부분 딥러닝 시스템 개발을 위해 새로운 도메인 학습에 필요한 말뭉치는 존재하지 않거나, 혹은 필요에 따라 새로 구축해야 한다.
참고문헌 (15)
Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.
Ma, X., & Hovy, E. (2016). End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354.
Ling, W., Trancoso, I., Dyer, C., & Black, A. W. (2015). Character-based neural machine trans- lation. arXiv preprint arXiv:1511.04586.
Chiu, J. P., & Nichols, E. (2015). Named entity recognition with bidirectional LSTM-CNNs. arXiv preprint arXiv:1511.08308.
Nadeau D., Turney, P. D., & Matwin, S. (2006). Unsupervised named-entity recognition: Generating gazetteers and resolving ambiguity. In Conference of the Canadian Society for Computational Studies of Intelligence (pp. 266-277). Springer, Berlin, Heidelberg. DOI : 10.12811/JKCS.201.11.2.129
Zhu, X. (2006). Semi-supervised learning literature survey. Computer Science, University of Wisconsin-Madison, 2(3), 4. DOI : 10.22156/JKCS.2018.7.1.001
Derczynski, L., Maynard, D., Rizzo, G., van Erp, M., Gorrell, G., Troncy, R., ... & Bontcheva, K. (2015). Analysis of named entity recognition and linking for tweets. Information Processing & Management, 51(2), 32-49.
Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee inter- national conference on (pp. 6645-6649). IEEE.
Cho, K., Van Merrienboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.
Santos, C. D., & Zadrozny, B. (2014). Learning character-level representations for part-of-speech tagging. In Proceedings of the 31st International Conference on Machine Learning (ICML-14) (pp. 1818-1826).
Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2016). Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
S. H. Na & M. W. Min. (2016). Character Based LSTM CRFs for Named Entity Recognition, Korea Computer Congress (KCC).
D. Y. Lee, W. H. Yu, & H. S. Lim. (2017). Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation. Journal of the Korea Convergence Society[KCI], 8(12).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.