[논문]한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발

김경민; 김규경; 조재춘; 임희석

doi:10.15207/jkcs.2018.9.12.047

초록
AI-Helper

개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

Abstract ▼ AI-Helper

Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition ...

Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition probability between output data from LSTM-based Bi-LSTM model considering forward and backward directions of input data, showed excellent performance in the study of object name recognition using deep-learning, and it has a good performance on the efficient embedding vector creation by character and word unit and the model using CNN and LSTM. In this research, we describe the Bi-LSTM-CNN-CRF model that enhances the features of the Korean named entity recognition system and propose a method for constructing the traditional culture corpus. We also present the results of learning the constructed corpus with the feature augmentation model for the recognition of Korean object names.

주제어

표/그림 (8)

그림 Fig. 1. System Architecture of Named Entity Recognition Using Bi-LSTM-CNN-CRF
그림 Fig. 2. CNN-extracted char features
그림 Fig. 3. Bi-LSTM-CRF
그림 Fig. 4. Extract data and Create morpheme unit
표 Table 1. Category and Tag ratio among total corpus
그림 Fig. 5. Results using Traditional culture Corpus
그림 Fig. 6. Results using Traditional culture Corpus2
그림 Fig. 7. Incorrect tagged NER system

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

에서 기사를 추출하고, 추출된 데이터로부터 구축한 말뭉치에 대해 기술한다. 또한, 구축한 말뭉치를 Bi-LSTM-CNN- CRF 모델에 활용하여 한국어의 특성에 맞게 다양한 실험을 적용한 결과에 대해 기술한다. 논문의 구성은 다음과 같다.
본 연구에서는 전통문화에 적합한 말뭉치구축을 위해 한국학중앙연구원 디지털 인문학 웹사이트¹⁾에서 기사를 추출하고, 추출된 데이터로부터 구축한 말뭉치에 대해 기술한다. 또한, 구축한 말뭉치를 Bi-LSTM-CNN- CRF 모델에 활용하여 한국어의 특성에 맞게 다양한 실험을 적용한 결과에 대해 기술한다.

제안 방법

세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다. 네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다. 학습 데이터로부터 표현한 각각의 자질(음절, 형태소, 품사, 사전)들을 연결 (concatenation)하고 Bi-LSTM의 입력 데이터로 사용한다.
데이터 구축을 위해 5명의 인원이 하루 평균 5시간씩 한 달 동안 진행했다. 문장 내의 태그 정보 추출을 수작업으로 진행하였으며 전체 2351개 기사로부터 4702개의 문장과 15만 형태소 단위의 데이터를 추출하였다.
한국학중앙연구원 디지털 인문학 웹사이트는 우리나라의 역사와 문화에 대한 정보를 데이터 자원으로 구축한 사이트이다. 말뭉치구축을 위해 해당 사이트의 백과사전 기사에서 전통문화와 관련된 기획기사 및 중심기사 5개로부터 각 기사의 개요와 내용에 대한 문장들을 크롤링하여 형태소 단위의 데이터를 생성하였다. Fig.
본 논문은 한국어 개체명 인식 시스템 성능 향상을 위해 제안한 Bi-LSTM-CNN-CRF 모델을 활용하여 전통문화 영역에서 활용 가능한 말뭉치를 구축하고 해당 모델에 적용하였다. 해당 모델에서는 음절 자질, 형태소 자질, 품사 태깅 자질, 구축된 사전 자질 보강을 통해 한국어 특성을 고려한 개체명 인식 성능을 향상시켰다.
또 다른 연구에서는 LSTM과 CNN으로 추출한 단어 임베딩 벡터를 결합하여 추가함으로써 좋은 성능을 보여주었다[2-4]. 본 논문의 모델에서는 자소 단위의 특징을 표현하였으며 Fig. 2는 자소 단위의 CNN을 활용하여 자질을 추출하는 과정을 나타낸다.
두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다. 세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다. 네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다.
모델은 “신돈 실각 후”라는 3개의 단어와 그에 해당하는 품사 태깅 결과를 입력 데이터로 받는다. 입력받은 데이터는 4가지 방법으로 문서를 표현하는데 첫 번째, 음절 단위의 자질 표현 구성을 위해 단어를 음절 단위 자질로 구성한 뒤 CNN을 통하여 음절 자질을 추출한 후 이를 음절 단위 자질 표현으로 활용한다. 두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다.

대상 데이터

모델은 “신돈 실각 후”라는 3개의 단어와 그에 해당하는 품사 태깅 결과를 입력 데이터로 받는다.
데이터 구축을 위해 5명의 인원이 하루 평균 5시간씩 한 달 동안 진행했다. 문장 내의 태그 정보 추출을 수작업으로 진행하였으며 전체 2351개 기사로부터 4702개의 문장과 15만 형태소 단위의 데이터를 추출하였다.
네 번째, 구축된 사전을 활용하여 사전 자질을 표현한다. 학습 데이터로부터 표현한 각각의 자질(음절, 형태소, 품사, 사전)들을 연결 (concatenation)하고 Bi-LSTM의 입력 데이터로 사용한다. LSTM 모델은 은닉 계층(hidden layer)을 통해 데이터를 계산하여 출력하고, 해당 데이터를 CRF의 입력으로 사용하여 전이 확률값을 계산한 후 최종적으로 입력 값(형태소)에 대응하는 개체명을 예측한다.
1에서 전통문화 개체명 인식 데이터를 예시로 활용하여 전체 구조도를 나타낸다. 해당 데이터는 한국학중앙연구원 디지털 인문학 웹사이트에서 크롤링 및 전처리 과정을 거친 데이터를 사용했으며 결과적으로 전체 문장 수 4702로부터 형태소 단위의 15만 개의 말뭉치 데이터를 구축했다.

이론/모형

또한, 문장 간의 의존성을 양방향에서 고려하여 그 인접한 태그 간의 의존성을 고려할 수 있다. Fig. 3 본 논문은 Bi-LSTM-CRF 모델을 이용하여 한국어 개체명 인식을 수행한다.
입력받은 데이터는 4가지 방법으로 문서를 표현하는데 첫 번째, 음절 단위의 자질 표현 구성을 위해 단어를 음절 단위 자질로 구성한 뒤 CNN을 통하여 음절 자질을 추출한 후 이를 음절 단위 자질 표현으로 활용한다. 두 번째, 형태소 단위의 데이터는 Glove 워드 임베딩 모델을 이용하여 워드 임베딩을 구성하고 이를 형태소 단위의 자질로 활용한다. 세 번째, 품사 태깅 결과를 품사 태깅에 대한 임베딩으로 구성하여 이를 자질로 활용한다.
본 논문에서 사용한 Bi-LSTM-CNN-CRF 모델은 Fig. 1에서 전통문화 개체명 인식 데이터를 예시로 활용하여 전체 구조도를 나타낸다. 해당 데이터는 한국학중앙연구원 디지털 인문학 웹사이트에서 크롤링 및 전처리 과정을 거친 데이터를 사용했으며 결과적으로 전체 문장 수 4702로부터 형태소 단위의 15만 개의 말뭉치 데이터를 구축했다.
순서 레이블링(Sequence Labeling)에 LSTM을 적용할 경우 RNN의 그래디언트 소멸 문제를 어느 정도 해결할 수 있지만, 은닉 상태(Hidden state)를 고려해보았을 때 다음 단어가 이전 단어에 미치는 관계정보를 알 수 없으므로 관계정보를 추가로 고려하기 위해 Bi-LSTM을 사용한다. Bi-LSTM을 사용할 경우 전(forward), 후 (backward) 관계에 있는 모든 정보의 관계성에 대해 파악할 수 있다.

성능/효과

전통문화라는 기존 개체명 인식 영역과 다른 영역의 시스템은 기존 개체명 인식 시스템에서 인식하지 못하는 부분이 발생했다. 따라서 한국학중앙연구원 디지털 인문학 웹사이트를 통해 전통문화 말뭉치를 구축하였고 구축한 4702문장의 15만 어절 형태소 말뭉치 데이터로 학습시킨 결과 해당 모델은 전통문화와 관련된 문장에서 대부분의 해당 개체명을 인식할 수 있었다.
모델 결과 ‘세종’, ‘최항’, ‘박팽년’ 등을 사람(PS) 개체명으로 인식하고 ‘1443년 12월’을 날짜(DT) 개체명으로 인식한다.
모델 결과 ‘이순신’을 사람 개체명으로 인식하고 ‘1592년 4월 13일’, ‘전라좌수영’, ‘4월 29일’을 날짜 개체명으로, ‘일본’과 ‘수영 앞바다’를 장소 개체명으로 인식한다.
전체 4702문장으로부터 구축한 15만 형태소 말뭉치를 Bi-LSTM-CNN-CRF 모델에 학습시킨 결과, 일반적인 문장뿐만 아니라 전통문화에 적합한 문장을 입력으로 넣어도 개체명을 정확하게 인식하는 것을 확인할 수 있다.
본 논문은 한국어 개체명 인식 시스템 성능 향상을 위해 제안한 Bi-LSTM-CNN-CRF 모델을 활용하여 전통문화 영역에서 활용 가능한 말뭉치를 구축하고 해당 모델에 적용하였다. 해당 모델에서는 음절 자질, 형태소 자질, 품사 태깅 자질, 구축된 사전 자질 보강을 통해 한국어 특성을 고려한 개체명 인식 성능을 향상시켰다. 전통문화라는 기존 개체명 인식 영역과 다른 영역의 시스템은 기존 개체명 인식 시스템에서 인식하지 못하는 부분이 발생했다.

질의응답

핵심어	질문	논문에서 추출한 답변
	개체명 인식(Named Entity Recognition)시스템은 무엇인가?	개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다.
	최근 딥러닝 방식을 이용한 개체명 인식 연구에서 어떤 방식이 좋은 성능을 보이고 있는가?	개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다.
	지도학습(Supervised Learning) 기반의 모델 생성을 위해 새로 구축해야 하는것은?	최근 준지도(Semi-supervised), 비지도(Unsupervised) 학습에서 이와 관련된 많은 연구가 진행되고 있다[5-7]. 그러나 지도학습 기반의 대부분 딥러닝 시스템 개발을 위해 새로운 도메인 학습에 필요한 말뭉치는 존재하지 않거나, 혹은 필요에 따라 새로 구축해야 한다.

참고문헌 (15)

Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.
Ma, X., & Hovy, E. (2016). End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354.
Ling, W., Trancoso, I., Dyer, C., & Black, A. W. (2015). Character-based neural machine trans- lation. arXiv preprint arXiv:1511.04586.
Chiu, J. P., & Nichols, E. (2015). Named entity recognition with bidirectional LSTM-CNNs. arXiv preprint arXiv:1511.08308.
Nadeau D., Turney, P. D., & Matwin, S. (2006). Unsupervised named-entity recognition: Generating gazetteers and resolving ambiguity. In Conference of the Canadian Society for Computational Studies of Intelligence (pp. 266-277). Springer, Berlin, Heidelberg. DOI : 10.12811/JKCS.201.11.2.129
Zhu, X. (2006). Semi-supervised learning literature survey. Computer Science, University of Wisconsin-Madison, 2(3), 4. DOI : 10.22156/JKCS.2018.7.1.001
Derczynski, L., Maynard, D., Rizzo, G., van Erp, M., Gorrell, G., Troncy, R., ... & Bontcheva, K. (2015). Analysis of named entity recognition and linking for tweets. Information Processing & Management, 51(2), 32-49.

상세보기
Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee inter- national conference on (pp. 6645-6649). IEEE.
Cho, K., Van Merrienboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.
Santos, C. D., & Zadrozny, B. (2014). Learning character-level representations for part-of-speech tagging. In Proceedings of the 31st International Conference on Machine Learning (ICML-14) (pp. 1818-1826).
Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2016). Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
S. H. Na & M. W. Min. (2016). Character Based LSTM CRFs for Named Entity Recognition, Korea Computer Congress (KCC).
D. Y. Lee, W. H. Yu, & H. S. Lim. (2017). Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation. Journal of the Korea Convergence Society[KCI], 8(12).

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발
Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8) 모든 표/그림 보기

표/그림 (8) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

김경민 (8) 김규경 (3) 조재춘 (10) 임희석 (82)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발
Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs 원문보기

초록
AI-Helper

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper