[논문]딥러닝 모형 기반 한국어 개체명 연결

손대능; 이동주; 이용훈; 정유진; 강인호

딥러닝 모형 기반 한국어 개체명 연결
Named Entity Linking Based on Deep Learning Model 원문보기

손대능 (네이버 검색연구) , 이동주 (네이버 검색연구) , 이용훈 (네이버 검색연구) , 정유진 (네이버 검색연구) , 강인호 (네이버 검색연구)

개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Baseline은 연결 대상 어휘별 가장 많이 나오는 개체명으로 연결했을 때의 결과이다. Random Forest(RF)와 Support Vector Machine(SVM) 모형의 결과도 전통적인 모형과의 비교를 위해 첨부했다. 위키 문서에서 명사구나 링크 키워드 등의 자질을 추출하고 자질 선택 과정을 거쳐 상위 10% 의 자질만을 RF와 SVM의 입력으로 사용했을 때의 결과이며, Milne[2]의 연구 결과와 유사한 품질을 보여주고 있음을 확인했다.
본 논문에서는 최근 자연어처리, 이미지 분석, 음성인식 등에서 괄목할만한 성과를 내고 있는 딥러닝 모형을 한국어 문장 내 개체명 연결에 적용하고자 한다. 구체적으로 Multilayer Perceptron(MP), Convolutional Neural Network(CNN), Long-Short Term Memory(LSTM), LSTM+Attention 모형 별 품질과 처리 속도 등을 실험을 통해 비교 검증할 것이다.
본 논문은 한국어 입력 문장에 내 단어의 개체명 연결 문제를 여러 딥러닝 모형을 적용해 푸는 과정을 소개하고 각각의 품질을 관찰하였다. 전통적인 방법론보다 딥러닝 모형들의 품질이 우수하였으며, LSTM+Attention 방법이 가장 좋은 품질을 보였다.
딥러닝 모형은 수동 설정이 필요한 은닉 계층 크기, 계층 깊이 등의 초차원 인자에 따라 품질이 달라지는 경우가 많다. 본 연구에서는 사전 실험을 통해 각 모형별로 최선의 초차원 인자를 찾아 비교를 수행했음을 알린다. 연구 주제나 언어, 데이터의 특성에 따라 초차원 인자는 유동적으로 바뀔 수 있으며, 지면상 전체 사전 실험 결과는 생략한다.

제안 방법

학습데이터는 위키피디아 정보를 이용해 반자동으로 구축하였다. 각 개체명 별 위키 문서에서 프로필, 연고지 등이 담겨있는 정보창, 링크, 구절, 강조 어휘, 명사구 등을 모아 엔트로피 기반 정보 이득(Information Gain) 값으로 자질 선택을 수행했다. 개체명 별로 추출된 자질을 개체명 어휘와 결합해 검색 질의로 만들어 검수를 거치고, 검색 엔진(네이버, naver.
각 개체명 별 위키 문서에서 프로필, 연고지 등이 담겨있는 정보창, 링크, 구절, 강조 어휘, 명사구 등을 모아 엔트로피 기반 정보 이득(Information Gain) 값으로 자질 선택을 수행했다. 개체명 별로 추출된 자질을 개체명 어휘와 결합해 검색 질의로 만들어 검수를 거치고, 검색 엔진(네이버, naver.com)을 이용해 문서를 모았다. [표 3]은 “원피스” 관련 예시이다.
본 논문에서는 최근 자연어처리, 이미지 분석, 음성인식 등에서 괄목할만한 성과를 내고 있는 딥러닝 모형을 한국어 문장 내 개체명 연결에 적용하고자 한다. 구체적으로 Multilayer Perceptron(MP), Convolutional Neural Network(CNN), Long-Short Term Memory(LSTM), LSTM+Attention 모형 별 품질과 처리 속도 등을 실험을 통해 비교 검증할 것이다.
본 연구에서 사용하는 딥러닝 모형들은 출력 계층에 Softmax Activation을 한다. 이 경우 cross-entropy cost function을 정답 벡터 분포와 모형 결과 y간의 손실 함수(Loss Function)로 사용가능하며, 오류를 최소화하는 모형 인자 학습에는 역전파(back-propagation) 알고리즘을 이용한다[16].
학습데이터는 위키피디아 정보를 이용해 반자동으로 구축하였다. 각 개체명 별 위키 문서에서 프로필, 연고지 등이 담겨있는 정보창, 링크, 구절, 강조 어휘, 명사구 등을 모아 엔트로피 기반 정보 이득(Information Gain) 값으로 자질 선택을 수행했다.

대상 데이터

연결 대상이 될 중의성이 높은 단어를 찾기 위해 위키의 동음이의어 [15] 페이지를 사용해 후보 개체명을 추출했다. 검색 엔진 내 사용자 질의 입력 빈도에 따라 상위 1,428개의 개체명을 최종 분류 후보로 선정했다. 문장 내 연결 대상 경계 인식은 단어가 위키 동음이의어의 표면형과 동일한지 여부로 결정하며, 실제 서비스 적용을 고려하여 오류 전파 최소화와 부작용 대응 편의를 위해 별도의 개체명 경계 인식 로직은 두지 않았다.
실험에는 개체명 당 평균 305건이 사용되었고, 표준 편차는 169건이다. 데이터 전체의 형태소 사전 크기는 232,933이며 빈도 3이상인 92,472개만 사용하였다. 각각의 입력은 단 하나의 개체명 연결 대상만 갖는 걸로 가정하였으나, 딥러닝 모형의 출력 계층 특성상 하나의 입력당 다중 개체명 연결도 가능함을 알린다.
총 436,085건의 데이터가 모였으며, 각 개체명 별로 9:1의 비율로 각각 학습데이터와 평가데이터로 나누었다. 실험에는 개체명 당 평균 305건이 사용되었고, 표준 편차는 169건이다. 데이터 전체의 형태소 사전 크기는 232,933이며 빈도 3이상인 92,472개만 사용하였다.
예를 들면, 일본 만화 원피스는 "원피스_(만화)", 영국의 축구 클럽 첼시는 "첼시_FC"로 정의한다. 연결 대상이 될 중의성이 높은 단어를 찾기 위해 위키의 동음이의어 [15] 페이지를 사용해 후보 개체명을 추출했다. 검색 엔진 내 사용자 질의 입력 빈도에 따라 상위 1,428개의 개체명을 최종 분류 후보로 선정했다.
총 436,085건의 데이터가 모였으며, 각 개체명 별로 9:1의 비율로 각각 학습데이터와 평가데이터로 나누었다. 실험에는 개체명 당 평균 305건이 사용되었고, 표준 편차는 169건이다.

이론/모형

연구 주제나 언어, 데이터의 특성에 따라 초차원 인자는 유동적으로 바뀔 수 있으며, 지면상 전체 사전 실험 결과는 생략한다. 평가 척도는 정확률과 재현율 (Micro 방식)을 사용하였다.

성능/효과

5% 내외로 크지는 않았다. LSTM의 경우 Attention 기법을 사용한 것이 약간의 품질향상을 보였으며, 한국어 문장에서도 Attention 기법이 도움이 됨을 알 수 있었다.
Random Forest(RF)와 Support Vector Machine(SVM) 모형의 결과도 전통적인 모형과의 비교를 위해 첨부했다. 위키 문서에서 명사구나 링크 키워드 등의 자질을 추출하고 자질 선택 과정을 거쳐 상위 10% 의 자질만을 RF와 SVM의 입력으로 사용했을 때의 결과이며, Milne[2]의 연구 결과와 유사한 품질을 보여주고 있음을 확인했다. 최종 실험 결과는 순서열 모형화 적합한 LSTM + Attention 이 F1 측정 기준 97.
본 논문은 한국어 입력 문장에 내 단어의 개체명 연결 문제를 여러 딥러닝 모형을 적용해 푸는 과정을 소개하고 각각의 품질을 관찰하였다. 전통적인 방법론보다 딥러닝 모형들의 품질이 우수하였으며, LSTM+Attention 방법이 가장 좋은 품질을 보였다.
위키 문서에서 명사구나 링크 키워드 등의 자질을 추출하고 자질 선택 과정을 거쳐 상위 10% 의 자질만을 RF와 SVM의 입력으로 사용했을 때의 결과이며, Milne[2]의 연구 결과와 유사한 품질을 보여주고 있음을 확인했다. 최종 실험 결과는 순서열 모형화 적합한 LSTM + Attention 이 F1 측정 기준 97.17%로 가장 좋은 품질을 보였으며, 그 뒤로 LSTM, CNN, MP 순의 결과값을 관찰하였다. 1,428개에 이르는 분류 대상으로 인해 SVM과 Random Forest의 모형화 능력으로는 딥러닝 모형 대비 좋은 품질을 보여주지 못했다.
1회 Batch 당 GPU에 4096건을 입력해 측정한 초당 처리량 결과를 [표 6]에 첨부한다. 품질이 가장 좋은 LSTM+Attention 대비 MP가 1.7배의 정도 더 나은 처리량을 보여줬다. [표 7]은 초차원 인자 설정에 따른 LSTM 모형의 초당 처리량과 품질 변화를 관찰한 것이다.

후속연구

연구 결과는 추후 검색 엔진 등에 적용할 수 있으며, 향후 연구로는 딥러닝 모형의 속도 최적화, 오류 사례에 대한 부작용 대응을 어떻게 할 것인가를 들 수 있다.

핵심어

질문

논문에서 추출한 답변

MP 구조란?

MP 구조는 신경망 깊이가 3 이상인 feedforward fully connected neural network구조이다[16]. MP 구조는 구현이 용이하고 단순하다.

개체명 연결이란?

개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다.

본 논문에서 한국어 입력 문장에 내 단어의 개체명 연결 문제를 여러 딥러닝 모형을 적용해 푸는 과정을 소개하고 각각의 품질을 관찰한 결론은?

본 논문은 한국어 입력 문장에 내 단어의 개체명 연결 문제를 여러 딥러닝 모형을 적용해 푸는 과정을 소개하고 각각의 품질을 관찰하였다. 전통적인 방법론보다 딥러닝 모형들의 품질이 우수하였으며, LSTM+Attention 방법이 가장 좋은 품질을 보였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝 모형 기반 한국어 개체명 연결
Named Entity Linking Based on Deep Learning Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝 모형 기반 한국어 개체명 연결 Named Entity Linking Based on Deep Learning Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

딥러닝 모형 기반 한국어 개체명 연결
Named Entity Linking Based on Deep Learning Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper