[논문]능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발

윤보현; 오효정

초록
AI-Helper

웹 3.0 시대의 도래와 IoT(Internet of Things) 기술을 발달에 따라 생산된 정보의 양 역시 기하급수적으로 늘고 있다. 본 논문에서는 이 중에서 사용자의 관심도가 높은 개체명(NE: Named Entity) 사전을 반자동으로 구축하는 도구를 개발하였다. 제안된 방법은 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성하고 사용자로부터 최소한의 보정 작업을 수행하여 이를 재학습한다, 특히 공개지식자원인 위키피디아 내의 다양한 메타데이터의 특성을 활용하여 능동 학습에 필요한 학습 예제 작성을 위한 수작업을 최소화하고자 한다. 도구 활용 효과를 분석한 결과, 능동 학습을 통해 자동 인식 결과의 오류의 약 68.6%가 보정됨을 보였다.

Abstract ▼ AI-Helper

Along with advent of Web 3.0 era and advanced technologies of IoT(Internet of Things), massive amounts of information are generated. Reflecting this trend, this paper developed a semi-automatic construction tool for named entity dictionary based on active learning. Our proposed method chose error ca...

Along with advent of Web 3.0 era and advanced technologies of IoT(Internet of Things), massive amounts of information are generated. Reflecting this trend, this paper developed a semi-automatic construction tool for named entity dictionary based on active learning. Our proposed method chose error candidates to verify among the preliminary results using initial trained model and re-trained the model for correctly labeled data by user. We adopt active learning approach for minimizing human effort utilized metadata features of Wikipedia. Based on experimental results using our tool, we show that 68.6% errors were automatically corrected.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 위키피디아 문서가 갖는 특성을 활용하여 개체명 사전을 구축하고 확장하기 위한 반자동 도구를 개발하고자 한다. 특히 초기 학습 결과를 활용해 인식된 오류를 재학습, 학습 결과를 보정하는 능동 학습(active learning) 기법을 적용함으로써 수작업을 최소화 하고 효율적으로 학습 데이터를 확장하는 방법에 대해 기술하고자 한다.
본 논문에서는 집단지성을 통해 새롭게 생성되고 갱신되는 공개지식자원인 위키피디아의 특성을 활용하여 개체명 인식 결과의 오류를 보정하고 사전을 확장하기 위한 반자동 구축 도구를 개발하였다. 특히 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성, 사용자로부터 최소화의 작업을 통해 보정하여 이를 재학습시키는 능동 학습 기법을 적용하였다.
2000년대에 들어서는 개체명 인식[7]을 비롯해 음성인식, 자동 통역 등 언어자원을 구축,보강하는 분야로 적용 범위가 확장되고 있으며 최근에는 기존의 능동 학습 방법이 초기 훈련 집합이 주어진 경우를 가정하는 제약에서 탈피하여 학습 데이터가 전혀 없는 경우를 대비하거나, 학습 속도를 줄이는 방향으로의 연구가 활발히 진행되고 있다[8]. 본 논문에서는 초기 학습 결과의 오류를 보정하기 위해 작업자의 수작업을 최소화하는 방안에 주안점을 둔다.
8%로 상이한 경우가 다수 발생하였다. 이는 개체명 자동인식 결과의 성능 저하를 의미하므로 해당 태그에 대한 양상 분석 수행을 통해 오류를 보정하고자 한다. 인공물(AF)에 해당하는 앵커의 개체명 결과와 대상 표제어 개체명 결과의 차이를 세부 분석한 결과 다음과 같은 오류가 발생하였다.
그러나 최근에는 매월 2~3천 문서씩 꾸준히 증가하고 있는 추세를 보이고 있으며, 이는 한국어로 작성된 공개지식자원으로는 최대 규모이다. 이와 같이 집단지성을 통해 지속적으로 축척된어떤 지식이 또 다른 지식자원에 반영되어 확장되는 순환 학습 과정에 본 논문의 주안점이 있다.
본 논문에서는 위키피디아 문서가 갖는 특성을 활용하여 개체명 사전을 구축하고 확장하기 위한 반자동 도구를 개발하고자 한다. 특히 초기 학습 결과를 활용해 인식된 오류를 재학습, 학습 결과를 보정하는 능동 학습(active learning) 기법을 적용함으로써 수작업을 최소화 하고 효율적으로 학습 데이터를 확장하는 방법에 대해 기술하고자 한다.

제안 방법

<그림 4>은 본 논문에서 개발한 개체명 사전 반자동 구축 도구의 개발환경을 도식화 한 것이다. 개발환경으로는 다수의 사용자가 동시에 그리고 어디서든 태깅 가능한 환경을 제공하기 위해 웹 기반 아파치(apache) 서버와 HTML을 사용하여 사용자 인터페이스를 개발하였으며, 태깅된 결과물은 MySQL과 PHP를 사용하여 데이터베이스와 연동 및 저장이 가능하도록 개발되었다. 또한 태깅 대상 앵커 텍스트와 분류 정보와 같은 기반정보들은 C++언어를 사용해 데이터베이스와 연동되어 데이터를 업로딩하고, 태깅된 결과물 또한 텍스트(txt) 파일 및 엑셀(틴) 파일로 다운로드가 가능한 환경으로 구성하였다.
개발환경으로는 다수의 사용자가 동시에 그리고 어디서든 태깅 가능한 환경을 제공하기 위해 웹 기반 아파치(apache) 서버와 HTML을 사용하여 사용자 인터페이스를 개발하였으며, 태깅된 결과물은 MySQL과 PHP를 사용하여 데이터베이스와 연동 및 저장이 가능하도록 개발되었다. 또한 태깅 대상 앵커 텍스트와 분류 정보와 같은 기반정보들은 C++언어를 사용해 데이터베이스와 연동되어 데이터를 업로딩하고, 태깅된 결과물 또한 텍스트(txt) 파일 및 엑셀(틴) 파일로 다운로드가 가능한 환경으로 구성하였다.
이를 위해 본 논문에서는 와 같이 앵커가 가리키는 타겟 표제어의 ‘분류’ 정보 및 ‘틀’ 정보를 브라우징할 수 있는 창을 제공함으로써 개체명 태깅 보정의 정확도를 꾀한다.
이번 장에서는 본 논문에서 개발한 개체명 사전 반자동 구축 도구의 활용 효과를 분석한다.
본 논문에서는 집단지성을 통해 새롭게 생성되고 갱신되는 공개지식자원인 위키피디아의 특성을 활용하여 개체명 인식 결과의 오류를 보정하고 사전을 확장하기 위한 반자동 구축 도구를 개발하였다. 특히 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성, 사용자로부터 최소화의 작업을 통해 보정하여 이를 재학습시키는 능동 학습 기법을 적용하였다. 실험 결과 제안된 도구를 활용해 재학습한 결과 오류의 70%가 보정됨을 보였다.

대상 데이터

제안된 방법의 효과를 입증하기 위해서 먼저 수작업 정답셋을 구축이 필요하다. 본 논문에서는 위키피디아 문서 중 앵커가 20개 이상 포함된 360 문서를 임의로 선정하고 해당 문서셋에 포함된 전체 앵커 5,713개를 대상으로 평가셋을 구축하였다.
전체 5,713개 대상 중에서 기존 개체명 인식기로 성공한 앵커가 3,979개이고 개체명으로 인식하지 못한 경우 혹은 인식했으나 세부 분류를 잘못 할당한 오류 케이스가 1,734개였다. 이들 오류 중 앵커 정보를 활용해 1,321개를 추가 인식했다. 이 중에서 다시 대상 표제어 정보를 통해 세부 태그를 보정한 경우가 1,190개로, 최종적으로 제안된 방법을 통해 전체 68.

이론/모형

본 논문에서 확장 대상으로 사용한 개체명 사전은 한국전자통신연구원(이하 ETRI)에서 개발한 개체명 인식기[12]에서 활용하기 위한 것으로, 상위 15개 대분류와 184개의 세부 분류로 구성되어있으며 학습에 활용한 기계학습 방법은 지지벡터기계(SVM: Support Vector Machine) 알고리즘을 활용하였다[13].

성능/효과

세부적으로 살펴보면, 앵커 텍스트와 대상 표제어의 개체명 인식 결과가 서로 다른 결과를 보인 상위 분류 태그들은 수량(QT)의 경우 89.6%, 시간(TI)의 경우 68,2%, 학술분야(FD)는 52.1%로 분석되었다. 이들 태그들은 사용자의 관심도가 떨어지는 분류인 반면 관심도가 높고 전체 개체명의 다수를 차지하는 분류들인 인명(PS, 13,8%), 지명(LC, 18.
특히 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성, 사용자로부터 최소화의 작업을 통해 보정하여 이를 재학습시키는 능동 학습 기법을 적용하였다. 실험 결과 제안된 도구를 활용해 재학습한 결과 오류의 70%가 보정됨을 보였다.
이들 오류 중 앵커 정보를 활용해 1,321개를 추가 인식했다. 이 중에서 다시 대상 표제어 정보를 통해 세부 태그를 보정한 경우가 1,190개로, 최종적으로 제안된 방법을 통해 전체 68.6%를 자동화 할 수 있음을 보였다.
1%로 분석되었다. 이들 태그들은 사용자의 관심도가 떨어지는 분류인 반면 관심도가 높고 전체 개체명의 다수를 차지하는 분류들인 인명(PS, 13,8%), 지명(LC, 18.6%), 기관(OG, 25.1%)의 경우 앵커와 표제어 자동인식 결과가 다른 비율이 비교적 낮은 것으로 분석되었다. 이는 자동인식 결과가 정답일 확률이 크다는 것을 암시하는 것으로, 나아가 전체 개체명 사전 정확도에 긍정적인 영향을 미치는 것으로 해석될 수 있다.
이러한 결과는 도구 사용을 통해 작업자가 전체 보정 대상 중 매우 일부만을 보정한 후 이를 기계가 재학습함으로써 반자동 태깅이 가능함을 의미하는 것으로, 본 논문의 주된 목적인 ‘작업자 수작업의 최소화’를 달성한 것으로 해석될 수 있다.
<표 3>는 제안된 방법을 적용한 개체명 사전리스트를 평가한 결과이다. 전체 5,713개 대상 중에서 기존 개체명 인식기로 성공한 앵커가 3,979개이고 개체명으로 인식하지 못한 경우 혹은 인식했으나 세부 분류를 잘못 할당한 오류 케이스가 1,734개였다. 이들 오류 중 앵커 정보를 활용해 1,321개를 추가 인식했다.

후속연구

차기 연구 방향으로는 수작업으로 보정할 후보를 보다 효율적으로 선택하는 알고리즘을 개발하고 능동 학습에 사용된 기계 학습 기법을 다양화하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	능동 학습 방법이란?	일반적으로 기계 학습(machine learning)을 위해서는 수작업으로 정답이 부여된(labeled) 다수의 학습 데이터가 필요하다. 능동 학습 방법은 학습 예제로 사용할 수 있는 예제의 수가 제한되어 있는 상황에서 학습에 가장 도움이 되는 데이터를 선택하여 전문가의 태깅 혹은 검증에 의해 훈련 집합에 포함시키거나, 초기 훈련 집합이 주어지지 않았을 경우에 전체 데이터 분포를 잘 나타내는 데이터 부분 집합을 선택하여 훈련 집합을 만드는 방법으로[4], 학습에 필요한 예제 생성 비용을 효과적으로 줄이기 위해 다양한 분야에서 적용되고 있다.
	개체명 사전은 무엇으로 구성되어 있는가?	이때 사용자들의 관심이 높은 정보라 함은 주로 특정 개체에 대한 것으로, 본 논문에서는 특히 개체명에 초점을 두기로 한다. 개체명(Named Entity)이란 인명, 지명, 기관명, 날자, 시간 등 문장에서 핵심적인 의미를 지닌 고유명사나 미등록어 등을 말하는 것으로[1], 개체명 사전은 해당 개체명과 분류 태그(tag)로 구성되어 있다(예: 인명-홍길동).
	위키피디아 분류정보를 활용하여 개체명의 중의성을 해소하는 기법을 적용하여 높은 성능을 내기 위해서 어떻게 해야 하는가?	무엇보다도 가장 근본적으로 위와 같은 방법을 적용하여 높은 성능을 내기위해서는 많은 양의 코퍼스(corpus)를 필요로 하며, 그에 따른 수작업 비용을 요구한다. 뿐만 아니라 많은 양의 코퍼스를 구축하였다 하더라도, 새로운 도메인에 최적화된 개체명 인식기를 개발하기 위해서는 새로운 코퍼스가 필요하기 때문에 이러한 교사기반(supervised) 기계학습 기법은 확장성이 떨어진다.

참고문헌 (14)

Goldman Sachs (2014), The Internet of Things: Making sense of the next mega-trend, IoT Primer, http://www.goldmansachs.com/our-thinking/outlook/internet-of-things/iot-report.pdf
정유선 (역) (2008), Web 3.0. (Team Weboook)서울: 라이온북스
Wikipedia, history, https://en.wikipedia.org/wiki/Wikipedia:About
Settles, B. (2009). Active learning literature survey: Computer sciences technical report 1648, University of Wisconsin-Madison,
Lewis, D. & Gale, W. (1994). A sequential Algorithm for Training Text Classifiers. The Proceedings of ACM-SIGIR Conference, 3-12.
Olsson, Fredrik (2009). A literature survey of active machine learning in the context of natural language processing, SICS Technical Report T2009:06
Vlachos, Andreas (2006). Active annotation. The Proceedings of the Workshop on Adaptive Text Extraction and Mining (ATEM 2006), 64-71.
우호영, 박정희 (2013). 계층적 군집화를 이용한 능동적 학습. 정보처리학회논문지/소프트웨어 및 데이터 공학, 2(10), 705-712

원문보기 상세보기
Toral A. & Munoz, R. (2006). A proposal to automatically buid and maintain gazetters for named entity recognition by using Wikipedia", The Proceedings of EACL, 56-61
송영길, 정석원, 김학수 (2015). 위키피디아를 이용한 정보검색 기반 개체명 사전 구축 방법. 2015년 한국컴퓨터종합학술대회 논문집, 648-659
김태현, 이창수, 황재원, 고영중 (2015). 위키 피디아를 이용한 개체명 부착 코퍼스 자동구축 및 중의성 해소, 2015년 한국컴퓨터종합 학술대회 논문집, 745-747
류법모, 김현진, 김현기, 박상규 (2012). 심층 언어분석 기반 소셜미디어 이슈 탐지 분석 기술, 정보과학회지, 30(6), 57-68
Lee, C., Hwang, Y. & Jang, M. (2007). Fine-Grained Named Entity Recognition and Relation Extraction for Question Answering, The Proceedings of the ACM-SIGIR conference, 799-800
유철중, 김용, 윤보현 (2015). 언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구, 디지털융복합연구, 13(5), 187-194

원문보기 상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발
Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발 Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

오효정 (106)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발
Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper