$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발
Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning 원문보기

컴퓨터교육학회논문지 = The Journal of Korean Association of Computer Education, v.18 no.6, 2015년, pp.81 - 88  

윤보현 (목원대학교 컴퓨터교육과) ,  오효정 (전북대학교 대학원 기록관리학과, 문화융복합 아카이빙 연구소)

초록
AI-Helper 아이콘AI-Helper

웹 3.0 시대의 도래와 IoT(Internet of Things) 기술을 발달에 따라 생산된 정보의 양 역시 기하급수적으로 늘고 있다. 본 논문에서는 이 중에서 사용자의 관심도가 높은 개체명(NE: Named Entity) 사전을 반자동으로 구축하는 도구를 개발하였다. 제안된 방법은 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성하고 사용자로부터 최소한의 보정 작업을 수행하여 이를 재학습한다, 특히 공개지식자원인 위키피디아 내의 다양한 메타데이터의 특성을 활용하여 능동 학습에 필요한 학습 예제 작성을 위한 수작업을 최소화하고자 한다. 도구 활용 효과를 분석한 결과, 능동 학습을 통해 자동 인식 결과의 오류의 약 68.6%가 보정됨을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Along with advent of Web 3.0 era and advanced technologies of IoT(Internet of Things), massive amounts of information are generated. Reflecting this trend, this paper developed a semi-automatic construction tool for named entity dictionary based on active learning. Our proposed method chose error ca...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 위키피디아 문서가 갖는 특성을 활용하여 개체명 사전을 구축하고 확장하기 위한 반자동 도구를 개발하고자 한다. 특히 초기 학습 결과를 활용해 인식된 오류를 재학습, 학습 결과를 보정하는 능동 학습(active learning) 기법을 적용함으로써 수작업을 최소화 하고 효율적으로 학습 데이터를 확장하는 방법에 대해 기술하고자 한다.
  • 본 논문에서는 집단지성을 통해 새롭게 생성되고 갱신되는 공개지식자원인 위키피디아의 특성을 활용하여 개체명 인식 결과의 오류를 보정하고 사전을 확장하기 위한 반자동 구축 도구를 개발하였다. 특히 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성, 사용자로부터 최소화의 작업을 통해 보정하여 이를 재학습시키는 능동 학습 기법을 적용하였다.
  • 2000년대에 들어서는 개체명 인식[7]을 비롯해 음성인식, 자동 통역 등 언어자원을 구축,보강하는 분야로 적용 범위가 확장되고 있으며 최근에는 기존의 능동 학습 방법이 초기 훈련 집합이 주어진 경우를 가정하는 제약에서 탈피하여 학습 데이터가 전혀 없는 경우를 대비하거나, 학습 속도를 줄이는 방향으로의 연구가 활발히 진행되고 있다[8]. 본 논문에서는 초기 학습 결과의 오류를 보정하기 위해 작업자의 수작업을 최소화하는 방안에 주안점을 둔다.
  • 8%로 상이한 경우가 다수 발생하였다. 이는 개체명 자동인식 결과의 성능 저하를 의미하므로 해당 태그에 대한 양상 분석 수행을 통해 오류를 보정하고자 한다. 인공물(AF)에 해당하는 앵커의 개체명 결과와 대상 표제어 개체명 결과의 차이를 세부 분석한 결과 다음과 같은 오류가 발생하였다.
  • 그러나 최근에는 매월 2~3천 문서씩 꾸준히 증가하고 있는 추세를 보이고 있으며, 이는 한국어로 작성된 공개지식자원으로는 최대 규모이다. 이와 같이 집단지성을 통해 지속적으로 축척된어떤 지식이 또 다른 지식자원에 반영되어 확장되는 순환 학습 과정에 본 논문의 주안점이 있다.
  • 본 논문에서는 위키피디아 문서가 갖는 특성을 활용하여 개체명 사전을 구축하고 확장하기 위한 반자동 도구를 개발하고자 한다. 특히 초기 학습 결과를 활용해 인식된 오류를 재학습, 학습 결과를 보정하는 능동 학습(active learning) 기법을 적용함으로써 수작업을 최소화 하고 효율적으로 학습 데이터를 확장하는 방법에 대해 기술하고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
능동 학습 방법이란? 일반적으로 기계 학습(machine learning)을 위해서는 수작업으로 정답이 부여된(labeled) 다수의 학습 데이터가 필요하다. 능동 학습 방법은 학습 예제로 사용할 수 있는 예제의 수가 제한되어 있는 상황에서 학습에 가장 도움이 되는 데이터를 선택하여 전문가의 태깅 혹은 검증에 의해 훈련 집합에 포함시키거나, 초기 훈련 집합이 주어지지 않았을 경우에 전체 데이터 분포를 잘 나타내는 데이터 부분 집합을 선택하여 훈련 집합을 만드는 방법으로[4], 학습에 필요한 예제 생성 비용을 효과적으로 줄이기 위해 다양한 분야에서 적용되고 있다.
개체명 사전은 무엇으로 구성되어 있는가? 이때 사용자들의 관심이 높은 정보라 함은 주로 특정 개체에 대한 것으로, 본 논문에서는 특히 개체명에 초점을 두기로 한다. 개체명(Named Entity)이란 인명, 지명, 기관명, 날자, 시간 등 문장에서 핵심적인 의미를 지닌 고유명사나 미등록어 등을 말하는 것으로[1], 개체명 사전은 해당 개체명과 분류 태그(tag)로 구성되어 있다(예: 인명-홍길동).
위키피디아 분류정보를 활용하여 개체명의 중의성을 해소하는 기법을 적용하여 높은 성능을 내기 위해서 어떻게 해야 하는가? 무엇보다도 가장 근본적으로 위와 같은 방법을 적용하여 높은 성능을 내기위해서는 많은 양의 코퍼스(corpus)를 필요로 하며, 그에 따른 수작업 비용을 요구한다. 뿐만 아니라 많은 양의 코퍼스를 구축하였다 하더라도, 새로운 도메인에 최적화된 개체명 인식기를 개발하기 위해서는 새로운 코퍼스가 필요하기 때문에 이러한 교사기반(supervised) 기계학습 기법은 확장성이 떨어진다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. Goldman Sachs (2014), The Internet of Things: Making sense of the next mega-trend, IoT Primer, http://www.goldmansachs.com/our-thinking/outlook/internet-of-things/iot-report.pdf 

  2. 정유선 (역) (2008), Web 3.0. (Team Weboook)서울: 라이온북스 

  3. Wikipedia, history, https://en.wikipedia.org/wiki/Wikipedia:About 

  4. Settles, B. (2009). Active learning literature survey: Computer sciences technical report 1648, University of Wisconsin-Madison, 

  5. Lewis, D. & Gale, W. (1994). A sequential Algorithm for Training Text Classifiers. The Proceedings of ACM-SIGIR Conference, 3-12. 

  6. Olsson, Fredrik (2009). A literature survey of active machine learning in the context of natural language processing, SICS Technical Report T2009:06 

  7. Vlachos, Andreas (2006). Active annotation. The Proceedings of the Workshop on Adaptive Text Extraction and Mining (ATEM 2006), 64-71. 

  8. 우호영, 박정희 (2013). 계층적 군집화를 이용한 능동적 학습. 정보처리학회논문지/소프트웨어 및 데이터 공학, 2(10), 705-712 

  9. Toral A. & Munoz, R. (2006). A proposal to automatically buid and maintain gazetters for named entity recognition by using Wikipedia", The Proceedings of EACL, 56-61 

  10. 송영길, 정석원, 김학수 (2015). 위키피디아를 이용한 정보검색 기반 개체명 사전 구축 방법. 2015년 한국컴퓨터종합학술대회 논문집, 648-659 

  11. 김태현, 이창수, 황재원, 고영중 (2015). 위키 피디아를 이용한 개체명 부착 코퍼스 자동구축 및 중의성 해소, 2015년 한국컴퓨터종합 학술대회 논문집, 745-747 

  12. 류법모, 김현진, 김현기, 박상규 (2012). 심층 언어분석 기반 소셜미디어 이슈 탐지 분석 기술, 정보과학회지, 30(6), 57-68 

  13. Lee, C., Hwang, Y. & Jang, M. (2007). Fine-Grained Named Entity Recognition and Relation Extraction for Question Answering, The Proceedings of the ACM-SIGIR conference, 799-800 

  14. 유철중, 김용, 윤보현 (2015). 언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구, 디지털융복합연구, 13(5), 187-194 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로