[논문]기술 지식 자동 추출을 위한 테스트 컬렉션 구축

신성호; 최윤수; 송사광; 최성필; 정한민

doi:10.5392/jkca.2012.12.07.463

기술 지식 자동 추출을 위한 테스트 컬렉션 구축
Construction of Test Collection for Automatically Extracting Technological Knowledge 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.7, 2012년, pp.463 - 472

신성호 (한국과학기술정보연구원 소프트웨어연구실) , 최윤수 (한국과학기술정보연구원 소프트웨어연구실) , 송사광 (한국과학기술정보연구원 소프트웨어연구실) , 최성필 (한국과학기술정보연구원 소프트웨어연구실) , 정한민 (한국과학기술정보연구원 소프트웨어연구실)

초록
AI-Helper

지난 10년간 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 페이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 대용량의 데이터와 이로 인해 파생되는 방대한 정보는 그것을 얻고자 하는 사람들에게 한계를 느끼게 한다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템 기반의 연구가 활발히 시도되고 있다. 이로 인해 지식 추출 시스템의 중요성이 날로 강조되고 있지만, 정확성과 효율성 측면에서 여전히 많은 과제가 있다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 본 논문에서는 기술 지식의 자동 추출을 위해 개발된 시스템을 평가하기 위한 테스트 컬렉션을 소개한다. KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection)라 명명된 테스트 컬렉션에 대한 구축 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히 테스트 컬렉션의 주요한 평가 기준이 되는 정확도를 높이기 위해 태깅 지원 도구를 활용한 전문가 태깅 방식을 사용하는 것이 주요 특징이다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여준다. 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT(Person, Location, Organization, Technology) 간 연관관계 추출 성능 평가를 위해서 사용되었고, 의미있는 연구결과를 도출하는데 기여하였다.

Abstract ▼ AI-Helper

For last decade, the amount of information has been increased rapidly because of the internet and computing technology development, mobile devices and sensors, and social networks like facebook or twitter. People who want to gain important knowledge from database have been frustrated with large database. Many studies for automatic knowledge extracting meaningful knowledge from large database have been fulfilled. In that sense, automatic knowledge extracting with computing technology has been highly significant in information technology field, but still has many challenges to go further. In order to improve the effectives and efficiency of knowledge extracting system, test collection is strongly necessary. In this research, we introduce a test collection for automatic knwoledge extracting. We name the test collection KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection) and present the process and guideline for building as well as the features of. The main feature is to tag by experts to guarantee the quality of collection. The experts read documents and tag entities and relation between entities with a tool for tagging. KEEC/KREC is being used for a research to evaluate system performance and will continue to contribute to next researches.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션(이하 KEEC/KREC)을 구축하기 위한 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히, 테스트 컬렉션 구축에 있어서 일반적인 방식이라 할 수 있는 자동 또는 반자동의 구축 방법을 사용 하지 않고, 태깅 지원 도구를 활용하여 전문가(숙련자)에 의해 태깅을 통해 테스트 컬렉션의 정확도를 높이고자 노력하였다.
본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션을 구축한다. 테스트 컬렉션을 구축하기 위해서는 체계적인 구축 절차가 필요하고, 기술 지식의 특성 상 개체 및 관계 태깅을 위한 기준이 필요하다.
본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션(이하 KEEC/KREC)을 구축하기 위한 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히, 테스트 컬렉션 구축에 있어서 일반적인 방식이라 할 수 있는 자동 또는 반자동의 구축 방법을 사용 하지 않고, 태깅 지원 도구를 활용하여 전문가(숙련자)에 의해 태깅을 통해 테스트 컬렉션의 정확도를 높이고자 노력하였다.

제안 방법

정창후 외 3명은 반자동화된 처리 과정을 거쳐서 규모 있는 관계 추출용 테스트 컬렉션을 구축하는 프레임워크를 제안한다[9]. 그리고 개발된 프레임워크를 이용하여 실제적으로 과학기술 문헌에 존재하는 기술용어 간 연관관계 추출 시스템의 성능 평가를 위한 테스트 컬렉션을 구축하고 결과를 분석한다. [그림 2]와 같이 반자동 테스트 컬렉션 구축 프레임워크는 문헌의 구문적 특성과 의미적 특성을 시스템적으로 처리하여 후보 트리플을 생성하는 자동 처리 과정과 후보 트리플 중에서 가장 적합한 트리플을 구축자가 최종적으로 선택하는 수동 처리 과정으로 이루어진다.
[표 4]는 한 파일에 포함되어 있는 문장수의 분포를 나타낸다. 문장수의 분포의 분포를 10단계로 나누었고, 각 단계별로 5개의 문장을 할당하였다. 문서수의 합은 문장수 11~15개와 6~10개에서 최고를 기록하였고, 개체수와 관계수도 비슷한 분포를 보였다.
본 논문에서 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT 간 연관관계 추출 성능 평가를 위해서 사용되었다.
본 논문에서는 자동 또는 반자동의 구축 방법을 사용하지 않고, 테스트 컬렉션의 정확도를 높이기 위해, 태깅지원 도구를 활용하여 전문가(숙련자)에 의해 태깅이 이루어졌다. 전문가에 의한 태깅 방식은 다음 장에서 상세
지원 도구는 텍스트 파일을 읽어들여, 문장 단위로 파싱을 하여 사용자에게 보여준다. 사용자는 각각의 문장을 보면서, 개체 추출 기준에 따라, 개체를 태깅한다. 태깅할 단어를 선택하면, 개체 클래스를 볼 수 있고, 그중 적합한 클래스를 선택할 수 있다.
테스트 컬렉션을 구축하기 위해서는 체계적인 구축 절차가 필요하고, 기술 지식의 특성 상 개체 및 관계 태깅을 위한 기준이 필요하다. 실제 태깅을 위해서는 일반적인 자동화된 태깅 방법이 아닌, 전문가에 의한 태깅 방법을 시도하였다. 또한 태깅 지원 도구를 활용하였다.
정창후 외 3명은 KEEC/KREC을 기반으로 PLOT 간 연관관계 자동 분류에 대한 성능 평가를 실시하였다[10]. 혼합 커널의 보다 정확한 성능 비교를 위해서 우선 일반 구문 트리 커널과 술어-논항 구조의 패턴 유사도 커널을 각각 단독으로 사용한 경우에 대해서 실험하고, 최종적으로 두 방법을 결합한 상태로 사용한 경우의 성능 측정 결과를 비교한다.

대상 데이터

KISTI NDSL의 저널 중 환경/에너지 분야 281,069건(193종)과 PUBMED 저널 중 환경/에너지 분야 91,000건(105종)을 대상으로 무작위로 추출된 1,088개의 코퍼스의 크기는 5.74MB이며, 파일의 타입은 XML이다. 각 파일은 최대 35KB부터 최소 2KB까지 다양하며, 파일 당 평균 5.
텍스트 기반의 전자 문서가 주 대상이며, 논문이나 특허의 원문이나 초록이 될 수 있다. 본 논문에서는 KISTI NDSL의 저널 중 환경/에너지 분야 281,069건 (193종)과 PUBMED 저널 중 환경/에너지 분야 91,000건 (105종)을 원시 데이터로 수집하였다. 기계적인 추출 작업이 아닌 전문가에 의한 태깅에 기반하였기 때문에, 원시 데이터 전체를 대상으로 하는 것은 시간과 비용이 많이 든다.
데이터, 정보 및 전문가의 지식 등으로부터 유용한 지식을 활용하기까지의 단계를 이르는 일련의 기술영역으로 정의하고 있다. 본 논문에서의 기술 지식은 기술문헌 및 웹문서들에서 빈번하게 출현하는 기술개체 및 개체 간 관계정보로 한정한다.

이론/모형

실제 태깅을 위해서는 일반적인 자동화된 태깅 방법이 아닌, 전문가에 의한 태깅 방법을 시도하였다. 또한 태깅 지원 도구를 활용하였다. 자동 태깅 도구들은 사람에 의한 작업보다 효율적일 수는 있지만, 기계가 하는 일이기 때문에 사람에 의한 태깅보다 정확도가 떨어질 수 있다.
본 논문에서는 테스트 컬렉션 구축을 위해 전문가(숙련자)에 의한 태깅 방식을 사용하였다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여주는 역할을 한다.
자질 기반 방법은 최대 엔트로피 모델(Maximum Entropy Model)을 기반으로 다양한 형태의 어휘적, 구문적, 의미적 자질들을 이용하여 관계 추출을 시도한다. 이를 기반으로 지지벡터기계를 활용하여 더 확장되고 세분화된 자질 정보를 관계추출에 적용할 수 있다.
정보 검색에 있어서 테스트 컬렉션에 대한 구축 연구는 이준호의 연구를 참고하였다[8]. 정보 검색에 대한 연구는 Cranfield I이라고 불리는 색인에 대한 실험과 함께 시작되었으며, 그 후로 30년이 넘는 동안 실험은 검색 기법의 개발에 있어서 필수적인 요소로 인식되어 왔다.

성능/효과

이 그림에서 문장수 11~15과 6~10 부근에서 문서수합, 개체수합, 관계수합이 가장 높고, 비슷한 분포를 보이는 것을 알 수 있다. 따라서 개체수합, 관계수합은 문서수합에 비례함을 알 수 있고, 이는 문서가 많을 수록 태깅된 개체수와 관계수가 많았음을 의미한다. 이를 통해 전문가에 의한 태깅 작업이 어느 정도는 제대로 이루어졌다고 판단할 수 있다.
자동 태깅 도구들은 사람에 의한 작업보다 효율적일수는 있지만, 기계가 하는 일이기 때문에 사람에 의한 태깅보다 정확도가 떨어질 수 있다. 따라서 태깅 지원 도구는 전문가의 판단에 의한 태깅이라는 면에서 더 정확한 결과를 얻을 수 있으며, 태깅 도구 없이 하는 방법보다 정확성과 효율성을 갖추었다고 할 수 있다.
자동 태깅 도구들은 사람에 의한 작업보다 효율적일수는 있지만, 기계가 하는 일이기 때문에 사람에 의한 태깅보다 정확도가 떨어질 수 있다. 따라서 태깅 지원 도구는 전문가의 판단에 의한 태깅이라는 면에서 더 정확한 결과를 얻을 수 있으며, 태깅 도구 없이 하는 방법보다 정확성과 효율성을 갖추었다고 할 수 있다.
문장수의 분포의 분포를 10단계로 나누었고, 각 단계별로 5개의 문장을 할당하였다. 문서수의 합은 문장수 11~15개와 6~10개에서 최고를 기록하였고, 개체수와 관계수도 비슷한 분포를 보였다.
위 사례는 KEEC/KREC을 활용하여 지식 추출 도구의 성능을 평가하고, 의미있는 연구결과를 얻을 수 있다는 사실을 보여주고 있다. 테스트 컬렉션의 구축 목적이 시스템의 성능 평가 등 다양한 실험에 활용되는 것이기 때문에, KEEC/KREC 데이터를 활용하여 유의미한 실험 결과를 얻었다는 것 자체가 해당 컬렉션 데이터의 유용성 및 활용성을 검증하는 것이라고 할 수 있다.
[표 6]은 PLOT 간 연관관계 추출 실험에 대한 성능 평가 결과를 보여준다. 트리 커널과 술어-논항 구조 패턴 유사도 커널을 단독으로 수행했을 때는 트리 커널의 성능이 술어-논항 구조 패턴 유사도 커널보다 더 좋은 것을 확인할 수 있다. 하지만 트리 커널 단독으로 사용하는 것보다는 술어-논항 구조 패턴 유사도 커널을 결합하여 혼합 커널을 구성하였을 때는 더 나은 성능을 보이는 것을 확인할 수 있다.
트리 커널과 술어-논항 구조 패턴 유사도 커널을 단독으로 수행했을 때는 트리 커널의 성능이 술어-논항 구조 패턴 유사도 커널보다 더 좋은 것을 확인할 수 있다. 하지만 트리 커널 단독으로 사용하는 것보다는 술어-논항 구조 패턴 유사도 커널을 결합하여 혼합 커널을 구성하였을 때는 더 나은 성능을 보이는 것을 확인할 수 있다. 따라서 기존의 트리 커널은 술어-논항 구조 패턴 유사도 커널과 결합하여 더 나은 성능을 발휘한다는 사실을 알 수 있다.

후속연구

테스트 컬렉션의 구축 목적이 시스템의 성능 평가 등 다양한 실험에 활용되는 것이기 때문에, KEEC/KREC 데이터를 활용하여 유의미한 실험 결과를 얻었다는 것 자체가 해당 컬렉션 데이터의 유용성 및 활용성을 검증하는 것이라고 할 수 있다. 향후에도 KEEC/KREC 데이터를 가능한 많은 연구자들과 공유하여, 기술 지식 자동추출 기술의 향상에 조금이라도 기여할 수 있도록 노력하고자 한다.
이와 같은 과정을 통해 구축된 KEEC/KREC은 실제 과학기술 지식 추출 도구의 성능을 평가하기 위한 연구에 활용된다. 향후에도 지속적으로 KEEC/KREC 데이터를 가능한 많은 연구자들과 공유하여, 기술 지식 자동추출 기술의 향상에 기여하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	테스트 컬렉션이 부족할 경우 생기는 문제는 무엇인가?	지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 테스트 컬렉션이 부족하거나 부정확하다면, 개발된 시스템에 대한 검증이 어렵고, 지식 추출 기술의 발전은 더디게 될 것이다. 특히 급속한 데이터량의 증가를 보이는 과학기술분야에서의 지식 추출은 더욱 중요한 의미를 가진다.
	지식 추출 시스템의 성능을 향상시키기 위해 중요한 것은 무엇인가?	지식 추출은 대량의 문헌을 대상으로 이루어지므로, 시스템에 의한 자동 추출 방식이 일반적이다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 테스트 컬렉션이 부족하거나 부정확하다면, 개발된 시스템에 대한 검증이 어렵고, 지식 추출 기술의 발전은 더디게 될 것이다.
	기술 정보에 대한 네 가지 기술지식으로 무엇이 있는가?	기술 지식과 관련된 기술의 유형을 몇 가지로 구분해 보면, 지식의 구조화, KDD(Knowledge Discovery in Database), 지식모델링, 지식계량화 등 4가지로 나뉜다[2]. 첫째는 지식의 구조화인데, 정보나 지식을 개인화된 정보로 표현하기 위한 일련의 정보 코드화 기술이다. 이 분야는 사용자 제작 DB, 분석형 DB, 지능형 인포메이션 등이 포함된다. 또한 태크케스트, 델파이방법 등 전문가의 지식을 표현하는 방법도 여기에 속하게 된다. 둘째, KDD이다. DB 마이닝, 텍스트 마이닝, 온톨로지 및 시맨틱기술 등이 포함된다. 정보를 자동으로 분류하고 스크 리닝, 기계적 추출 등의 영역이 여기에 해당된다. 일반적으로 IT기술을 기반으로 정보로부터 자동적으로 관련 정보나 지식을 찾아내는 기술이다. 셋째, 지식모델링이다. 테크놀로지 인텔리전스, 비즈니스 인텔리전스, 의사결정지원모델 등 정보의 관계분석을 통해서 새로운 지식으로 표현하기 위한 로직과 모델 등이 해당된다. 지식모델링은 KDD나 지식구조화, 지식계량화와 연계된다. 지식모델링은 IT 등의 기술로 시스템적인 접근이 가능하도록 구현된다. 넷째, 지식계량화 및 가시화이다. 정보와 지식의 흐름을 분석하여 지식의 현재 수준과 포지셔닝을 분석하고 미래의 유용한 지식의 패턴을 인식하게 된다.

참고문헌 (10)

http://ko.wikipedia.org
한국과학기술단체총연합회, 새로운 연구？비즈니스 분야로 등장하는 지식기술, The Science & Technology, 2012(2).
R. Grishman, "Information extraction: Techniques and challenges. In Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology," International Summer School, pp.10-17, 1997.
E. Agichtein, "Scaling Information Extraction to Large Document Collections," IEEE, 2005.
D. Bikel, "Nymble:A High-Performance Learning Name-Finer," In proceedings of 5th Conference on Applied Natural Language Processing, p.194, 1997.
최성필, 정창후, 최윤수, 맹성현, "평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출," 정보과학회논문지 : 소프트웨어 및 응용, 제36권, 제8호, pp.642-652, 2009(8).

원문보기 상세보기
강현규, 전흥석, 오염덕, "정보 검색 시스템 평가를 위한 한텍(HANTEC) 적합성 정보의 평가 및 수정 구축," 한국정보기술학회논문지, 제9권, 제4호, pp.167-172, 2011(4).

상세보기
이준호, 정보검색이론, 숭실대학교, 2003(3).
정창후, 최성필, 이민호, 최윤수, "기술용어 간 관계 추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발," 한국콘텐츠학회논문지, 제10권, 제2호, pp.1-8, 2010(2).
정창후, 최성필, 최윤수, 송사광, 전홍우, "술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반 관계 추출," 한국인터넷정보학회 논문지, 제12권, 제5호, pp.73-85, 2011(10).

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증