$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

초록
AI-Helper 아이콘AI-Helper

지난 10년간 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 페이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 대용량의 데이터와 이로 인해 파생되는 방대한 정보는 그것을 얻고자 하는 사람들에게 한계를 느끼게 한다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템 기반의 연구가 활발히 시도되고 있다. 이로 인해 지식 추출 시스템의 중요성이 날로 강조되고 있지만, 정확성과 효율성 측면에서 여전히 많은 과제가 있다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 본 논문에서는 기술 지식의 자동 추출을 위해 개발된 시스템을 평가하기 위한 테스트 컬렉션을 소개한다. KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection)라 명명된 테스트 컬렉션에 대한 구축 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히 테스트 컬렉션의 주요한 평가 기준이 되는 정확도를 높이기 위해 태깅 지원 도구를 활용한 전문가 태깅 방식을 사용하는 것이 주요 특징이다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여준다. 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT(Person, Location, Organization, Technology) 간 연관관계 추출 성능 평가를 위해서 사용되었고, 의미있는 연구결과를 도출하는데 기여하였다.

Abstract AI-Helper 아이콘AI-Helper

For last decade, the amount of information has been increased rapidly because of the internet and computing technology development, mobile devices and sensors, and social networks like facebook or twitter. People who want to gain important knowledge from database have been frustrated with large data...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션(이하 KEEC/KREC)을 구축하기 위한 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히, 테스트 컬렉션 구축에 있어서 일반적인 방식이라 할 수 있는 자동 또는 반자동의 구축 방법을 사용 하지 않고, 태깅 지원 도구를 활용하여 전문가(숙련자)에 의해 태깅을 통해 테스트 컬렉션의 정확도를 높이고자 노력하였다.
  • 본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션을 구축한다. 테스트 컬렉션을 구축하기 위해서는 체계적인 구축 절차가 필요하고, 기술 지식의 특성 상 개체 및 관계 태깅을 위한 기준이 필요하다.
  • 본 논문에서는 과학기술 분야 기술 지식의 자동 추출을 위한 테스트 컬렉션(이하 KEEC/KREC)을 구축하기 위한 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히, 테스트 컬렉션 구축에 있어서 일반적인 방식이라 할 수 있는 자동 또는 반자동의 구축 방법을 사용 하지 않고, 태깅 지원 도구를 활용하여 전문가(숙련자)에 의해 태깅을 통해 테스트 컬렉션의 정확도를 높이고자 노력하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
테스트 컬렉션이 부족할 경우 생기는 문제는 무엇인가? 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 테스트 컬렉션이 부족하거나 부정확하다면, 개발된 시스템에 대한 검증이 어렵고, 지식 추출 기술의 발전은 더디게 될 것이다. 특히 급속한 데이터량의 증가를 보이는 과학기술분야에서의 지식 추출은 더욱 중요한 의미를 가진다.
지식 추출 시스템의 성능을 향상시키기 위해 중요한 것은 무엇인가? 지식 추출은 대량의 문헌을 대상으로 이루어지므로, 시스템에 의한 자동 추출 방식이 일반적이다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 테스트 컬렉션이 부족하거나 부정확하다면, 개발된 시스템에 대한 검증이 어렵고, 지식 추출 기술의 발전은 더디게 될 것이다.
기술 정보에 대한 네 가지 기술지식으로 무엇이 있는가? 기술 지식과 관련된 기술의 유형을 몇 가지로 구분해 보면, 지식의 구조화, KDD(Knowledge Discovery in Database), 지식모델링, 지식계량화 등 4가지로 나뉜다[2]. 첫째는 지식의 구조화인데, 정보나 지식을 개인화된 정보로 표현하기 위한 일련의 정보 코드화 기술이다. 이 분야는 사용자 제작 DB, 분석형 DB, 지능형 인포메이션 등이 포함된다. 또한 태크케스트, 델파이방법 등 전문가의 지식을 표현하는 방법도 여기에 속하게 된다. 둘째, KDD이다. DB 마이닝, 텍스트 마이닝, 온톨로지 및 시맨틱기술 등이 포함된다. 정보를 자동으로 분류하고 스크 리닝, 기계적 추출 등의 영역이 여기에 해당된다. 일반적으로 IT기술을 기반으로 정보로부터 자동적으로 관련 정보나 지식을 찾아내는 기술이다. 셋째, 지식모델링이다. 테크놀로지 인텔리전스, 비즈니스 인텔리전스, 의사결정지원모델 등 정보의 관계분석을 통해서 새로운 지식으로 표현하기 위한 로직과 모델 등이 해당된다. 지식모델링은 KDD나 지식구조화, 지식계량화와 연계된다. 지식모델링은 IT 등의 기술로 시스템적인 접근이 가능하도록 구현된다. 넷째, 지식계량화 및 가시화이다. 정보와 지식의 흐름을 분석하여 지식의 현재 수준과 포지셔닝을 분석하고 미래의 유용한 지식의 패턴을 인식하게 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. http://ko.wikipedia.org 

  2. 한국과학기술단체총연합회, 새로운 연구?비즈니스 분야로 등장하는 지식기술, The Science & Technology, 2012(2). 

  3. R. Grishman, "Information extraction: Techniques and challenges. In Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology," International Summer School, pp.10-17, 1997. 

  4. E. Agichtein, "Scaling Information Extraction to Large Document Collections," IEEE, 2005. 

  5. D. Bikel, "Nymble:A High-Performance Learning Name-Finer," In proceedings of 5th Conference on Applied Natural Language Processing, p.194, 1997. 

  6. 최성필, 정창후, 최윤수, 맹성현, "평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출," 정보과학회논문지 : 소프트웨어 및 응용, 제36권, 제8호, pp.642-652, 2009(8). 

  7. 강현규, 전흥석, 오염덕, "정보 검색 시스템 평가를 위한 한텍(HANTEC) 적합성 정보의 평가 및 수정 구축," 한국정보기술학회논문지, 제9권, 제4호, pp.167-172, 2011(4). 

  8. 이준호, 정보검색이론, 숭실대학교, 2003(3). 

  9. 정창후, 최성필, 이민호, 최윤수, "기술용어 간 관계 추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발," 한국콘텐츠학회논문지, 제10권, 제2호, pp.1-8, 2010(2). 

  10. 정창후, 최성필, 최윤수, 송사광, 전홍우, "술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반 관계 추출," 한국인터넷정보학회 논문지, 제12권, 제5호, pp.73-85, 2011(10). 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로