[논문]온톨로지와 텍스트 마이닝 기반 지능형 역사인물 검색 서비스

정도헌; 황명권; 조민희; 정한민; 윤소영; 김경선; 김평

doi:10.7472/jksii.2012.13.5.33

온톨로지와 텍스트 마이닝 기반 지능형 역사인물 검색 서비스
Ontology and Text Mining-based Advanced Historical People Finding Service 원문보기

인터넷정보학회논문지 = Journal of Korean Society for Internet Information, v.13 no.5, 2012년, pp.33 - 43

정도헌 (한국과학기술정보연구원) , 황명권 (한국과학기술정보연구원) , 조민희 (한국과학기술정보연구원) , 정한민 (한국과학기술정보연구원) , 윤소영 (국사편찬위원회) , 김경선 ((주)다이퀘스트 연구소) , 김평 (전주교육대학교 컴퓨터교육과)

초록
AI-Helper

시맨틱 웹 기술은 특정 개체를 중심으로 의미적 연관 관계를 생성하고 연관 관계를 이용해서 다양한 지능형 정보 서비스를 구축하는데 활용되며, 텍스트 마이닝 기술은 비정형 데이터를 대상으로 의미 분석을 통해서 의미적 연관 관계를 생성하는데 활용될 수 있다. 본 연구에서는 역사인물을 중심으로 온톨로지 스키마, 인스턴스를 생성하는 가이드라인, 인스턴스 생성, 동명이인 해소를 위한 텍스트 마이닝, 추론을 활용한 지능화된 역사인물 검색서비스를 제안한다. 역사분야 전문가들이 생성한 역사적 사건, 기관, 인물 중심의 연관 관계와 국사편찬위원회에서 보유한 다양한 문헌들 간의 연계를 통해, 사용자들의 정보접근성을 향상시킴과 동시에 관계 정보에 기반한 새로운 역사인물 검색 서비스를 제안하였다. 새로운 역사인물 검색 서비스는 인물간의 소셜 네트워크를 사용하여 역사문헌에 나타난 동명이인을 해소함으로써 보다 정확한 검색서비스를 제공하는 것은 물론, 역사 인물 시소러스를 포함한 다양한 외부 정보와의 연계를 통해서 역사인물에 대한 고부가 정보를 제공하고 있다.

Abstract ▼ AI-Helper

Semantic web is utilized to construct advanced information service by using semantic relationships between entities. Text mining can be applied to generate semantic relationships from unstructured data resources. In this study, ontology schema guideline, ontology instance generation, disambiguation of same name by text mining and advanced historical people finding service by reasoning have been proposed. Various relationships between historical event, organization, people, which are created by domain experts, are linked to literatures of National Institute of Korean History (NIKH). It improves the effectiveness of user access and proposes advanced people finding service based on relationships. In order to distinguish between people with the same name, we compares the structure and edge, nodes of personal social network. To provide additional information, external resources including thesaurus and web are linked to all of internal related resources as well.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 국사편찬위원회에서 보유하고 있는 다양한 문헌 정보들을 대상으로 사용자가 원하는 정보를 보다 효과적으로 검색·접근하기 위한 방법으로 시맨틱 웹 기술 기반 역사인물 검색 서비스 개발하였다.
시맨틱 웹 기술을 이용한 지능형 정보 서비스 구축 연구와 동명이인 식별을 위한 연구를 중심으로 기존 연구들을 살펴보도록 하겠다.
역사인물 검색 서비스는 시맨틱 웹 서비스 프레임워크를 사용해서 검색의 편의성과 정확도를 개선하는데 목표를 두었다. 사용자는 검색어 자동 추천 기능을 통해 검색 대상 인물을 선택할 수도 있고, 시대별, 가나다별 인물 목록을 통해서 특정 인물을 선택하는 것은 물론, 선택된 인물을 중심으로 다양한 관련 정보를 네트워크 보기나 트리보기를 통해서 확인할 수 있다.

제안 방법

(그림 6)은 역사문헌에 포함된 인명의 중의성을 해소하여 생성된 정보로 각 문헌에 나타난 인물에 대해 기 구축된 네트워크 기반의 동명이인 해소 기법을 적용하여 온톨로지 기반의 고유 ID인 URI를 부여하였다. 이 정보는 각 문헌에 인물의 메타정보태그 형태로 추가되며 인물정보와 메타정보태그를 결합하여 색인정보로 사용하여 검색 시스템에서 발생할 수 있는 각 문헌에 나타난 동명이인 문제를 해소하였다.
∙온톨로지 스키마 로딩 모듈: 역사 정보 클래스들의 정의 및 관계를 Protege를 이용하여 정의하였다. 분석된 템플릿의 내용들을 온톨로지로 변환하기 위해 온톨로지 스키마를 로딩한다.
∙템플릿 분석 모듈: 역사 전문가에 의해 작성된 역사 정보 템플릿은 엑셀로 작성되며, 역사 인물 한명을 중심으로 다양한 관계가 작성된다. 각각의 템플릿 내용을 분석하여 온톨로지 스키마와 연결한다.
OntoEdit에서 형성한 트리플의 경우, 다른 파일에 존재하는 동일 이름에 대한 동명이인 처리는 이루어지지 않은 상태이다. 동명이인에 대한 처리는 WSD (Word Sense Disambiguation)의 한 부분이며, 본 연구에서는 네트워크 방식[14]을 응용하여 접근하였다. 동명이인이 발생하는 경우는 다음과 같다.
또한 특정 인물을 중심으로 ‘관련검색’이나 ‘중심검색’을 통해서 재검색을 보다 쉽게 할 수 있도록 검색 서비스를 개발하였다.
∙온톨로지 스키마 로딩 모듈: 역사 정보 클래스들의 정의 및 관계를 Protege를 이용하여 정의하였다. 분석된 템플릿의 내용들을 온톨로지로 변환하기 위해 온톨로지 스키마를 로딩한다.
역사인물 온톨로지는 한국 근대사를 중심으로 역사인물 검색 서비스에서 제공하고자 하는 인물 정보와 인물관련 정보를 중심으로 개념을 도출하고 개념간의 관계와 데이터타입 속성을 중심으로 설계되었다. 역사 전문가들과 온톨로지 전문가들이 클래스와 데이터타입 속성, 객체 속성을 도출하는 작업을 공동으로 수행하였다.
역사인물 검색 서비스는 사용자가 특정 인물을 검색하고 해당 인물을 중심으로 인물과 관련된 정보를 쉽게 찾는데 중점을 두고 인터페이스를 설계하였다. 또한 국사편찬위원회에서 보유하고 있는 다양한 문헌 정보를 대상으로 색인 정보를 생성하는 과정에서 동명이인이 해소된 인명정보와 연결함으로써 보다 정확한 정보 접근 경로를 제공하고 있다.
역사인물 검색 시스템 구성과 데이터 생성 과정 및 동명이인 해소방법을 중심으로 역사인물 검색 서비스를 개발하였다.
역사인물 온톨로지는 한국 근대사를 중심으로 역사인물 검색 서비스에서 제공하고자 하는 인물 정보와 인물관련 정보를 중심으로 개념을 도출하고 개념간의 관계와 데이터타입 속성을 중심으로 설계되었다. 역사 전문가들과 온톨로지 전문가들이 클래스와 데이터타입 속성, 객체 속성을 도출하는 작업을 공동으로 수행하였다.
(그림 6)은 역사문헌에 포함된 인명의 중의성을 해소하여 생성된 정보로 각 문헌에 나타난 인물에 대해 기 구축된 네트워크 기반의 동명이인 해소 기법을 적용하여 온톨로지 기반의 고유 ID인 URI를 부여하였다. 이 정보는 각 문헌에 인물의 메타정보태그 형태로 추가되며 인물정보와 메타정보태그를 결합하여 색인정보로 사용하여 검색 시스템에서 발생할 수 있는 각 문헌에 나타난 동명이인 문제를 해소하였다.
시맨틱 웹 기술 기반 역사인물 검색 서비스는 온톨로지를 이용해서 인물을 중심으로 관련 정보를 제공함으로써, 특정 인물을 찾아가기 위한 다양한 접근 방법을 제공한다. 이를 위해서 역사 전문가와 온톨로지 전문가가 역사인물을 중심으로 온톨로지 스키마를 설계하고 인스턴스를 생성하는 작업을 수행하였다. 역사인물 온톨로지는 국사편찬위원회에서 보유하고 있는 다양한 문헌과 외부자원들을 이용해서 인물간의 관계, 사건과 조직, 문화 유물과 유적 정보를 포함하고 있다.
한국 근현대사 인물을 중심으로 인물에 관한 상세 정보는 물론, 관련 인물·조직·사건 및 유관 정보를 제공하며, 사용자가 국사편찬위원회의 관련 문헌을 쉽게 접근할 수 있도록 서비스를 설계하였다.

대상 데이터

온톨로지 데이터 생성을 위해서는 구축 대상 인물을 선정하는 작업이 가장 먼저 이루어진다. 역사 전문가들이 인물의 중요도, 인물에 대한 자료 등을 고려해서 총 1,769명(고대 360명, 고려 450명, 조선전기 422명, 조선후기 537명)을 선정하였으며, 데이터 생성 프로세스는 다음과 같은 과정으로 진행된다.
역사인물 온톨로지는 국사편찬위원회에서 보유하고 있는 다양한 문헌과 외부자원들을 이용해서 인물간의 관계, 사건과 조직, 문화 유물과 유적 정보를 포함하고 있다. 역사인물 인스턴스는 역사 전문가들이 역사정보 템플릿을 사용해서 고대, 고려, 조선전후기 역사인물 1,769명을 대상으로 생성하였으며, 역사 전문가들의 표기 방법을 통일하기 위해서 인스턴스 생성 가이드라인도 작성해서 활용하였다. 또한 인적 네트워크를 기반으로 동명이인을 해소한 후 국사편찬위원회에서 보유하고 있는 다양한 문헌 정보와 연계함으로써 검색의 정확성을 향상시킬 수 있었다.

이론/모형

시맨틱 웹 기술 기반의 지능형 역사인물 검색 서비스는 국사편찬위원회가 보유한 다양한 역사 문헌들을 대상으로 의미기반 검색 기능을 제공함으로써, 사용자는 원하는 정보에 빠르고 정확하게 접근할 수 있다. 사용자가 입력한 인물을 중심으로 관련 역사 인물, 사건, 기관 간의 연관 관계를 제시하기 위해서 검색 엔진과 시맨틱 웹서비스 프레임 워크를 사용한다. 검색어 자동 완성, 시대별·가나다별 인물 검색, 동시대 인물 검색, 동명이인 구분 검색, 트리와 방사형 네트워크를 이용한 검색 등 다양한 기능들이 서비스에 포함되어 있다.

성능/효과

역사인물 인스턴스는 역사 전문가들이 역사정보 템플릿을 사용해서 고대, 고려, 조선전후기 역사인물 1,769명을 대상으로 생성하였으며, 역사 전문가들의 표기 방법을 통일하기 위해서 인스턴스 생성 가이드라인도 작성해서 활용하였다. 또한 인적 네트워크를 기반으로 동명이인을 해소한 후 국사편찬위원회에서 보유하고 있는 다양한 문헌 정보와 연계함으로써 검색의 정확성을 향상시킬 수 있었다.

후속연구

또한 특정 인물을 중심으로 ‘관련검색’이나 ‘중심검색’을 통해서 재검색을 보다 쉽게 할 수 있도록 검색 서비스를 개발하였다. 본 연구에서는 한국 근현대사의 역사 인물을 중심으로 온톨로지가 구축되어 서비스에 사용되었고, 향후에는 한국 역사 전반에 걸쳐서 확대할 계획이며, 온톨로지와 연계된 역사 문헌의 대상도 점차 확대할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	시맨틱 웹 기술은 다양한 분야에서 무엇을 위해 활발하게 사용되고 있는가?	시맨틱 웹 기술은 국내외 IT분야, 전자정부, Health Care 등 다양한 분야에서 개체간의 관계를 명확하게 하거나 검색 성능의 개선, 데이터의 공유 및 재사용을 위해서 활발하게 사용되고 있다[1]. 스탠포드 대학에서는 다양한 바이오메디컬 자원들을 효과적이면서도 빠르게 검색하기 위해서 온톨로지 기반의 검색 서비스를 개발하였다[3].
	OntoEdit는 어떤 모듈로 구분되는가?	OntoEdit는 온톨로지 스키마 로딩 모듈, 템플릿 분석 모듈, 1차 동명이인 처리 모듈, RDF(S)/OWL 트리플 생성 모듈로 구분되며, 각 모듈은 다음과 같은 기능을 수행한다.
	기존의 인물정보 검색 서비스가 가진 단점은 무엇인가?	기존의 인물정보 검색 서비스는 인물과 관련된 키워드를 검색어로 사용해서 키워드를 포함하고 있는 검색 결과를 제시해주는 서비스 또는 디렉토리 검색 형태로 특정 시대나 특정 단체를 중심으로 인물을 찾아주는 서비스들이 대부분이다. 그러나 인물에 대한 자세한 정보를 모를 경우 키워드 검색을 통해 방대한 문헌에서 원하는 정보를 찾는 것은 쉽지 않으며, 또한 인명의 경우 동명이인이 많기 때문에 원하는 인물을 중심으로 관련 문헌 정보를 찾는 것은 매우 어렵다.

참고문헌 (14)

http://www.w3.org/2001/sw/sweo/public/UseCases/
전정현, 이지현, "온라인 역사정보서비스에 관한 연구", 정보관리학회지, 제27권, 제3호, pp.67-82, 2010

원문보기 상세보기
C. Jonquet, P. LePendu, S. M. Falconer, A. Coulet, N. F. Noy, M. A. Musen, and N. H. Shah, "NCBO resource index: ontology-based search and mining of biomedical resources", Web Semantics, vol.9, no.3, pp.316-324, 2011

상세보기
이미경, 정한민, 김평, 성원경, "연구개발 전략 수립 지원을 위한 테크놀로지 인텔리전스 서비스", 한국정보과학회지, 제17권, 제5호, pp.337-341, 2011.
최중환, 박정호, 서동민, 이승우, 정한민, 김평, "시맨틱 웹 기반 지능형 무기정보 검색 서비스", 한국인터넷정보학회 하계학술발표대회 논문집 제13권, 제1호, pp.83-84, 2012.
L. Ding, T. Lebo, J. S. Erickson, D. DiFranzo, G. T. Williams, X. Li, J. Michaelis, A. Graves, J. Zheng, Z. Shangguan, J. Flores, D. L. McGuinness, J. A. Hendler, "TWC LOGD: A portal for linked open government data ecosystems", Web Semantics, vol.9, no.3, pp.325-333, 2011.

상세보기
A. Culotta, P. Kanani, R. Hall, M. Wick, A. McCallum, "Author disambiguation using errordriven machine learning with a ranking loss function", IIWeb-2007, 2007.
N. Aswani, K. Bontcheva, H. Cunningham, "Mining information for instance unification", ISWC-2006, pp.329-342, 2006
H. Han, C. L. Giles, H. Zha, C. Li, and K. Tsioutsiouliklis, "Two supervised learning approaches for name disambiguation in author citations", JCDL-2004, 2004.
강인수, 이승우, 정한민, 김평, 구희관, 이미경, 성원경, 박동인, "저자 식별을 위한 자질 비교", 한국콘텐츠학회논문지, 제8권, 제2호, pp.41-47, 2008.

원문보기 상세보기
T. Kim, P. Kim, S. Lee, H. Jung, and W.K. Sung, "OntoURIResolver: URI Resolution and Recommendation Service Using LOD", roceedings on U- and E-Service Science and Technology(UNESST 2011), CCIS 264, pp.245-250, 2011.
D.H. Jeong, M. Hwang, and W.K. Sung, "Generating Knowledge Map for Acronym-Expansion Recognition", Proceedings on U- and E-Service Science and Technology(UNESST 2011), CCIS 264, pp.287-293. 2011
황명권, 정도헌, 조민희, 정한민, 김평, 윤소영, 한 긍희, "역사정보 온톨로지 구축에 대하여", 한국인터넷정보학회 하계학술발표대회 논문집 제13권, 제1호, pp.87-88, 2012.
M. Hwang, C. Choi, and P. Kim, "Automatic Enrichment of Semantic Relation Network and its Application to Word Sense Disambiguation", IEEE Transaction to Knowledge and Data Engineering, Vol.23, No.6, pp.845-858, 2011.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증