[논문]대표 속성을 이용한 저자 개체 식별

김태홍; 정한민; 성원경; 김평

doi:10.5392/jkca.2012.12.01.017

대표 속성을 이용한 저자 개체 식별
Author Entity Identification using Representative Properties in Linked Data 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.1, 2012년, pp.17 - 29

김태홍 (과학기술연합대학원대학교) , 정한민 (한국과학기술정보연구원) , 성원경 (한국과학기술정보연구원) , 김평 (한국과학기술정보연구원)

초록
AI-Helper

급격하게 성장하고 있는 오픈 리소스인 링크드 데이터는 최근 선진국 정부의 많은 관심 속에 데이터 공개 및 상호운용성 확보를 위한 방안으로 주목받고 있다. 그러나 신뢰할 수 있는 개체 식별 기술의 부재로 링크드 데이터의 양적 성장에 비해 개체 수 대비 링크의 수가 적은 현상과 일부 데이터 셋에 링크가 집중되는 현상을 보이고 있다. 본 연구에서는 이러한 링크드 데이터의 문제를 해결하기 위해 개체 간 관계(owl:sameAs, owl differentFrom 등)를 이용하거나 Curation 방식을 사용하는 기존 링크드 데이터 기반 개체 식별 방식의 문제를 다중 온톨로지의 개체 식별이 가능한 자동화된 개체 식별 방식을 통해 개선하고 저자 개체의 대응 속성과 개체 유형의 논리적 특성을 활용하여 개체 식별 정합성을 검증할 수 있는 다중 온톨로지 기반의 실시간 저자 식별 방법을 제안하고 평가한다. 본인의 확인을 거친 29명의 저자 정보를 이용해 개체 식별 정확성 결과를 평가하여 평균 0.8533 (K measure)의 긍정적인 성능을 보였다.

Abstract ▼ AI-Helper

In recent years, Linked Data that is published under an open license shows increased growth rate and comes into the spotlight due to its interoperability and openness especially in government of developed countries. However there are relatively few out-links compared with its entire number of links and most of links refer a few hub dataset. These occur because of absence of technology that identifies entities in Linked data. In this paper, we present an improved author entity resolution method that using representative properties. To solve problems of previous methods that utilizes relation with other entities(owl:sameAs, owl:differentFrom and so on) or depends on Curation, we design and evaluate an automated realtime resolution process based on multi-ontologies that respects entity's type and its logical characteristics so as to verify entities consistency. The evaluation of author entity resolution shows positive results (The average of K measuring result is 0.8533.) with 29 author information that has obtained confirmation.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 시맨틱 정보의 연계 및 융합의 활성화를 위한 속성 기반 개체 식별 서비스 개발을 목표로 하고 있다. 이번 연구에서는 링크드 데이터에서 가장 많은 비율을 차지하고 있는 도메인인 Publication분야(295개 중 87개의 데이터 셋)의 개체 인식을 목표로 저자 유형의 개체를 대상으로 다중 온톨로지의 개체를 식별하고 활용할 수 있는 속성기반 개체 식별 방법을 제안하고 평가를 수행하였다.
링크드 데이터를 활용한 대용량 정보원 간의 정보 공유 및 연계는 시맨틱 정보의 활용과 더불어 정보의 가치를 증대시킬 수 있는 유용한 방법으로 많은 주목을 받고 있지만, 개체 식별 기술의 부재로 인해 정보 연계의 어려움이 있다. 본 연구에서는 기존 개체 식별 서비스의 단점을 보완하고 다중 온톨로지의 개체를 점진적으로 식별할 수 있는 방식을 통하여 개체 식별 정합성을 보장하고 타 온톨로지 간 개체 식별 정합성을 검증할 수 있는 개체 식별 방법을 제안하였다.
본 연구는 시맨틱 정보의 연계 및 융합의 활성화를 위한 속성 기반 개체 식별 서비스 개발을 목표로 하고 있다. 이번 연구에서는 링크드 데이터에서 가장 많은 비율을 차지하고 있는 도메인인 Publication분야(295개 중 87개의 데이터 셋)의 개체 인식을 목표로 저자 유형의 개체를 대상으로 다중 온톨로지의 개체를 식별하고 활용할 수 있는 속성기반 개체 식별 방법을 제안하고 평가를 수행하였다. 제안된 방법은 온톨로지 간 정보 연계를 위한 개체 식별 서비스의 기반이 될 것으로 기대한다.

제안 방법

[그림 9]의 URI 1 ～URI 4의 연관 속성인 문서 유형의 정보를 이용해 상위 단계의 1차 그룹화 결과를 검증하게 된다. URI 8～10의 속성 정보를 링크드 데이터에서 수집한 후 식별 대상과의 관계를 분석한다. 동일 그룹인 URI 2와 3은 URI 9의 저작 관계로 연결되어 있으므로 동일 그룹으로 확정할 수 있으며 URI 1은 URI 8을 통해 URI 3과 연결되어 하나의 그룹으로 병합된다.
sameAs.org나 Sindice.com의 Open API를 통해 “Alok N, Choudhary"를 질의하여 Json 형식의 식별 결과를 얻고 이를 파싱하여 식별 결과를 제외하고 단순 URI 목록만을 추출하게 된다.
sameAs.org는 식별 결과를 수집할 수 있는 API를 제공하고 있어 API를 통해 수집된 식별 결과에서 URI 목록만을 제안 식별의 식별 대상 URI 목록으로 사용하면 동일한 식별 대상 목록을 이용하여 두 가지 방법의 식별 결과의 비교가 가능하기 때문에 III 장에서 기술한 식별 프로세스의 “URI, 개체명 검색기”에 외부 시맨틱 검색엔진을 sameAs.org 의 API로 설정하여 결과를 비교하였다.
URI 정보는 가독성 낮아서 육안으로 식별하기 쉽지 않다. ①～⑦의 과정을 거쳐 식별된 정보는 사용자에게 편의성과 가독성을 높이고 식별 결과 활용의 효용성을 높이기 위해 식별이 완료된 그룹은 통계적 방법을 통하여 다수의 유효 속성 정보를 갖는 URI를 그룹의 대표 URI로 선정한다. 그룹의 대표 URI는 다수 그룹의 정보를 축약하는 일종의 메타 정보의 역할을 하며 식별된 결과에서 유효한 정보를 한눈에 확인할 수 있도록 요약 그룹을 생성하여 사용자에게 제시된다.
② URI 속성 정보 수집: 수집된 URI 목록의 속성 정보를 Linked Data를 통해서 수집하는 모듈로 미리 정의된 Linked Data의 각 데이터 셋의 접속 정보를 이용하여 SPAQL Endpoint와 HTTP Negotiation을 통해 외부 온톨로지의 정보를 실시간으로 수집하고 내부의 시맨틱 저장소인 OntoReasoner에 Triple 형태로 저장한다. 수집과정에서 각종 HTTP 오류(Internal Server, File not found 등)가 있는 URI를 필터링하고, HTTP 오류는 없으나 기타 외부 온톨로지의 이유로 인해 사용되지 않는 URI(Deprecated or Redirect URI), Micro-format(Non-Rdf URI; 단순한 메타 정보만을 담고 있는 URI)와 비 시맨틱 데이터(HTML 등)를 구분하여 유효한 URI 만을 식별에 사용한다.
⑤ 개체명 기준 그룹화 : 개체는 다수의 개체명을 포함할 수 있기 때문에 정규화를 거쳐 사람이나 회사의 이름, 논문명과 같은 단문 형태의 문자열 비교에 적합한 String Metrics 방법 중 Jaro Winkler Distance[9]를 이용한 유사도 계산법을 사용하여 개체명 간 도메인오류를 검사하고 객체 당 1개의 대표명을 선정한다. 이 과정에서는 개체의 식별 속성에 따라 다른 임계값(상위 단계에서 로딩된 도메인 정보)을 사용한다.
평가의 객관성을 높이기 위해서 기존의 개체 식별 서비스를 대상으로 동일한 입력 조건에서 개체 식별 결과를 비교하였다. 관련 연구에서 언급한 개체 식별 서비스 중 identifiers.org는 식별 도메인이 한정되어 있고 수작업을 중심으로 이루어지기 때문에 비교 평가가 어렵고, OKKAM 역시 동일 입력을 통한 개체 식별 결과의 비교가 어렵기 때문에 본 실험에서는 동일한 입력에 대한 sameAs.org 의 개체 식별 결과를 제안 식별 방법의 결과와 비교하였다. sameAs.
[표 3]은 다양한 온톨로지에서 사용되는 이형 서술어의 예이다. 다수의 이형 서술어를 처리하기 위해 매핑룰을 적용하여 정의된 다수의 서술어를 하나의 대체 서술어로 처리한다. 대체 서술어를 이용하면 자동화된 SPARQL 질의 생성이 용이해져 개체의 속성 정보를 비교적 쉽고 유연하게 검색하고 개체 식별에 이용할 수 있다.
② URI 속성 정보 수집: 수집된 URI 목록의 속성 정보를 Linked Data를 통해서 수집하는 모듈로 미리 정의된 Linked Data의 각 데이터 셋의 접속 정보를 이용하여 SPAQL Endpoint와 HTTP Negotiation을 통해 외부 온톨로지의 정보를 실시간으로 수집하고 내부의 시맨틱 저장소인 OntoReasoner에 Triple 형태로 저장한다. 수집과정에서 각종 HTTP 오류(Internal Server, File not found 등)가 있는 URI를 필터링하고, HTTP 오류는 없으나 기타 외부 온톨로지의 이유로 인해 사용되지 않는 URI(Deprecated or Redirect URI), Micro-format(Non-Rdf URI; 단순한 메타 정보만을 담고 있는 URI)와 비 시맨틱 데이터(HTML 등)를 구분하여 유효한 URI 만을 식별에 사용한다. [그림 7]은 URI 속성 정보를 설명하는 예제로 상위 단계에서 전달 받은 URI 목록(좌측의 URI 1～7)의 속성 정보를 링크드 데이터에서 수집하며, 이 과정에서 HTTP 오류와 사용되지 않은 URI로 분류된 URI 6과 7이 필터링 되어 식별 과정에서 제외된다.
또한, URI 정합성을 보장하기 위해 개체 유형에 따른 논리적 특성을 이용하여 오류가 포함된 것으로 예상되는 URI는 식별에서 제외하여 잘못된 URI의 정보가 확산되는 것을 방지한다. 제안 방법은 데이터 셋과 데이터 셋 간의 개체 식별 방식이 아니라 개체와 개체 간의 식별을 진행하는 자동화된 점진적 개체 식별 방식으로 지속적으로 업데이트 및 추가되는 링크드 데이터의 개체 식별에 적절한 방법이다.
제안된 방법의 식별 결과를 분석 결과의 일부 개체 식별에서 낮은 성능을 보이고 있는 경우가 있어 이러한 오류 개체 식별 유형을 분석하였다. 분석된 유형은 유사도 임계값 문제, 한국 저자 이름 처리 문제, 검증 규칙 문제의 3가지이다.
제안하는 방법은 OKKAM의 Jolly와 같이 속성-값의 유사도를 사용하지만, Jolly는 정보의 모든 속성 정보를 비교하는 데 비해 개체의 유형 특성에 따라 식별 기준(Criteria)이 되는 대표 속성의 값만을 이용한다. 또한, URI 정합성을 보장하기 위해 개체 유형에 따른 논리적 특성을 이용하여 오류가 포함된 것으로 예상되는 URI는 식별에서 제외하여 잘못된 URI의 정보가 확산되는 것을 방지한다.
평가의 객관성을 높이기 위해서 기존의 개체 식별 서비스를 대상으로 동일한 입력 조건에서 개체 식별 결과를 비교하였다. 관련 연구에서 언급한 개체 식별 서비스 중 identifiers.

대상 데이터

시맨틱 검색 엔진을 통해 정부출연연구소 A의 B 본부 전체 연구자 134명의 영문 이름을 검색하여 최소 10개 이상의 URI가 검색되는 29 명을 식별 대상을 선정하였다. 선정된 29명의 각 URI 목록은 본인의 확인을 통해 동일 개체 여부를 직접 확인을 하여, 평가의 정답 셋으로 활용하였다. 평가 데이터의 저자 정보를 식별하기 위해서는 링크드 데이터에서 712개의 다양한 종류의 속성 값을 갖고 있는 247,937 개의 Triple을 수집해야하고 이를 해석하기 위해 20개 이상의 온톨로지 분석이 필요하다.
시맨틱 검색 엔진을 통해 정부출연연구소 A의 B 본부 전체 연구자 134명의 영문 이름을 검색하여 최소 10개 이상의 URI가 검색되는 29 명을 식별 대상을 선정하였다. 선정된 29명의 각 URI 목록은 본인의 확인을 통해 동일 개체 여부를 직접 확인을 하여, 평가의 정답 셋으로 활용하였다.
평가 데이터의 저자 정보를 식별하기 위해서는 링크드 데이터에서 712개의 다양한 종류의 속성 값을 갖고 있는 247,937 개의 Triple을 수집해야하고 이를 해석하기 위해 20개 이상의 온톨로지 분석이 필요하다. 평가 데이터는 488개의 URI로 구성되어 있으며 저자 당 평균 12.83개의 URI, 그룹 당 평균 2.44개의 URI를 가진다.

이론/모형

OKKAM은 개체 식별을 위해서 Jolly, The Feature Based Entity Match Algorithm(FBEM), Eureka 등 3가지 개체 식별 엔진을 모두 이용한다[7]. 각 개체 식별 엔진의 차이점을 살펴보면 Jolly 개체 식별 엔진은 String Metrics를 기반으로 개체명과 속성 유사도, 그리고 속성 가중치를 이용한다. FBEM 엔진 역시 속성과 값을 비교하지만, FBEM 엔진은 온톨로지 특성을 고려하여 구현되어 시소러스나 번역어 사전을 통한 다국어 처리에 유리한 특성을 가지고 있다.

성능/효과

1101 개의 URI 정보를 분석한 결과, 1100 개의 URI 는 family name 속성으로 'Choudhary'라는 값을 가지고 있는데 반해 그중 1 개의 URI는‘ Choudhary’ 외에 ‘Kandemir’ 란 잘못된 정보를 포함하고 있었다.
제안하는 방법은 OKKAM의 Jolly와 같이 속성-값의 유사도를 사용하지만, Jolly는 정보의 모든 속성 정보를 비교하는 데 비해 개체의 유형 특성에 따라 식별 기준(Criteria)이 되는 대표 속성의 값만을 이용한다. 또한, URI 정합성을 보장하기 위해 개체 유형에 따른 논리적 특성을 이용하여 오류가 포함된 것으로 예상되는 URI는 식별에서 제외하여 잘못된 URI의 정보가 확산되는 것을 방지한다. 제안 방법은 데이터 셋과 데이터 셋 간의 개체 식별 방식이 아니라 개체와 개체 간의 식별을 진행하는 자동화된 점진적 개체 식별 방식으로 지속적으로 업데이트 및 추가되는 링크드 데이터의 개체 식별에 적절한 방법이다.
org는 URI의 상호 참조 관계만을 이용하기 때문에 낮은 성능을 보이고 있는 것으로 해석할 수 있다. 본 연구에서 제안된 방법은 평균 0.85의 ACP, 0.85의 AAP, 0.85의 K 값으로 sameAs.org 보다 2배 이상 정확한 성능을 보이고 있으며 sameAs.org가 제안 방법보다 URI 군집을 평균적으로 더 많이 생성하고 있다.

후속연구

제안된 개체 식별 방식은 실시간으로 링크드 데이터의 정보를 수집하는 방식을 사용하기 때문에 다수의 URI 목록 중 사용되지 않는 URI나 HTTP 오류로 인하여 정보 획득이 불가능한 URI를 필터링하여 사용성(Usability) 측면에서도 유용할 것으로 예상되며, 향후 실험을 통해 밝혀진 문제점을 개선하여 개체 식별 성능을 높이고 자동화된 방법으로 다수의 온톨로지 분석을 통해 개체 식별 유형을 확대할 예정이다. 본 연구에서 제안한 링크드 데이터 기반 개체 식별 방법은 링크드 데이터의 특정 데이터 셋에 링크가 편중되는 문제를 해결하고 개체 수 대비 상대적으로 부족한 링크의 수를 풍부하게 하기위한 기반 연구에 기여 할 것으로 기대한다.
제안된 개체 식별 방식은 실시간으로 링크드 데이터의 정보를 수집하는 방식을 사용하기 때문에 다수의 URI 목록 중 사용되지 않는 URI나 HTTP 오류로 인하여 정보 획득이 불가능한 URI를 필터링하여 사용성(Usability) 측면에서도 유용할 것으로 예상되며, 향후 실험을 통해 밝혀진 문제점을 개선하여 개체 식별 성능을 높이고 자동화된 방법으로 다수의 온톨로지 분석을 통해 개체 식별 유형을 확대할 예정이다. 본 연구에서 제안한 링크드 데이터 기반 개체 식별 방법은 링크드 데이터의 특정 데이터 셋에 링크가 편중되는 문제를 해결하고 개체 수 대비 상대적으로 부족한 링크의 수를 풍부하게 하기위한 기반 연구에 기여 할 것으로 기대한다.
이번 연구에서는 링크드 데이터에서 가장 많은 비율을 차지하고 있는 도메인인 Publication분야(295개 중 87개의 데이터 셋)의 개체 인식을 목표로 저자 유형의 개체를 대상으로 다중 온톨로지의 개체를 식별하고 활용할 수 있는 속성기반 개체 식별 방법을 제안하고 평가를 수행하였다. 제안된 방법은 온톨로지 간 정보 연계를 위한 개체 식별 서비스의 기반이 될 것으로 기대한다.
제안된 방법은 평균 0.85의 성능(K 값)을 보였으며 본 연구를 통해 밝혀진 문제를 개선하여 저자 개체 식별에 충분히 활용될 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	링크드 데이터의 가장 큰 문제점은 무엇인가?	데이터의 연계 및 활용 관점에서 링크드 데이터의 가장 큰 문제는 특정 데이터 셋으로 링크가 편중되는 것과 전체 개체 수 대비 상대적 상호 참조 링크가 부족한 현상이다. [그림 2]는 w3c.
	링크의 편중 현상은 어떤 문제를 발생시키는가?	링크가 일부 데이터 셋으로 편중되게 되면 허브 데이터 셋의 오류가 다수의 데이터 셋으로 전파되어 정보의 신뢰성을 떨어뜨리는 문제가 발생하게 된다. 이러한 링크의 편중 현상은 다수의 온톨로지 데이터를 대상으로 정확한 개체 식별을 수행하는 것이 어렵고 많은 시간이 소요되어 주로 내부 데이터와 같은 도메인의 허브 데이터 셋만을 대상으로 개체 식별이 이루어지기 때문에 나타나는 현상이다.
	링크의 편중 현상은 왜 발생하는가?	링크가 일부 데이터 셋으로 편중되게 되면 허브 데이터 셋의 오류가 다수의 데이터 셋으로 전파되어 정보의 신뢰성을 떨어뜨리는 문제가 발생하게 된다. 이러한 링크의 편중 현상은 다수의 온톨로지 데이터를 대상으로 정확한 개체 식별을 수행하는 것이 어렵고 많은 시간이 소요되어 주로 내부 데이터와 같은 도메인의 허브 데이터 셋만을 대상으로 개체 식별이 이루어지기 때문에 나타나는 현상이다. 한 가지 예를 들어보면, 링크드 데이터의 상호 참조 관계를 이용해 개체 식별을 하는 sameAs.

참고문헌 (15)

이정아, "스마트 정부의 공공정보 개방과 이용활 성화 전략", CIO report, 제28권, 2010.
Pyung Kim, S. W. Lee, and B. J. You, "A same As Management Method based on URI," 한국콘텐츠학회, KISTI-KOCON ICCC 2009, 제7권, 제2호, 2009.
http://www.w3.org/wiki/TaskForces/Community Projects/LinkingOpenData/DataSets/LinkStatistics
C. Bizer and R. Cyganiak, "D2R Server- Publishing Relational Databases on the Semantic Web," Proceedings of the 5th International Semantic Web Conference, 2006.
H. Glaser, A. Jaffri, and T. Millard, "Managing Co-reference on the Semantic Web," Proceedings of WWW2009 Workshop: Linked Data on the Web, 2009.
P. Bouquet, H. Stoermer, and D. Giacomuzzi, "OKKAM: Enabling a Web of Entities, Identity, Identifiers, Identification," Proceedings of WWW2007 Workshop on Entity-Centric Approaches to Information and Knowledge Management on the Web, 2007.
E. Ioannou, "Intelligent Entity Matching and Ranking," OKKAM report, D3.1, 2010.
C. Laibe, "Identifiers.org and MIRIAM Registry: Perennial Identifiers for Cross-referencing Purposes," Proceedings of Nature, 2011.
W. E. Winkler,"String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage," Survey Research Methods of American Statistical Association, 2009.
김태홍, 김 평, 정한민, 성원경, "다중 온톨로지의 속성정보를 이용한 점진적 개체 식별", 한국인터넷정보학회, 2011년도 하계학술발표대회, 2011.
A. McCallum, K. Nigam, and L. Ungar, "Efficient clustering of high-dimensional data sets with application to reference matching," Proceedings of KDD, pp.169-178, 2000.
A. Laender, M. Goncalves, R.Cota, A. Ferreira, R. Santos, and A. Silva, "Keeping a digital library clean: new solutions to old problems," ACM Symposium on Document Engineering, pp.257-262, 2008.
R. Cota, M. Goncalves, and A. Laender, "A heuristic-based hierarchical clustering method for author name disambiguation in digital libraries," Proceedings of Brazilian Symposium on Databases, pp.20-34, 2007.
A. Solomonoff, A. Mielke, M. Schmidt, and H. Gish, "Clustering speakers by their voices," IEEE International Conference on Acoustics, Speech, and Signal Processing, pp.757-760, 1998.
M. David, E. Steven, and G. Hector, "Evaluating entity resolution results," Proceedings of the VLDB Endowment, Vol.3, No.1-2, pp.208-219, 2010.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증