[논문]학술논문과 참고문헌의 자동매핑 사례 분석

김재훈; 김순영; 임석종; 황혜경

doi:10.5392/jkca.2019.19.11.262

학술논문과 참고문헌의 자동매핑 사례 분석
Case study of Journal Article and Reference Mapping 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.19 no.11, 2019년, pp.262 - 269

김재훈 (한국과학기술정보연구원) , 김순영 (한국과학기술정보연구원) , 임석종 (한국과학기술정보연구원) , 황혜경 (한국과학기술정보연구원)

초록
AI-Helper

학술논문의 말미에 기재하는 참고문헌은 저자가 연구윤리를 준수하고 독자들이 관련 선행연구를 참고할 수 있도록 돕는 정보이자 논문간의 인용과 피인용 관계를 연결시키는 데 유용한 정보이다. 계량서지학이 발전하면서 참고문헌 데이터는 국가, 기관, 개인의 학술 영향력을 평가하는 중요한 데이터로 활용되고 있다. 하지만 참고문헌 형식의 다양성, 학술지명과 저자명 축약 기재로 인한 정보 손실, 저자들의 오타 등으로 인해 참고문헌을 식별하여 연결하는 것은 쉽지 않다. 본 연구에서는 학술논문 참고문헌 데이터를 구축하고 매핑하는 과정에서 발생한 오류 사례를 분석함으로써 참고문헌 데이터 매핑율 제고 방안을 고찰하였다. 연구결과 참고문헌 식별 실패의 주요 원인은 유사 학술지명 식별 문제로 밝혀졌으며 식별과 매핑율 향상을 위한 방안으로 학술지명 전거파일 활용, 논문 DOI 등록율 제고를 제시하였다. 본 연구는 연구 대상 데이터에서 차별성이 있다. 국내에서 주로 구독, 이용, 출판, 인용되는 국내 및 해외 학술지 통합 데이터베이스를 대상으로 참고문헌 매핑을 시도하였다. 참고문헌 구축량 및 매핑율 향상을 통해 해외 인용색인 데이터베이스와는 차별화된 국내 상황을 반영한 인용 분석 및 서비스 기반 데이터베이스로 활용이 가능하다.

Abstract ▼ AI-Helper

References at the end of an academic paper are information that helps authors keep their research ethics, readers refer to related prior studies. Also references are useful information for linking citations and citations between articles. As bibliography metrics develops, bibliographic data is used as an important data for assessing the academic influence of countries, institutions and individual researchers. However, it is not easy to identify and link the reference data due to the diversity of the bibliographic citation formats, the loss of information due to the abbreviation of journal names and author names, and typos by authors. This study investigated the method of improving the bibliographic data mapping rate by analyzing the unmapped cases. As a result, it was found that the main cause of the article-reference mapping failure was the similarity of abbreviated journal names. Research team suggested that continuous management of journal title authority data and improving the DOI registration rate as ways to improve the identification and mapping rate. This study is differentiated from other studies in used database. Bibliography mapping was attempted for domestic and foreign integrated journal database that is mainly subscribed, used, published and cited in Korea. Through reference construction volume and mapping rate improvement, it can be used as citation analysis and service database reflecting domestic situation that is different from overseas citation index database.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

실험 데이터로 사용한 참고문헌 분석결과 수록 학술지는 12,000여종이었는데 이들 학술지의 약어명이 10여만 개나 되었음을 지적하였다. 둘째 학술지 합병 분리로 변경된 학술지명으로 인용 분석을 수행하기 위한 데이터 처리의 어려움을 지적하였다. 셋째 저자들의 학술지명 기재 오타 문제를 지적하였다.
본 연구에서는 SCOPUS DB와의 참고문헌 매핑 수준을 비교하고자 내부 분석용으로 도입한 SCOPUS 데이터로 비교 분석하였다. SCOPUS에서도 논문과 참고문헌이 매핑된 경우 참고문헌 테이블에 논문 식별자(eID)가 기록되는데 이 건수를 측정한 결과 802,303,502건으로 전체 참고문헌 1,469,246,077의 54.
본 연구에서는 국내의 학술논문 참고문헌 데이터 구축 사례를 알아보고 인용 분석 활용이 가능한 수준으로 데이터 품질 제고 방안을 알아보고자 하였다.
매핑율 향상을 위해서는 보다 다양한 방법을 활용하는 것이 필요하다. 본 연구에서는 참고문헌 매핑율 향상 방안으로 학술지명 전거 데이터를 활용한 매핑 프로세스 개선과 글로벌 식별자인 DOI를 활용한 정기적 매핑 방안을 제시하였다. 특히 참고문헌의 매핑율을 높이기 위해서는 학술지명 전거 데이터를 지속적으로 구축하고 활용하는 것이 필수적이다.
본 연구에서는 한국과학기술정보연구원의 국가가용 학술논문DB (이하 e-Gate DB)를 대상으로 참고문헌 데이터 구축 과정을 살펴보고 매핑 오류 사례를 분석함으로써 참고문헌 데이터 구축시 과제와 품질 향상 방안을 모색해 보았다.
본 연구에서 사용한 데이터베이스 이외의 참고문헌 데이터베이스들의 매핑 기법과 성능 비교를 수행하지 못한 점은 한계로 남는다. 후속으로 논문과 참고문헌 매핑 효율을 더욱 제고하기 위해 다양한 매핑 방법과 기술을 적용하는 실증적 연구를 수행해 보고자 한다.

제안 방법

논문과 참고문헌 레코드를 비교하여 일치하면 매핑에 성공한 것으로 판단하고 참고문헌 레코드의 매핑 필드에 e-Gate DB의 논문 레코드 식별번호를 기록하여 참고문헌과 논문을 연결한다. 본 연구에서는 2018년 출판된 해외 학술논문 1,000건을 임의로 선정하여 참고문헌 자동 매핑을 수행하였다.
샘플링 기준은 참고문헌 게재지명이 "A"로 시작하는 전량으로 하였다. 매핑 실패 건과 일치하는 e-Gate DB내의 논문 데이터를 수작업으로 찾아 건별로 데이터 내용을 비교하였다. 비교 결과와 매핑 실패 원인을 기술하였으며 분석 완료 후 원인별로 그룹핑하였다.
본 연구에서는 통상적인 참고문헌 데이터 구축 절차에 따라 [그림 1]과 같이 참고문헌 데이터를 구축하고 논문(피인용 문헌)과 참고문헌(인용문헌)을 매핑하였고 미매핑 원인을 분석하였다.
매핑 실패 건과 일치하는 e-Gate DB내의 논문 데이터를 수작업으로 찾아 건별로 데이터 내용을 비교하였다. 비교 결과와 매핑 실패 원인을 기술하였으며 분석 완료 후 원인별로 그룹핑하였다.
참고문헌 데이터 구축시마다 참고문헌 레코드와 e-Gate DB 논문 데이터를 비교하여 일치하는 레코드가 있는지 조사한다. 비교 조건으로 참고문헌 레코드에 DOI가 있으면 충분하고, DOI가 없는 경우 참고문헌 레코드의 6개 항목과 기 구축되어 있는 논문 레코드의 해당 항목을 비교한다. 매핑 기준은 [표 1]과 같다.
둘째 학술지 합병 분리로 변경된 학술지명으로 인용 분석을 수행하기 위한 데이터 처리의 어려움을 지적하였다. 셋째 저자들의 학술지명 기재 오타 문제를 지적하였다. 이러한 문제는 선행연구가 수행된 1971년 이후 현재까지도 완벽한 해결책이 도출되지 못하고 있다.
참고문헌 데이터 구축시마다 참고문헌 레코드와 e-Gate DB 논문 데이터를 비교하여 일치하는 레코드가 있는지 조사한다. 비교 조건으로 참고문헌 레코드에 DOI가 있으면 충분하고, DOI가 없는 경우 참고문헌 레코드의 6개 항목과 기 구축되어 있는 논문 레코드의 해당 항목을 비교한다.
Eugene Garfield[9]는 Science Citation Index(SCI) 인용 분석 연구에서 학술지명 데이터 표기 다양성의 문제로 인한 인용 분석의 어려움을 밝혔다. 첫째 학술지 약어명 기재에 다양성 문제를 지적하였다. 실험 데이터로 사용한 참고문헌 분석결과 수록 학술지는 12,000여종이었는데 이들 학술지의 약어명이 10여만 개나 되었음을 지적하였다.
기존 참고문헌 소스 데이터와 구조가 다른 경우 파싱 오류가 발생하는데 이 경우 데이터 구조를 분석하고 로더를 수정한다. 파싱된 데이터는 항목별로 유효성 검사를 수행한다. 유효성에 오류가 있는 경우 소스 데이터를 재입수하여 구축한다.

대상 데이터

KISTI에 입수된 참고문헌 총 데이터는 741,020,621건이고 이 중 689,495,179건이 구조화된 데이터이다. 참고문헌 중 학술지 논문의 경우 구조화 비율 99.
e-Gate DB 구축에 사용되는 참고문헌 원형 데이터는 Crossref 및 해외 학술출판사로부터 입수하고 있다. 대부분 구조화된 데이터로 되어 있어 품질이 높다.
e-Gate DB의 자동 매핑 실패 19,505건 중 일부 1,394건을 샘플링 하여 실패 원인을 분석하였다. 샘플링 기준은 참고문헌 게재지명이 "A"로 시작하는 전량으로 하였다.
2017년부터는 참고문헌 데이터를 구축하고 있으며 2019년 7월 기준으로 7억4천만건의 참고문헌 데이터가 구축된 상태이다. 국내외 주요 색인 DB에 등재된 양질 학술지를 수록하고 있으며 논문 정보의 양도 방대하고 참고문헌 구축시 학술지명 전거, 인용 논문과의 매핑 등 가공 수준이 높아 본 연구의 대상으로 선정하였다.
논문과 참고문헌 레코드를 비교하여 일치하면 매핑에 성공한 것으로 판단하고 참고문헌 레코드의 매핑 필드에 e-Gate DB의 논문 레코드 식별번호를 기록하여 참고문헌과 논문을 연결한다. 본 연구에서는 2018년 출판된 해외 학술논문 1,000건을 임의로 선정하여 참고문헌 자동 매핑을 수행하였다.
김홍렬과 정경희[16]는 국내 참고문헌 데이터베이스 비교 연구에서 구축 대상 학술지 망라성 부족, 국내 참고문헌만을 대상으로 DB를 구축함으로 인한 인용빈도 및 지수 신뢰성 저하, 학술지 선정 기준의 모호성, 학술지명 전거 통제 부재 문제 등을 지적하였다. 본 연구의 분석 대상 데이터베이스는 국내외 학술지를 아우르는 망라성, 국내에서 주로 구독, 이용, 출판, 인용되는 국내외 학술지 중심의 선정 기준, 국내외 학술지명 전거 관리로 선행연구에서 지적한 문제점을 상당 부분 해소한 점에서 국내의 타 인용색인 데이터베이스와의 차별성이 있다.

성능/효과

4% 수준이다. KISTI가 연구용으로 구매한 SCOPUS 데이터 비교한 결과 SCOPUS DB의 논문과 참고문헌간의 매핑율은 54.6% 수준으로 나타났다. 본 연구에서 적용한 매핑 기준은 DOI가 있으면 충분조건이고 DOI가 없는 경우 학술지명, 논문명, 시작페이지, 출판년도, 권, 1저자의 성 등 6개 항목 완전 일치되는 경우에만 매핑되는 매우 엄격한 수준이다.
구희관 등[12]은 이러한 논문과 참고문헌간의 매핑율을 높이기 위하여 학술지명, 저자, 권호, 발행년도 등 7개 인용 필드의 데이터를 정규화하고 이를 검색엔진을 활용하여 TF/IDF 기반으로 인용 매칭 방법을 연구하였다. 게재페이지, 게재년도, 권/호, 저자명 중 하나와 논문제목을 결합한 경우와 저자명과 게재년도를 결합한 경우의 총 다섯 가지의 필드결합이 0.8 이상의 인용 매칭 성능을 보인 것으로 나타났다.
6% 수준으로 나타났다. 본 연구에서 적용한 매핑 기준은 DOI가 있으면 충분조건이고 DOI가 없는 경우 학술지명, 논문명, 시작페이지, 출판년도, 권, 1저자의 성 등 6개 항목 완전 일치되는 경우에만 매핑되는 매우 엄격한 수준이다. 따라서 참고문헌 원형 데이터의 오류나 일부 항목이 누락된 경우 매핑이 되지 않았다.
5%를 차지하였다. 셋째로는 참고문헌 매핑 대상 논문이 e-Gate DB 구축 비대상이기 때문으로 확인되었다. e-Gate DB는 Web of Science, SCOPUS, KCI 등재 학술지 중심으로 논문 레코드를 구축하고 있다.
첫째 학술지 약어명 기재에 다양성 문제를 지적하였다. 실험 데이터로 사용한 참고문헌 분석결과 수록 학술지는 12,000여종이었는데 이들 학술지의 약어명이 10여만 개나 되었음을 지적하였다. 둘째 학술지 합병 분리로 변경된 학술지명으로 인용 분석을 수행하기 위한 데이터 처리의 어려움을 지적하였다.
연구결과로 참고문헌 인용지수 검색 시스템을 구축하기 위해서는 논문의 선후관계를 파악할 수 있도록 정확한 매핑이 필요함을 주장하였다. 이를 위해 한의학 분야 학술지를 대상으로 참고문헌 데이터 형식을 통일하고 한의학 사전을 활용하여 데이터 구축시 오타를 자동 수정할 수 있는 시스템을 개발함으로써 매핑성능 수준을 측정한 결과 성능을 약 3.6% 개선하였다. 여기서 사용된 “자동 매핑”의 개념은 작업자가 참고문헌 데이터를 입력하여 구축하는 과정에서 작업자에게 이미 구축된 전통의학정보포털(OASIS) 논문 정보를 추천해주고 선택하게 함으로써 기 구축된 논문과 매핑 하는 방식으로 보인다.

후속연구

KISTI의 e-Gate DB의 참고문헌 데이터 구축 사례는 e-Gate DB를 활용한 학술 영향력 평가를 위한 마스터 DB로 활용가능성을 보여준다. e-Gate DB는 국내외 학술지를 포함하고 있으며(망라성), 국내에서 주로 구독, 이용, 출판, 인용되는 국내외 학술지를 수록하고 있고(선정 기준의 명확성), 국내외 학술지명 전거 관리를 하는 등 선행 연구에서 제기한 국내 인용색인 데이터베이스들의 문제점을 상당 부분 해소하였다.
국내외를 아우르는 학술지 논문 데이터베이스를 구축하는 국내의 공공기관은 한국과학기술정보연구원이 거의 유일하다. 근래 구축 개시한 해외 참고문헌 데이터를 활용하면 전 세계에 출판되는 국내 연구자들의 연구성과를 포괄적으로 분석하는 등 한국 상황에 최적화된 인용 분석과 서비스가 가능해 질 것으로 기대된다.
e-Gate DB는 논문 정보의 양이 많고 품질이 우수하며 KISTI의 NTIS DB, 국내학술지DB와 연계함으로써 한국 R&D 연구 성과에 특화된 분석에 매우 적합한 강점을 가지고 있다. 더불어 참고문헌 매핑율을 높임으로써 한국 상황에 맞는 다양한 학술적 연구 성과를 분석하고 서비스하는데 최적의 데이터베이스로 활용될 수 있을 것이다.
본 연구에서 사용한 데이터베이스 이외의 참고문헌 데이터베이스들의 매핑 기법과 성능 비교를 수행하지 못한 점은 한계로 남는다. 후속으로 논문과 참고문헌 매핑 효율을 더욱 제고하기 위해 다양한 매핑 방법과 기술을 적용하는 실증적 연구를 수행해 보고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	인용(Citation)의 목적?	캠브리지 사전[1]에서는 인용(Citation)을 저작물로부터 취해진 단어 또는 문자로 정의하고 있다. Wikipedia[2]에서는 인용(Citation)의 중요한 목적을 저자의 주장에 대한 근거 제시, 지적 도덕성 준수(표절 방지), 아이디어의 출처 명시 , 독자 스스로 판단할 수 있도록 근거 제시 등으로 제시하고 있다. Laborie와 Halperin[3]은 인용 분석을 색인, 초록 또는 학술지 등의 원 출판물을 인용하여 이용되거나 생산된 특정 주제 분야 문헌의 특성을 밝히는 것으로 정의하였다.
	인용 분석의 정의?	Wikipedia[2]에서는 인용(Citation)의 중요한 목적을 저자의 주장에 대한 근거 제시, 지적 도덕성 준수(표절 방지), 아이디어의 출처 명시 , 독자 스스로 판단할 수 있도록 근거 제시 등으로 제시하고 있다. Laborie와 Halperin[3]은 인용 분석을 색인, 초록 또는 학술지 등의 원 출판물을 인용하여 이용되거나 생산된 특정 주제 분야 문헌의 특성을 밝히는 것으로 정의하였다. 서울대학교 도서관 LibGuide[4]에는 인용(citation)을 하나의 저작물을 원저자를 밝히고 널리 알려진 형식을 사용하여 다른 저작물에 이용하는 행위로 정의되어 있다.
	디지털 객체 식별자(DOI)의 한계?	최근에는 국제 표준 디지털 객체 식별자(Digital Object Identifier, DOI)를 활용하여 논문과 참고문헌과의 매핑이 용이해졌다. 하지만 학술지에 따라 참고문헌에 DOI 기재를 의무화하지 않는 경우가 있고 DOI 오류도 있어 완벽한 매핑을 보장할 수는 없다. Xu 등[11]은 Web of Science의 참고문헌 데이터 중 DOI 오류 사례를 분석하였으며 대부분 (약 92%)의 오류는 DOI 접두사(prefix) 오류이나 전체적으로는 매우 다양한 유형의 오류가 있어 DOI 오류 데이터 정제(cleansing)가 용이하지 않음을 지적하였다.

참고문헌 (17)

https://dictionary.cambridge.org/ko/사전/영어/citation, 2019.8.16.
https://en.wikipedia.org/wiki/Citation, 2019.9.4.
T. Laborie and M. Halperin, "Citation Patterns in Library Science Dissertations," Journal of Education for Librarianship, Vol.16, No.4, pp.271-283, 1976.

상세보기
https://libguide.snu.ac.kr/citation, 2019.8.16.
L. Egghe and R. Rousseau, Introduction to Informetrics : quantitative methods in library, documentation and information science, Elsevier Science Publishers, 1990.
http://www.lisbdnet.com/citation-analysis, 2019.8.16.
박성미, "한국 통계학 문헌의 계량서지학적 분석," 정보관리학회지, 제5권, 제1호, pp.104-130, 1988.

원문보기 상세보기
https://www.endnote.com/downloads/styles, 2019.9.9.
E. Garfield, "Citation Analysis as a Tool in Journal Evaluation : Journals can be ranked by frequency and impact of citations for science policy studies," Science, Vol.178, No.4060, pp.471-479, 1972.

상세보기
한정민, 장현철, 김진현, 예상준, 김상균, 김철, 송미영, "학술논문의 참고문헌 자동매핑 방법에 관한 연구," 정보관리연구, 제41권, 제3호, pp.155-173, 2010.

원문보기 상세보기
S. Xu, L. Hao, X. An, D. Zhai, and H. Pang, "Types of DOI errors of cited references in Web of Science with a cleaning method," Scientometrics, Vol.120, No.3, pp.1427-1437, 2019.

상세보기
구희관, 정한민, 성원경, "인용 필드 정규화와 타입이 인용매칭에 미치는 영향," 한국콘텐츠학회논문지, 제8권, 제11호, pp.395-403, 2008.

원문보기 상세보기
P. M. Mongeon and A. Paul-Hus, "The journal coverage of Web of Science and Scopus: a comparative analysis," Scientometrics, Vol.106, No.1, pp.213-228, 2016.

상세보기
https://digital.csic.es/handle/10261/162452, 2019.11.14.
C. S. Wagner and S. K. Wong, "Unseen science? Representation of BRICs in global science," Scientometrics, Vol.90, No.3, pp.1001-1013, 2012.

상세보기
김홍렬, 정경희, "국내 참고문헌 데이터베이스 운영현황 및 실태에 관한 분석," 정보관리학회지, 제22권, 제2호, 2005.

원문보기 상세보기
D. Tkaczyk, P. Szostek, M. Fedoryszak, P. Dendek, and L. Bolikowski, "CERMINE: automatic extraction of structured metadata from scientific literature," International Journal on Document Analysis and Recognition, Vol.18, No.4, pp.317-335, 2015.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증