과학기술정보 서비스 지원을 위한 지식 공유 플랫폼 - 데이터, 기술 S/W 및 활용 사례를 중심으로 A Study on Knowledge Open Platform for Science and Technology Information Service: With a Focus on Data, Technology Software and Utilization-Case원문보기
과학기술정보 서비스를 효율적으로 지원하기 위해서는 동일한 콘텐츠와 기술을 상호 공유할 수 있는 과학기술정보만의 플랫폼이 필요하다. 따라서 본 논문에서 다양한 콘텐츠 및 기술을 공통의 활용 요소로 사용할 수 있는 플랫폼을 설계함으로써 신속하고 효율적인 서비스를 지원하고자 한다. 더불어 과학기술 데이터와 기술들을 용도에 따라 활용할 수 있는 플랫폼 환경 체제에서의 다양한 API 활용 사례를 제시하였다. 이를 통해 각종 콘텐츠와 기술들은 플랫폼 상에서 API Gateway를 통해 상호작용하고 식별된 연구자, 기관, 용어 데이터를 중심으로 과학기술콘텐츠를 융합할 수 있을 것이다.
과학기술정보 서비스를 효율적으로 지원하기 위해서는 동일한 콘텐츠와 기술을 상호 공유할 수 있는 과학기술정보만의 플랫폼이 필요하다. 따라서 본 논문에서 다양한 콘텐츠 및 기술을 공통의 활용 요소로 사용할 수 있는 플랫폼을 설계함으로써 신속하고 효율적인 서비스를 지원하고자 한다. 더불어 과학기술 데이터와 기술들을 용도에 따라 활용할 수 있는 플랫폼 환경 체제에서의 다양한 API 활용 사례를 제시하였다. 이를 통해 각종 콘텐츠와 기술들은 플랫폼 상에서 API Gateway를 통해 상호작용하고 식별된 연구자, 기관, 용어 데이터를 중심으로 과학기술콘텐츠를 융합할 수 있을 것이다.
In order to support the service efficiently, a Science and Technology information platform that can share the same contents and technologies is needed. Therefore this study develop a platform that can use various contents and technologies as a common utilization factor, and support a fast and effici...
In order to support the service efficiently, a Science and Technology information platform that can share the same contents and technologies is needed. Therefore this study develop a platform that can use various contents and technologies as a common utilization factor, and support a fast and efficient service. In addition, It suggest examples of various APIs in a platform environment system that can utilize scientific data and technologies in various forms according to their use. Throughout the studies, various contents and technologies will be able to connect and interact with each other through the API Gateway on the platform, as well as to integrate Science and Technology contents based on identified researchers, institutions, and terminology data.
In order to support the service efficiently, a Science and Technology information platform that can share the same contents and technologies is needed. Therefore this study develop a platform that can use various contents and technologies as a common utilization factor, and support a fast and efficient service. In addition, It suggest examples of various APIs in a platform environment system that can utilize scientific data and technologies in various forms according to their use. Throughout the studies, various contents and technologies will be able to connect and interact with each other through the API Gateway on the platform, as well as to integrate Science and Technology contents based on identified researchers, institutions, and terminology data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구는 NDSL, NTIS, 국립중앙도서관, 국회도서관, 대학도서관 등에서 다양한 서비스를 개발하는 데 핵심이 되는 B2B의 플랫폼, 즉 S&T 지식 공유 플랫폼을 구현하였다. 이는 국가 과학기술정보의 유통 및 확산을 위한 핵심플랫폼으로서의 역할을 수행하고 다양한 연계․융합 콘텐츠를 기반으로 사회현안 문제 해결과 같은 새로운 정보서비스의 고부가 가치를 창출할 수 있을 것이다.
또한 데이터, 기술, S/W 및 Open API와 B2B(Business-to-Business)시 중심의 플랫폼을 개발할 필요가 있다. 따라서 본 연구에서는 다양한 콘텐츠 및 기술을 공통의 활용 요소로 사용할 수 있는 플랫폼을 설계함으로써 신속하고 효율적인 서비스를 지원하고자 한다.
본 연구에서는 과학기술정보 서비스를 상호 공유하기 위하여 데이터, 기반기술 S/W 및 관계기반 분석 모델을 개발하고 플랫폼에서 활용할 수 있는 구조로 설계하였다.
예를 들면 개체식별 커널 S/W, 딥러닝 기반 개체명인식기 시스템 등과 같은 것이다. 이와 같은 S/W 시스템도 직접 다운로드 받아서 사용할 수 있지만 Open API 형태를 만들어서 제공하고자 한다.
따라서 S&T 지식 공유 플랫폼에서는 구축된 기관 정보 데이터베이스에 기반을 둔 자동식별 알고리즘을 사용한 방법[23]-[24]에 의한 식별 결과를 사용하였다. 현재 KISTI에서 보유하고 있는 학술정보 인물(연구자), 기관(소속정보), 용어(주제어)의 의미 중의성을 해소하기 위하여 고유 식별자를 부여하는 개체식별기술을 개발하였다. 이를 통해 학술정보에 대한 개체식별 정확성을 94.
제안 방법
오픈 사이언스는 과학 연구의 결과와 과정을 누구나 활용할 수 있도록 공유 및 개방하자는 운동으로 R&D의 새로운 패러다임이다. 과학계에서 공적 자금이 투입된 연구결과자료(출판물, 데이터 등)를 디지털화된 형식으로 공개함으로써, 연구성과 및 과정에 대한 후속 검증, 추가 연구, 새로운 연구 방법 개발 및 다양한 연구 협력 네트워크 형성을 가능하게 하였다. 이는 개방적 연구협력을 도모하는 다양한 활동과 과학의 긍정적 외부 효과를 제고하기 위한 활동들을 개념화하는데 활용되고 있다.
과학기술관련 서비스 지원 기술 및 Open API를 동시에 제공한다. 또한 데이터와 API를 매쉬업한 활용 사례를 제공함으로써 과학기술관련 분야의 서비스 개발 활용에 용이하도록 플랫폼을 개발하였다.
문서와 인물, 기관, 용어 개체 간에 상호 식별 연계된 데이터들을 활용하면 다양한 분석서비스를 만들 수가 있다. 또한 분석 모델들도 모듈형태의 Open API로 제공하여 향후에 과학기술분야의 개발자들이 쉽게 활용할 수 있도록 설계하였다. 즉 데이터, 기반 S/W 및 네트워크 분석모델들을 API로 만들어 API Gateway에 탑재하여 많은 개발자들이 사용할 수 있도록 하였다.
본 연구에서 제안하는 S&T 지식 공유 플랫폼은 인물, 기관, 용어를 주요 식별 개체로 선정하고, 각 개체별로 식별 기술을 자체 개발하여 과학기술콘텐츠에 대한 식별 데이터를 구축-응용-연계하여 관련 지식을 확장시키고자 하였다.
<그림 7>은 S&T 지식플랫폼에서 제공하는 사회이슈 탐지 API를 활용한 결과이다. 사회이슈 탐지 API을 호출하거나(혹은 사용자의 관심 질의어를 직접 입력하면 해당 질의어에 대한 관련 연관어를 제시한다. 연관어는 KISTI에서 보유하고 있는 콘텐츠(해외과학기술동향정보, 논문, 특허, 보고서)을이용하여 word2vec를 통해 미리 추출한 것을 이용하여 만든 API이다.
<그림 4>에서 보는 바와 같이 이용자들이 데이터를 상호공유할 수 있도록 파일을 업로드하고 공유 데이터의 과학기술 표준 분류와 DOI(Digital Object Identifier), 공개일자 및 데이터 버전별로 관리할 수 있는 기능들을 구축하였다. 개발자들은 이를 통해 데이터 설명을 위한 제목, 내용, 작성자, 소속기관, 키워드 등의 메타데이터를 기술하고 라이센스 정보에 대한 접근권한 설정 및 데이터 라이센스 정보를 등록할 수 있다.
또한 분석 모델들도 모듈형태의 OpenAPI로 제공하면 향후에 과학기술분야의 개발자들이 쉽게 활용할 수 있다. 이에 따라 데이터, 기반 S/W 및 네트워크 분석모델들을 API로 만들고 API Gateway에 탑재하여 다른 개발자들이 사용할 수 있도록 하였다.
또한 분석 모델들도 모듈형태의 Open API로 제공하여 향후에 과학기술분야의 개발자들이 쉽게 활용할 수 있도록 설계하였다. 즉 데이터, 기반 S/W 및 네트워크 분석모델들을 API로 만들어 API Gateway에 탑재하여 많은 개발자들이 사용할 수 있도록 하였다.
<그림 6>은 S&T지식플랫폼에서 제공하는 자동 핵심 키워드 추출 API 및 시각화 API를 활용한 사례이다. 즉 사용자가 검색한 논문의 초록이나 직접 입력한 텍스트 데이터에 대해서 핵심 키워드를 추출하는 API를 호출할 경우 호출된 API는 API 게이트웨이를 통해서 호출 후 그 결과 값을 반환하고 결과 값을 이용하여 시각화 API를 다시 호출하여 핵심 키워드에 대한 워드 클라우드를 UI/UX로 표출함으로써 사용자들의 사용편의성을 강화하고자 하였다.
대상 데이터
마지막, ‘관계기반 분석 모델 공유’는 인물, 기관, 용어와 연구 성과물(논문, 특허, 보고서) 데이터들이 상호 식별 연계된 네트워크 데이터들이다. 문서와 인물, 기관, 용어 개체 간에 상호 식별 연계된 데이터들을 활용하면 다양한 분석서비스를 만들 수 있다.
이론/모형
두 번째 단계는 문장 내 각 개체들이 어떠한 타입으로의 태깅이 적합한지를 선택하는 모호성 해결(disambiguation)이다. 대체로 개체 식별 연구는 ERD의 프로세스를 따른다.
따라서 S&T 지식 공유 플랫폼에서는 구축된 기관 정보 데이터베이스에 기반을 둔 자동식별 알고리즘을 사용한 방법[23]-[24]에 의한 식별 결과를 사용하였다.
성능/효과
둘째, ‘기반 기술 S/W 공유’는 KISTI에서 가지고 있는 기반기술 소프트웨어를 공유하는 것이다. 예를 들면 개체식별커널 S/W, 딥러닝 기반 개체명인식기 시스템 등을 직접 다운로드받을 수 있는 형태로 제공하기보다 Open API 형태로 만들어서 제공하였다.
여기서 데이터란 S/W, 데이터셋(DataSet), 이미지, 영상, 논문 등으로 오픈할 수 있는 다양한 파일들을 의미한다. 셋째, 사용자들이 등록하고 공개한 Open API의 상세정보를 확인할 수 있다. 넷째, 활용 갤러리는 S&T 지식 공유 플랫폼에서 제공하는 데이터와 Open API를 결합한 서비스 사례이다.
현재 KISTI에서 보유하고 있는 학술정보 인물(연구자), 기관(소속정보), 용어(주제어)의 의미 중의성을 해소하기 위하여 고유 식별자를 부여하는 개체식별기술을 개발하였다. 이를 통해 학술정보에 대한 개체식별 정확성을 94.79% 확보하고 공저 사전 및 기관, 용어 식별데이터를 식별 자질요소로 활용하여 정확성을 향상시켰다.
오픈 사이언스의 역할은 다음과 같이 정의할 수 있다. 첫째, 지금까지의 연구 수법을 대체하는 것이 아니라, 종래의 연구 방법에 대해 새로운 연구 방법을 제시하고 과학의 새로운진전을 도모한다. 둘째, 과학계에서는 연구자 간 또는 연구 분야를 넘어 데이터 구동형 대응이 가속화함으로써, 새로운 협업, 새로운 연구 방법이 확산한다.
후속연구
셋째, 공적 연구 자금에 의한 연구 성과로서 얻어진 논문이나 연구 데이터로의 접근을 가능하게 한다. 넷째, 국제적으로 연구자간 중복 연구를 줄이고 대규모의 경제를 도모하는 등 연구 효율성을 제고한다. 다섯째, 연구결과를 보다 정확하게 검증하고 연구성과의 파급효과를 증대시킬 뿐만 아니라 국제연구협력을 증진시킨다.
넷째, 국제적으로 연구자간 중복 연구를 줄이고 대규모의 경제를 도모하는 등 연구 효율성을 제고한다. 다섯째, 연구결과를 보다 정확하게 검증하고 연구성과의 파급효과를 증대시킬 뿐만 아니라 국제연구협력을 증진시킨다.[7]
질의응답
핵심어
질문
논문에서 추출한 답변
ERD에서의 개체 식별 프로세스의 두 번째 단계는 무엇인가?
ERD에서의 개체 식별 프로세스는 2단계로 구성되는데 첫 번째 단계는 텍스트 내에 존재하는 개체 후보를 탐지하는 발견(spotting)이다. 두 번째 단계는 문장 내 각 개체들이 어떠한 타입으로의 태깅이 적합한지를 선택하는 모호성 해결(disambiguation)이다. 대체로 개체 식별 연구는 ERD의 프로세스를 따른다.
정부 · 공공기관이 보유한 데이터를 공유하기 위한 플랫폼으로 어떤 것들이 있는가?
정부 · 공공기관이 보유한 데이터를 공유하기 위한 플랫폼으로는 대표적으로 CKAN[3]과 Socrata[4]가 있다. CKAN은 비영리 단체인 Open Knowledge Foundation (OKF)에의해 개발되었으나 영국, 미국, 캐나나 등 40개 이상 국가에서 널리 활용 중이다.
오픈 사이언스이란 무엇인가?
오픈 사이언스는 과학 연구의 결과와 과정을 누구나 활용할 수 있도록 공유 및 개방하자는 운동으로 R&D의 새로운 패러다임이다. 과학계에서 공적 자금이 투입된 연구결과자료(출판물, 데이터 등)를 디지털화된 형식으로 공개함으로써, 연구성과 및 과정에 대한 후속 검증, 추가 연구, 새로운 연구 방법 개발 및 다양한 연구 협력 네트워크 형성을 가능하게 하였다.
참고문헌 (24)
2e Consulting. The concept of Open Science[Internet]. Avilable: http://www.2e.co.kr/hp/pages/share/ShareView. php?modsrl5913&docsrl116433&datatypesms.
S.G. Jang, "Open Innovation is evolving," LG Business Insight, Vol. 3, No. 2, pp. 40-48, February 2016.
Y. P. Chiu, Y. S. Shih, Y. Y. Lee, C. C. Shao, M. L. Cai, S. L. Wei and H. H. Chen, "NTUNLP approaches to recognizing and disambiguating entities in long and short text at the ERD challenge 2014," In Proceedings of the first international workshop on Entity recognition & disambiguation, ACM., pp. 3-12, 2014.
P. Kanani, A. McCallum, "Efficient strategies for improving partitioning-based author coreference by incorporating Web pages as graph nodes," In Proceedings of AAAI 2007 workshop on information integration on the Web, California, USA: pp. 38-43, 2007.
K. H. Yang, J. Y. Jiang, H. M. Lee, and J. M. Ho, J. M, "Extracting citation relationships from web documents for author disambiguation," Technical Report, 2006.
H. Han, L. Giles, H. Zha, C. Li and K. Tsioutsiouliklis, "Two supervised learning approaches for name disambiguation in author citations," In Digital Libraries, Proceedings of the 2004 joint ACM/IEEE conference on IEEE, pp. 296-305, 2004.
M. Yoshida, M. Ikeda, S. Ono, I. Sato and H. Nakagawa, "Person name disambiguation by bootstrapping," Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland: pp. 10-17, 2010.
X. Yang, P. Jin and W. Xiang, "Exploring Word Similarity to Improve Chinese Personal Name Disambiguation," In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2011 IEEE/WIC/ACM International Conference on IEEE, Lyon, France: pp. 197-200, 2011.
J. W. Seol, S. H. Lee and K. W. Kim, "Author Disambiguation using Co-Author Network and Supervised Learning Approach in Scholarly Data," Journal of Software Engineering and Its Applications, Vol. 10, No. 4, pp.73-82, 2016.
S.-H. Lee, "A Study on the Construction of Identified Data of Author's Affiliation in Academic Papers," Journal of the Institute for Social Sciences, Vol. 25, No. 4, pp. 391-410, 2014.
S. H. Lee, S. J. Kwak, "A Study on the Construction for Name Authority Data of the Korean Academic Papers," Journal of the Korean Biblia Society for Library and Information Science, Vol. 21, No. 1, pp. 105-118, 2010.
S. H. Lee, S. J. Kwak, "Development and Evaluation of Authority Data based Academic Paper Retrieval System," Journal of the Society for Library and Information Science, Vol. 46, No. 2, pp. 133-156, 2012.
E. Caron, H. Daniels, "Identification of Organization Name Variants in Large Databases using Rule-based Scoring and Clustering With a Case Study on the Web of Science Database," In Proceedings of the 18th International Conference on Enterprise Information Systems, Rome, Italy: pp. 182, 2016.
J. Y. Kim, S. H. Lee, D. J. Suh, K. Y. Kim and J. S. Yoon, "A Study on the Identification Algorithm for Organization's Name of Author of Korean Science & Technology Contents," Journal of Digital Contents Society, Vol. 18, No. 2, pp. 373-382. 2017.
J. Y. Kim, S. H. Lee, D. J. Suh and K. Y. Kim, "A Study on the Method and System for Organization's Name Authorization of Korean Science and Technology Contents," Journal of Digital Contents Society, Vol. 17, No. 6, pp. 555-563, 2016.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.