사용자의 국가 R&D 정보 이용 접근성 향상을 위한 큐레이션 서비스 : 이슈로 보는 R&D 사례를 중심으로 Curation Service to Improve User's Access to National R & D Information : Focusing on Issues R&D Service원문보기
국가 R&D 데이터는 기초과학 연구부터 산업화 부분까지 전 분야에 대한 정보를 포괄하고 있지만 전문적인 용어로 표현되며 이로 인해 대중의 이용에는 어려움이 있다. 이에 NTIS 는 국가 R&D 데이터를 이용한 데이터 큐레이션 서비스를 개발하여 국가적인 현안과 사회적 이슈에 대해 국가 R&D 정보를 선별하여 제공하고 있다. 이에 본 연구에서는 NTIS 의 데이터 큐레이션 서비스인 이슈로 보는 R&D 서비스 분석을 통해 국가 R&D 정보를 이용한 데이터 큐레이션 서비스 구축 방안을 제안하고자 하며 이 서비스가 국가 R&D 정보에 대한 사용자의 접근성 향상에 미친 영항도 분석하였다. 이슈로 보는 R&D 서비스는 뉴스기사에서 추출한 이슈와 관련된 국가 R&D 과제, 성과, 주요 연구기관 등을 매핑하여 정리, 제공한다. 패키징에 이용된 데이터는 모두 오픈되어 있고 관련 자료는 보고서 형식으로 정리돠어 PDF 파일로 제공된다. 또한 해당 프로세스를 자동화 하여 관리자 뿐 만 아니라 NTIS 이용자라면 누구나 개인적인 이슈패키징을 가능하게 하였다. 이 밖에 Special Issue 코너를 개설하며 주요 현안에 대한 사용자의 접근,이용 편의성을 높였고 코너 개설 이후 접속자의 페이지뷰가 증가한 것으로 나타났다.
국가 R&D 데이터는 기초과학 연구부터 산업화 부분까지 전 분야에 대한 정보를 포괄하고 있지만 전문적인 용어로 표현되며 이로 인해 대중의 이용에는 어려움이 있다. 이에 NTIS 는 국가 R&D 데이터를 이용한 데이터 큐레이션 서비스를 개발하여 국가적인 현안과 사회적 이슈에 대해 국가 R&D 정보를 선별하여 제공하고 있다. 이에 본 연구에서는 NTIS 의 데이터 큐레이션 서비스인 이슈로 보는 R&D 서비스 분석을 통해 국가 R&D 정보를 이용한 데이터 큐레이션 서비스 구축 방안을 제안하고자 하며 이 서비스가 국가 R&D 정보에 대한 사용자의 접근성 향상에 미친 영항도 분석하였다. 이슈로 보는 R&D 서비스는 뉴스기사에서 추출한 이슈와 관련된 국가 R&D 과제, 성과, 주요 연구기관 등을 매핑하여 정리, 제공한다. 패키징에 이용된 데이터는 모두 오픈되어 있고 관련 자료는 보고서 형식으로 정리돠어 PDF 파일로 제공된다. 또한 해당 프로세스를 자동화 하여 관리자 뿐 만 아니라 NTIS 이용자라면 누구나 개인적인 이슈패키징을 가능하게 하였다. 이 밖에 Special Issue 코너를 개설하며 주요 현안에 대한 사용자의 접근,이용 편의성을 높였고 코너 개설 이후 접속자의 페이지뷰가 증가한 것으로 나타났다.
National R & D data covers information in all fields from basic science research to industrialization, but it is expressed in technical terms, which make it difficult for the public to use. Accordingly, NTIS developed and launched the data curation service 'R&D issue service', which selects national...
National R & D data covers information in all fields from basic science research to industrialization, but it is expressed in technical terms, which make it difficult for the public to use. Accordingly, NTIS developed and launched the data curation service 'R&D issue service', which selects national R&D information on national and social issues and provides them to the public. Therefore, this study aims to analyze the effect of a data curation service on NTIS users' access to R&D data and suggest how to develop the curation service. The R&D issue service extracts issue from the news article and provide related national R&D projects, achievements and major research institute. All raw data used for the service are open to the public, organized in a report format and provided as PDF files. In addition, automative process is developed for all NTIS users to make individual issue packaging like administrator. The results show that 'R&D issue service' launching increases users' access and convenience to R&D data related to major issues, and the number of page views of users increased after the service was opened.
National R & D data covers information in all fields from basic science research to industrialization, but it is expressed in technical terms, which make it difficult for the public to use. Accordingly, NTIS developed and launched the data curation service 'R&D issue service', which selects national R&D information on national and social issues and provides them to the public. Therefore, this study aims to analyze the effect of a data curation service on NTIS users' access to R&D data and suggest how to develop the curation service. The R&D issue service extracts issue from the news article and provide related national R&D projects, achievements and major research institute. All raw data used for the service are open to the public, organized in a report format and provided as PDF files. In addition, automative process is developed for all NTIS users to make individual issue packaging like administrator. The results show that 'R&D issue service' launching increases users' access and convenience to R&D data related to major issues, and the number of page views of users increased after the service was opened.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 서비스는 각 기관에서 수행하고 있는 국가 R&D 정보를 사회 주요 이슈에 맞춰 큐레이션 하여 제공함으로써 이 전에는 접근과 이용이 어려웠던 국가 R&D 정보를 사용자 친화적으로 제공하였다는데 그 의의가 있다.
본 연구에서는 NTIS의 이슈로 보는 R&D 서비스 분석을 통해 국가 R&D 정보를 이용한 데이터 큐레이션 서비스 구축의 관점에서 상세 기술되었으며 구축된 서비스가 사용자의 접근성 향상에 미치는 영향에 대해서도 기술하였다.
이 점을 활용하여 이슈로 보는 R&D 에서는 일반 사용자가 일상에서 쉽게 접하고 있는 뉴스와 정책 동향에서 큐레이션의 주제가 되는 현안 및 이슈를 추출하고 이를 기반으로 관련된 국가 R&D 정보를 큐레이션 함으로써 일반 이용자가 국가 R&D 정보를 쉽게 접하고 이해할 수 있도록 하고자 하였다.
이를 위해 NTIS 의 이슈로 보는 R&D 서비스를 분석하고 이와 함께 데이터 큐레이션 서비스가 국가 R&D 정보에 대한 사용자의 접근성 향상에 미치는 영향에 대해서도 분석하고자 한다.
이에 본 연구에서는 국가 R&D 정보데이터를 바탕으로 큐레이션 서비스를 제공하고 있는 ‘이슈로 보는 R&D’ 서비스를 분석하고자 한다.
이에 본 연구에서는 데이터 큐레이션에 대해 데이터의 수집 관리 보다는 이용자의 활용에 보다 집중하여 ‘방대한 데이터 속에서 사용자가 필요로 하거나 가치 있는 정보를 선별하고 나열하여 사용자에게 보다 편하게 접할 수 있는 방법으로 제공하는 일련의 과정을 ’데이터 큐레이션‘ 으로 정의하고자 한다.
이에 본 연구에서는 특수한 성격을 띄고 있는 국가 R&D 정보를 이용한 데이터 큐레이션 서비스 구축 방안을 제안하고자 한다.
제안 방법
[표 1]과 같이 다양한 매체로부터 국가 R&D 연구 주제를 추출하기 위해 매일 기사 원문을 자동 수집한다.
이는 대형 과제일수록 다양한 연구 주제를 포함하고 있고 성과는 다양한 주제 중 한 가지에 초점을 맞 춰 도출될 수 있기 때문이다. 따라서 두 번째 방법에서는 과제 추출에 사용된 키워드를 검색 로직을 통해 성과 추출에 사용하여 실제로 관련 키워드들이 사용된 논문과 특허를 추출한다. 어떤 방법을 사용할지는 성과 정보를 활용하기 위한 조건에 따라 적절하게 수행한다.
NTIS 에서는 분석도구인 R을 기반으로 K-Means 계산법을 적용하여 분석한다. 이 과정에서 분석 대상이 되는 원문의 추출 기간, 클러스터링 개수 등 분석 결과에 영향을 미칠 수 있는 조건들을 큐레이션을 수행하는 관리자가 조정할 수 있도록 설계하였다.
이를 위해 우선 ‘이슈로 보는 R&D‘의 서비스 구조와 구축 절차 등을 설명하고 해당 서비스에 접근한 이용자의 페이지뷰 로그를 통해 사용자 접근성에 대해 분석하고자 한다.
이슈로 보는 R&D 서비스는 이용자가 일상에서 쉽게 접하는 뉴스 기사에서 사회적 이슈와 현안을 추출하여 이와 관련 있는 국가 R&D과제, 논문, 성과, 정책 동향, 주요 연구자 및 연구기관 등 국가 R&D정보를 매핑 하여 관련 현황을 요약된 형태로 제공하여 이용자가 R&D 분야에 대해 접근하는 장벽을 낮추고, 관련 현황 을 신속하게 파악할 수 있도록 하였다.
추가적으로 R&D 정보에 대한 이용자 친화적 서비스 제공을 위해 이용자가 직접 만드는 기능을 추가하여 이용자 관심 분야에 따라 관련 R&D 현황을 분석할 수 있도록 구현 하였다.
세 번째 단계는 해당 분야의 연구를 수행하는 연구자와 연구기관 정보이다. 추출된 과제를 수행한 연구책임자와 연구 수행기관을 추출하여 과제의 연구비를 기준으로 상위 연구자와 연구기관을 각각 20건을 추출하여 제공한다. 추가적으로 NTIS 참여인력 정보 API를 통해 과제를 수행한 주요 연구자의 기본 정보, 논문, 지식재산권, R&D참여과제, 저역서 등 상세 정보를 확인 할 수도 있다.
마지막으로 큐레이션 주제키워드가 포함된 정책 동향과 기술 동향을 패키징에 포함시킨다. 활용되는 정보는 정책브리핑에서 연계된 것과 NTIS 정책, 기술동향 DB에서 추출한 것으로 최근 1년을 기준으로 추출하여 이전 과정에서 추출된 과제, 논문, 특허, 정책 동향, 주요 연구자 및 연구기관 등을 함께 묶어 패키징 형태로 제공한다.
대상 데이터
앞선 단계에서 적정 과제 건수에 도달하면 관련 국가 R&D성과 정보를 추출한다.
서비스를 개시한 2014년부터 현재까지 패키징된 개수는 약 1,200 건으로 환경, 로봇, 인공지능, 바이오 등 매우 다양한 분야의 이슈가 서비스 되었다. 이렇게 서비스된 이슈의 연구 분야를 이슈 패키징에 포함된 과제의 과학기술표준분류 정보를 기준으로 분석하였으며 상위 20개 연구 분야이며 과학기술표준분류 중 중분류 데이터를 기준으로 하였다.
이론/모형
이렇게 필터링 과정을 거친 키워드를 기반으로 큐레이션 주제를 추출하기 위한 원문별 키워드셋(set)에 대해 클러스터링을 수행한다. NTIS 에서는 분석도구인 R을 기반으로 K-Means 계산법을 적용하여 분석한다. 이 과정에서 분석 대상이 되는 원문의 추출 기간, 클러스터링 개수 등 분석 결과에 영향을 미칠 수 있는 조건들을 큐레이션을 수행하는 관리자가 조정할 수 있도록 설계하였다.
또한, 이 과정에서는 정확하고, 활용 가능한 키워드를 추출하기 위해 국가 R&D 과제 정보를 기반으로 구축된 NTIS 국가 R&D 용어사전을 활용한다.
성능/효과
또한 [표 2]에서 볼 수 있듯이 비슷한 시기에 게시된 주제 중 Special Issue 에 그룹핑된 주제가 그렇지 않은 주제보다 평균 페이지뷰가 약 3배 더 많은 것으로 나타났다. 일반 이슈의 평균 페이지뷰가 Special Issue 코너 개설 전보다는 증가한 것으로 나타나며 해당 코너의 개설이 큐레이션 되어 제공되는 국가 R&D 정보에 대한 사용자의 접근성과 향상에 긍정적인 영향을 미쳤음을 보여준다.
이슈로 보는 R&D 서비스는 이용자가 일상에서 쉽게 접하는 뉴스 기사에서 사회적 이슈와 현안을 추출하여 이와 관련 있는 국가 R&D과제, 논문, 성과, 정책 동향, 주요 연구자 및 연구기관 등 국가 R&D정보를 매핑 하여 관련 현황을 요약된 형태로 제공하여 이용자가 R&D 분야에 대해 접근하는 장벽을 낮추고, 관련 현황 을 신속하게 파악할 수 있도록 하였다. 또한, 사용자의 서비스 활용성을 고려하여 패키징된 정보의 웹 서비스 뿐만 아니라 PDF 형태로 보고서를 다운 받거나 패키징 에 포함된 과제, 성과 정보를 엑셀 형태로 다운받을 수 있도록 구현함에 따라 사용자가 다양한 방법으로 활용 할 수 있도록 하였으며 Special Issue 코너를 개설하여 홈페이지 상단에 게시함으로써 주요 현안이슈에 대한 사용자의 접근 편의성을 높일 수 있도록 하였다.
두 번째 분야는 정보/통신 분야의 주제로 소프트웨어, 정보이론, 자동화기계, 컴퓨팅, 정보보호 등의 주제가 눈에 띄게 나타난 것을 볼 수 있었다. 실제 데이터를 살펴보면 로봇, 인공지능 관련 기술이 많이 언급된 것을 확인할 수 있었으며 이는 우리 사회에서 보건의료 그리고 정보통신 분야의 이슈가 주요사회 이슈로 떠오른 적이 많았다는 것을 보여준다.
[그림 5]에서 볼 수 있듯이 ‘이슈로 보는 R&D’ 에서 가장 많이 서비스된 주제는 보건의료 분야이다. 의약품 /의약품개발, 의생명과학, 임상의학, 치료/진단기기 등 보건의료와 관련된 주제가 제공된 것을 확인 할 수 있었다. 두 번째 분야는 정보/통신 분야의 주제로 소프트웨어, 정보이론, 자동화기계, 컴퓨팅, 정보보호 등의 주제가 눈에 띄게 나타난 것을 볼 수 있었다.
이처럼 국가 R&D 데이터를 사용자에게 보다 쉽게, 그리고 정확하게 이용할 수 있는 서비스를 구축함으로써 이를 통해 R&D 정보, 과학데이터 등 특수한 데이터에 대한 접근 편의성과 이용편의성을 높일 수 있는 프로세스와 그 효과를 제시하였다는 것에 의의가 있다.
일반 이슈의 평균 페이지뷰가 Special Issue 코너 개설 전보다는 증가한 것으로 나타나며 해당 코너의 개설이 큐레이션 되어 제공되는 국가 R&D 정보에 대한 사용자의 접근성과 향상에 긍정적인 영향을 미쳤음을 보여준다.
후속연구
또한 ‘코로나바이러스(Corona Virus)’의 연구경향을 알고 싶은 사람이라면 코로나 바이러스의 세계 피해상황에 대한 뉴스 정보 보다는 각 국가의 연구실적, 백신 연구, 특허 등의 정보가 필요할 것이다.
이는 서비스를 구축할 때 고려해야하는 목적에 있어서 서비스 접근성, 개방성과 데이터의 정확성, 폐쇄성이 상충하는 과정에서 유발되는 문제로서 향후 해당 서비스를 보다 정교화 하는 과정에서 보안해야 할 점이라고 생각되며 향후 이를 보안한 시스템 구축 방안에 대한 연구를 제안한다. 또한 본 연구의 경우 서비스의 구축과 접근 편의성 향상에 대한 분석이 이루어졌지만 실제 서비스를 이용한 사용자 분석은 이루어지지 못했다는 한계점이 있다. 이에 향후 추가 분석이 이루어진다면 서비스 접근, 사용 기록 외에 이용자의 심층인터뷰를 추가하여 보다 다각적인 분석을 시도해 보기를 제안한다.
또한 이로 인해 해당 서비스를 통해 제공되고 있는 큐레이션 데이터의 정확성과 통계적 유의성 면에서 한계가 있다는 단점이 있다. 이는 서비스를 구축할 때 고려해야하는 목적에 있어서 서비스 접근성, 개방성과 데이터의 정확성, 폐쇄성이 상충하는 과정에서 유발되는 문제로서 향후 해당 서비스를 보다 정교화 하는 과정에서 보안해야 할 점이라고 생각되며 향후 이를 보안한 시스템 구축 방안에 대한 연구를 제안한다. 또한 본 연구의 경우 서비스의 구축과 접근 편의성 향상에 대한 분석이 이루어졌지만 실제 서비스를 이용한 사용자 분석은 이루어지지 못했다는 한계점이 있다.
또한 본 연구의 경우 서비스의 구축과 접근 편의성 향상에 대한 분석이 이루어졌지만 실제 서비스를 이용한 사용자 분석은 이루어지지 못했다는 한계점이 있다. 이에 향후 추가 분석이 이루어진다면 서비스 접근, 사용 기록 외에 이용자의 심층인터뷰를 추가하여 보다 다각적인 분석을 시도해 보기를 제안한다.
추가적으로 NTIS 참여인력 정보 API를 통해 과제를 수행한 주요 연구자의 기본 정보, 논문, 지식재산권, R&D참여과제, 저역서 등 상세 정보를 확인 할 수도 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
큐레이션이란 무엇인가?
큐레이션(curation) 은 과거 전시품, 작품 등 을 수집 하여 소개하는 것을 일컫는 말로 주로 박물관, 미술관과 같은 곳에서 사용되며 자료 전시, 홍보 활동 등을 하는 사람을 일컫는 의미로 널리 쓰였다. 하지만 빅데이터 시대로 오며 예술품이 아닌 ‘데이터(data)’를 수집, 전시, 홍보하는 과정을 데이터 큐레이션(data curation)으로 표현한다.
데이터 큐레이션의 중요성이 높아지는 이유는 무엇인가?
또한 ‘코로나바이러스(Corona Virus)’의 연구경향을 알고 싶은 사람이라면 코로나 바이러스의 세계 피해상황에 대한 뉴스 정보 보다는 각 국가의 연구실적, 백신 연구, 특허 등의 정보가 필요할 것이다. 이처럼 빅데이터 시대에 지식정보 습득에 있어 중요한 것은 내가 알고자 하는 분야에 대해 얼마나 많은(how much)정보를 이용하는가 보다는 얼마나 정확한(how accurate) 정보를 적절하게(appropriate)이용하는가 이다. 이러한 이유로 생산된 데이터 중 이용자에게 필요한 정보를 찾아내고 배열하는 중간과정, 즉 ‘데이터 큐레이션(data curation)’ 의 중요성이 높아지고 있다.
주요 키워드란 무엇인가?
수집된 뉴스, 정책 동향은 텍스트 형태로 되어 있으며, 텍스트 원문으로부터 형태소 분석을 통해 주요 키워드를 추출한다. 여기서 주요 키워드란 수집한 원문 기사 내에서 빈도수가 높은 키워드들로 코로나바이러스, 미세먼지와 같은 키워드의 형태이다. 이때 추출된 주요 키워드는 이슈 주제의 후보가 되고, 다음 단계인 클러스터링 분석을 통해서 이슈 주제 후보로 선정된다.
참고문헌 (20)
P. J. Tichenor, G. A. Donohue, and C. N. Olien, "Mass media flow and differential growth in knowledge," Public opinion quarterly, Vol.34, No.2, pp.159-170, 1970.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.