$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

국가 감염병 공동R&D전략 수립을 위한 분류체계 및 정보서비스에 대한 연구: 해외 코로나바이러스 R&D과제의 분류모델을 중심으로
The Classification System and Information Service for Establishing a National Collaborative R&D Strategy in Infectious Diseases: Focusing on the Classification Model for Overseas Coronavirus R&D Projects 원문보기

지능정보연구 = Journal of intelligence and information systems, v.26 no.3, 2020년, pp.127 - 147  

이도연 (한국과학기술정보연구원 데이터분석본부) ,  이재성 (과학기술연합대학원대학교 과학기술경영정책학과) ,  전승표 (한국과학기술정보연구원 데이터분석플랫폼센터) ,  김근환 (한국과학기술정보연구원 데이터분석본부)

초록
AI-Helper 아이콘AI-Helper

세계는 신형 코로나바이러스 감염증(COVID-19)으로 수 많은 인명 피해와 경제적 손실을 기록하고 있는 상황이다. 우리나라 정부는 연구개발(Research & Development)을 통해 국가 감염병 위기를 극복하려는 전략을 수립하고 실행하기 위한 투자방향을 수립하였다. 기존 기술분류나 과학기술 표준분류에 따른 통계를 활용하면 특정 R&D 분야의 특이점 및 변화를 발견하기 어렵다는 한계가 존재해왔다. 최근 우리나라 감염병 연구개발 과제를 대상으로 수요자의 목적에 맞게 분류체계를 수립하고 연구비 비교 분석을 통해 투자가 요구되는 연구 분야를 제시하는 연구들이 진행되었다. 하지만 현재 국가 보건 안보와 신성장 산업육성이라는 목표를 달성하기 위한 실행방안으로 요구되고 있는 전염병 연구분야의 국가간 협력전략 수립에 필요한 정보를 체계적으로 제공하고 있지 못한 상황이다. 따라서 국가 공동 연구개발 전략 수립을 위한 분류체계와 분류모델기반의 정보서비스에 대한 연구가 요구되고 있다. 우선 감염병관련 NTIS 과제데이터를 기반으로 정성분석을 통해 7개의 분류체계를 도출하였다. 스코퍼스(Scopus) 데이터와 양방향 RNN모델을 사용하여, 분류체계 모델을 학습시켰다. 최종적인 모델의 분류 성능은 90%이상의 높은 정확도와 강건성을 확보하였다. 실증연구를 위해 주요 국가의 코로나바이러스 연구개발 과제를 대상으로 전염병 분류체계를 적용하였다. 주요 국가의 감염병(코로나바이러스) 연구개발 과제를 분류체계별로 분석한 결과, 세계적으로 유행하는 바이러스의 예상치 못한 창궐이 확산되는 속도에 비해 백신과 치료제 개발이 제대로 이뤄지지 않는 원인의 배경을 간접적으로 확인할 수 있었다. 국가별 비교분석을 통해 미국과 일본은 상대적으로 모든 영역에 골고루 연구개발 투자를 하고 있는 것으로 나타난 반면, 유럽은 상대적으로 특정 연구분야에 많은 투자를 하는 집중화 전략을 취하는 것으로 나타났다. 동시에 주요 국가의 코로나 바이러스 주요 연구조직에 대한 정보를 분류체계별로 제공하여 국제 공동R&D 전략의 기초정보를 제공하였다. 본 연구 결과를 통해 세 가지 정책적 의미를 도출할 수 있다. 첫째, 데이터기반 과학기술정책 관점에서 수요자 관심분야에 대한 국가 R&D사업의 정보를 글로벌 기준으로 문서를 분류하는 방안을 제시하였다. 둘째, 감염병관련 국가 R&D사업 영역에 대한 정보분석 서비스 기획의 기반을 마련하였다. 마지막으로 국가 감염병 R&D 분류체계 수립을 통해 분류 체계의 궁극적 목표인 산업, 기업, 정책 정보를 제공할 수 있는 기반을 마련한 것이다.

Abstract AI-Helper 아이콘AI-Helper

The world is suffering from numerous human and economic losses due to the novel coronavirus infection (COVID-19). The Korean government established a strategy to overcome the national infectious disease crisis through research and development. It is difficult to find distinctive features and changes...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 공통적으로 신·변종 감염병 대응을 위해 범부처 차원의 사전대비 R&D 강화, 국가/부처 간 협력 협업 내실화를 통한 국가 보건 안보를 강화하고 신성장 산업을 육성하려 목적을 담고 있다.
  • 국가 감염병 R&D와 관련된 연구개발 과제를 분류하기 위해 본 연구는 네델란드의 세계적인 학술논문 출판사인 엘스비어(Elsevier)가 관리하고 있는 스코퍼스(Scopus)의 DB (Database)에서 연구논문 데이터를 학습하는 분류 모델을 고안했다.
  • 따라서 본 연구는 현재 국가 정책 및 관련 연구자들의 최대 관심분야인 감염병을 대상으로 국가 보건 안보와 신성장 산업 육성이라는 목표를 달성하기 위한 실행방안으로 요구되고 있는 국가간 협력전략 수립에 필요한 기초정보를 제공할 목적으로 분류체계 및 문서 분류에 대한 방법론을 제안하고, 해외 코로나바이러스관련 국가 R&D 과제를 대상으로 실증분석을 수행하였다.
  • 불균형한 라벨의 분포를 갖고 있는 데이터를 학습한 모델은 왜곡된 분류 결과를 낳기 때문에 모델의 심각한 성능 저하를 야기한다. 따라서 본 연구에서는 이상의 문제를 개선하기 위해 데이터가 적은 표본을 더많이 추출하도록 하는 업 샘플링 (Up sampling)을 수행했다. 이때 주의해야할 점은 샘플링된 데이터는 학습에만 사용되야 한다는 점이다.
  • 본 연구에서는 감염병 질환을 대응하기 위한국가 방역과 관련된 R&D 전략분야에 대한 투자 전략 및 정책수립의 기초적인 토대로 삼을 수 있는 맞춤형 분류체계에 대한 필요성에 기반하여 기계학습 기반의 탐색적 연구를 수행하고자 하였다.
  • 둘째, 감염병관련 국가 R&D사업 영역에 대한 정보분석 서비스 기획의 기반을 마련하였다. 본 연구에서는 감염병관련 분류체계를 기반으로 국가간 비교 및 조직정보를 제공하는 실증을 통해 분석서비스의 구체적인 활용안을 제시하였다. 기존에 국내 R&D 과제 중심의 정보제공에서 해외 주요국가의 R&D과 제와의 동일한 기준으로 분석서비스 제공하는 방안을 제시하였다.
  • 정부 R&D 연구과제는 국가적 차원의 당면 과제 및 사회 현안을 해결하거나 전략기술이나 부상기술을 지원하기 위한 국가적 차원의 정책을 반영하므로 시의성(timeliness) 및 정시성(punctuality) 속성이 두드러지는 데이터인 반면, 출판된 연구논문은 각 분야의 전문가 조직 내에서 논의되고 있는 연구주제들을 고르게 다루고 있으며, 연구주제의 우수성을 기반으로 과학적 품질이 검증된 객관적인 연구결과가 축적된 다양한 학문분야의 학제 및 과학기술 연구분야를 구성하고 있는 신뢰성(reliability) 및 명확성(clarity) 속성이 뚜렷한 데이터이다. 본 연구에서는 국가 감염병 연구분야의 체계적이고 과학적인 분류체계 기반의 학습 모델을 구축하고자, 논문데이터의 과학분류체계인 ASJC (All Science Journal Classification)를 활용하여 단일화된 분류 체계 기준으로 과학적 품질이 검증된 객관적인 데이터를 수집하였으며, 이를 분류모델을 학습시키는데 활용하였다. 해당 모델을 개발하기 위해 순환 신경망 (Recurrent Neural Network, 이하 RNN)을 사용했다.
  • 본 연구의 목표는 우리나라 국가 감염병 R&D 관련 연구분야의 정책, 기획, 공동연구 전략, 예산 분배, 관리 및 운영의 효율성을 제고하기 위한 기초정보로 활용 가능한 정보의 제공이므로, 신뢰성 있는 감염병 관련 분류 체계의 기준을 설정하는 단계와 이러한 분류체계를 과학적 관점에서 체계적으로 잘 반영하는 데이터의 수집이 무엇보다 중요했다.
  • 이를 통해 관련 이해관계자들이 정책 효과를 예측하기 위해 요구되는 다양한 요인들과 함께, 해외 공동연구가 요구되는 정책적 특성이 필요한 감염병(코로나바이러스)관련 국가 R&D 현황 분석의 기반을 마련하고, 해외 주요 국가의 정부R&D사업을 분류체계에 따라 적용하여 분류체계별 해외 공동연구 조직에 대한 기초정보를 제공하여 감염병(코로나바이러스) R&D관련 이해관계자간 토론과 협의에 필요한 일관성 확보 및 체계적 관리의 초석을 제공하고자 하였다.
  • 이에 본 연구는 이러한 과학기술 분류기술을 응용해 국가 감염병 R&D와 관련된 연구분야를 분류하고자 하였다.
  • 왜냐하면 이상의 결과는 본 모델이 새로운 데이터임에도 불구하고 90% 이상의 정확도를 안정적으로 기록하여 상당히 강건한 것을 알 수있기 때문이다. 즉 다시 말해, 비록 본 모델을 학습하기 위해 관련 분류체계 별로 상응하는 논문 데이터를 수집한 뒤 모델을 학습했지만, 궁극적인 본 연구의 목적은 우리나라를 포함하는 여러 국가들의 연구개발 과제 데이터에 원하는 분류 체계를 성공적으로 할당하는데 있다. 따라서 전혀 새로운 연구개발 과제 데이터라고 해도 강건 하게 분류체계를 구분해내는 모델의 구축이 본 연구의 목적에 더 부합한다고 판단했다.
  • 지금까지 국가 R&D사업 투자 목적에 맞는 분류체계를 많은 연구에서 제시하였고, 감염병분야에서도 국내 연구개발 투자 자료를 바탕으로 목적에 맞는 분류체계를 수립하고 분석을 수행하여 의사결정에 필요한 정보를 제공하고자 하였다.

가설 설정

  • 그리고 서로 다른 초록의 길이를 고려해 추출된 단어의 차원을 512로 설정하였다. 예컨대 상대적으로 초록의 길이가 짧은 논문에서 추출된 단어의 개수는 상대적으로 초록의 길이가 긴 논문에서 추출된 단어의 개수 보다 작을 것이다. 본 연구에서는 이러한 문제를 개선하기 위해 추출된 단어의 차원을 모두 512로 고정시키고 최종적으로 34,983의 행과 512의 열을 가진 학습용 데이터를 정제할 수 있었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
워드 임베딩을 하기 위해서는 무엇을 해야하는가? 워드 임베딩이란단어를 벡터로 표현하기 위한 방법으로 희소 표현된 벡터들을 밀집 표현된 벡터로 변환하는 것을 목표로 한다. 이를 위해서는 먼저 긴 문장의 텍스트를 단어 단위로 토큰화 (Tokenization)시켜야 한다. 이때 단어 토큰화를 수행하기 위해서각 단어가 어떤 유형의 품사 정보인지를 나타내는 포스태깅(Part of speech) 분석을 통해 이를 파싱하는 태깅 작업 (Tagging Task)을 수행하게 된다. 본 연구에서는 이상의 과정을 통해 학습 데이터에서 추출된 단어 중 상위 빈도 15,000번까지만 사용했다.
자료 분류란? 자료 분류란 “사물이나 현상, 개념 등을 유사한 것은 모으고, 상이한 것은 구분하여 체계화하고, 그 결과 분류된 사상의 명칭이 체계적으로 배열된 표”로 정의된다 (Seo and Kim, 2015). 특히, 국가 R&D사업을 특정 분야 및 정책적 목적에 맞게 분류하고, 분류된 정보를 활용하여 연구개발 투자의 효율화와 과학기술정책의 효과를 증진시키기 위한 많은 연구들이 진행되어져 왔다.
기계학습 기반의 분류 모델의 장점은 무엇인가? 이와 관련된 연구는 강력한 컴퓨팅 파워를 기반으로 하는 기계학습에 기반을 두고 이루어지고 있다(Yang, 1999; Sebastiani, 2002). 이러한 기계학습 기반의 분류 모델은 전문가의 정성적 판단에 근거한 도메인 지식에 상대적으로 독립적이고, 보다 많은 양의 정보를 분류해 낼 수 있다는 장점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (29)

  1. Chen, T.-K., H.-H. Liao, and H.-J. Kuo, "Internal liquidity risk, financial bullwhip effects, and corporate bond yield spreads: Supply chain perspectives", Journal of Banking & Finance, Vol.37, No.7(2013), 2434-2456. 

  2. Foltz, P.-W., and S.-T. Dumais, "Personalized information delivery: An analysis of information filtering methods", Communications of the ACM, Vol.35, No.12(1992), 51-60. 

  3. Hankookilbo, Live Issue, 2020. Available at https://www.hankookilbo.com/News/Read/A2020081406480005122 (Access 15 August, 2020). 

  4. Hong, S-K, "Research on classification criteria for national R&D projects for systematic information provision", Research Report, Korea Institute of Science and Technology Evaluation and Planning, 2016. 

  5. Houseman, E.-M., and D.-E. Kaskela, "State of the art of selective dissemination of information", IEEE Trans. Eng. Writing Speech III, (1970), 78-83. 

  6. Jeong, H., Y.-K. Kim, and J. Kim, "An evaluationcommittee recommendation system for national R&D projects using social network analysis", Cluster Computing, Vol.19, No.2(2016), 921-930. 

  7. Joseilbo, Economic news, 2020. Available at http://www.joseilbo.com/news/htmls/2020/07/20200723402630.html (Access 15 August, 2020). 

  8. Kwak S.-J., H.-Y. Lee, "A Study on Classification and Metadata for R&D Reports in the Field of Energy", Annals of Social Science, Vol.24, No.2(2013), 361-378. 

  9. Kim J., C. Yeo, "New infectious disease crisis response technology (diagnosis, treatment, vaccine)", Research Report, Korea Advanced Institute of Science and Technology Evaluation, 2020. 

  10. Kim J.-W., H.-I. Jo, B.-G. Lee, "A Comparison Study on Performance of Malicious Comment Classification Models Applied with Artificial Neural Network", Journal of Digital Contents Society, Vol. 20, No. 7(2019), 1429-1437. 

  11. Kim S., C. Kim, H. Jang, S. Ye, M. Song, "A Classification for Research Projects in Oriental Medicine Field", Journal of the Korean society for information management, Vol.25,No.4(2008), 309-326. 

  12. Korea Centers for Disease Control and Prevention, "Implementing national emergency response strategy: A study on R&D execution plan and new project planning". 2020. 

  13. Korea Health Industry Development Institute, "New Convergence Industry Discovery Research (Convergence Technology): Classification System Study of HT Convergence Technology". 2015. 

  14. Lee, D, J. Kang, K. Kim, "Global collaboration research strategies for sustainability in the post COVID-19 era: analyzing virology-related national-funded projects", Sustainability, Vol.12(2020), 6561. 

  15. Ma, J., Gao, W., Mitra, P., Kwon, S., Jansen, B. J., Wong, K. F., and M. Cha, "Detecting rumors from microblogs with recurrent neural networks", Proceedings of the 25th International Joint Conference on Artificial Intelligence, (2016), 3818-3824. 

  16. Mikolov, T., M. Karafiat, L. Burget, J. Cernocky, and S. Khudanpur, "Recurrent neural network based language model", INTERSPEECH 2010 11th Annual Conference of the International Speech Communication Association, (2010), 1045-1048. 

  17. Ministry of Economy and Finance, "Held the 3rd Emergency Economy Central Countermeasure Headquarters Meeting (Infectious Disease Response Industry Promotion Plan)", 2020. Available at http://www.moef.go.kr/nw/nes/detailNesDtaView.do?searchBbsIdMOSFBBS_000000000028&searchNttIdMOSF_000000000036711&menuNo4010100 (Access 15 August, 2020). 

  18. Ministry of Health and Welfare, "A Study on the Research Plan for the Drive Plan of Multi-Agency R&D Program to Implement the National Responding strategy of Infectious Diseases", 2019. 

  19. Ministry of Science and ICT, "2021 Government R&D investment direction and standard revision", 2020. 

  20. Moon, S.-Y, "Classification scheme of biotechnology R&D for strategic budget allocation", Research Report, Korea Institute of Science and Technology Evaluation and Planning, 2015. 

  21. Sebastiani, F., "Machine learning in automated text categorization", ACM Computing Surveys, Vol.34, No.1(2002), 1-47. 

  22. Seo, T. and B. Kim, "Understanding classification, thesaurus, and ontology for information services", Research Report, Korea Institute of Science and Technology Information, 2015. 

  23. Seok, K., "Smoothing parameter selection in semi-supervised learning", Journal of the Korean Data & Information Science Society, Vol.27, No.4(2016), 993-1000. 

  24. Sohn, S.-H., and B.-K. Yoo, "New drug classification system in accordance with global harmonization", Korean Journal of Clinical Pharmacy, Vol.22, No.3(2012), 260-267. 

  25. Tang, J., S. Wu, J. Sun, and H. Su, "Cross-domain collaboration recommendation", Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, (2012), 1285-1293. 

  26. Tian, Q., J. Ma, J. Liang, R.-C. Kwok, and O. Liu, "An organizational decision support system for effective R&D project selection", Decision support systems, Vol.39, No.3(2005), 403-413. 

  27. Trappey, A.-J., C.-V. Trappey, C.-Y. Wu, C.-Y. Fan, and Y.-L. Lin, "Intelligent patent recommendation system for innovative design collaboration", Journal of Network and Computer Applications, Vol.36, No.6(2013), 1441-1450. 

  28. Xu, W., J. Sun, J. Ma, and W. Du, "A personalized information recommendation system for R&D project opportunity finding in big data contexts", Journal of Network and Computer Applications, Vol.59 (2016), 362-369. 

  29. Yang, Y, "An evaluation of statistical approaches to text categorization", Inform. Retr. Vol.1(1999), 69-90. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로