국가연구개발(R&D, Research and Development) 정보는 정부부처로부터 발주되는 사업 과제를 수행하는 과정에서 발생되는 다양한 연구분야의 정보들이 포함되어 있다. 따라서 효율적인 R&D정보 검색을 위해서는 이러한 국가R&D정보의 특성을 반영할 수 있는 국가R&D 전문용어사전 구축이 필요하다. 본 연구에서는 국가R&D정보에서 연구분야를 명시하기 위해 활용되는 국가과학기술표준분류를 적용하여 국가R&D용어사전을 구축하기 위한 방안을 제안한다. 국가R&D 과제정보의 구조적 특성과 그에 따른 과제 키워드의 유용성에 대해 언급하고, 국가과학기술표준분류별 국가R&D정보 현황과 국가R&D 용어의 특성에 대해 살펴보고자 한다. 그리고 이를 바탕으로 국가R&D용어사전을 구축하기 위한 방법을 용어사전의 유형과 구조, 사전구축 절차, 정제규칙의 관점에서 정의한다. 본 연구를 기반으로 구축되는 국가R&D용어사전은 국가R&D정보 검색 시 한 영 대역어, 동의어 등을 활용한 검색어 확장과 국가과학기술표준분류를 활용한 검색 범위 명확화, 용어설명 정보를 활용한 이용자 편의기능 제공 등에 다양하게 활용될 수 있다.
국가연구개발(R&D, Research and Development) 정보는 정부부처로부터 발주되는 사업 과제를 수행하는 과정에서 발생되는 다양한 연구분야의 정보들이 포함되어 있다. 따라서 효율적인 R&D정보 검색을 위해서는 이러한 국가R&D정보의 특성을 반영할 수 있는 국가R&D 전문용어사전 구축이 필요하다. 본 연구에서는 국가R&D정보에서 연구분야를 명시하기 위해 활용되는 국가과학기술표준분류를 적용하여 국가R&D용어사전을 구축하기 위한 방안을 제안한다. 국가R&D 과제정보의 구조적 특성과 그에 따른 과제 키워드의 유용성에 대해 언급하고, 국가과학기술표준분류별 국가R&D정보 현황과 국가R&D 용어의 특성에 대해 살펴보고자 한다. 그리고 이를 바탕으로 국가R&D용어사전을 구축하기 위한 방법을 용어사전의 유형과 구조, 사전구축 절차, 정제규칙의 관점에서 정의한다. 본 연구를 기반으로 구축되는 국가R&D용어사전은 국가R&D정보 검색 시 한 영 대역어, 동의어 등을 활용한 검색어 확장과 국가과학기술표준분류를 활용한 검색 범위 명확화, 용어설명 정보를 활용한 이용자 편의기능 제공 등에 다양하게 활용될 수 있다.
National research and development(R&D) information is information generated in the process of performing R&D based on programs and projects issued by national government departments, and includes information from various research fields as ordered by various departments. Therefore, for efficient R&D...
National research and development(R&D) information is information generated in the process of performing R&D based on programs and projects issued by national government departments, and includes information from various research fields as ordered by various departments. Therefore, for efficient R&D information retrieval, it is necessary to build a national R&D terminology dictionary that can reflect the characteristics of such national R&D information. In this study, we propose a method for constructing a national R&D terminology dictionary by applying the classification of science and technology standards used to specify the research field in national R&D information. We will discuss the structural characteristics of national R&D project information and the usefulness of the project keyword, and explain the status of national R&D information by the National Standard Science and Technology Classification(NSSTC) Codes and the characteristics of the national R&D terminologies. Based on this, a method for building a national R&D terminology dictionary is defined in terms of the type and structure of the terminology dictionary, preliminary construction procedures, and refining rules. The national R&D terminology dictionary built on the basis of this study can be used in various ways such as expansion of search terms using Korean-English equivalent words and synonyms when searching national R&D information, clarifying the scope of search using NSSTC, and providing user convenience functions using term explanation information.
National research and development(R&D) information is information generated in the process of performing R&D based on programs and projects issued by national government departments, and includes information from various research fields as ordered by various departments. Therefore, for efficient R&D information retrieval, it is necessary to build a national R&D terminology dictionary that can reflect the characteristics of such national R&D information. In this study, we propose a method for constructing a national R&D terminology dictionary by applying the classification of science and technology standards used to specify the research field in national R&D information. We will discuss the structural characteristics of national R&D project information and the usefulness of the project keyword, and explain the status of national R&D information by the National Standard Science and Technology Classification(NSSTC) Codes and the characteristics of the national R&D terminologies. Based on this, a method for building a national R&D terminology dictionary is defined in terms of the type and structure of the terminology dictionary, preliminary construction procedures, and refining rules. The national R&D terminology dictionary built on the basis of this study can be used in various ways such as expansion of search terms using Korean-English equivalent words and synonyms when searching national R&D information, clarifying the scope of search using NSSTC, and providing user convenience functions using term explanation information.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 국가R&D 과제의 키워드를 기반으로 국가R&D용어사전을 구축하므로, 키워드의 추출 및 가공으로부터 그 절차가 시작된다.
이에 본 연구에서는 국가R&D정보의 중심이 되는 과제정보를 활용하여 국가R&D용어사전을 구축하는 방안을 제안하고자 한다.
제안 방법
국가 R&D과제정보를 기반으로 과제 키워드를 추출하여 국문/영문/과기표준분류의 트리플을 구축하고, 이를 바탕으로 용어를 정제하여 국문용어, 영문용어, 약어, 동의어, 과학기술표준분류 수준까지의 기본정보를 구축한다.
그리고 실제 과제 키워드에 입력된 용어들을 상세 분석하여 국가R&D에서 쓰이는 전문용어들의 특이점, 실제 사전 구축 시 고려해야 할 사항들 등을 도출하였다.
우선 본 연구에서는 현재 NTIS가 보유하고 있는 과제정보 내의 과제의 키워드와 국가과학기술표준분류정보가 용어사전을 구축하기에 적합한지 확인하기 위해 연도별 과제건수를 기준으로 키워드 보유 과제건수, 키워드 중 한글/영문 키워드 개수 일치 건수, 매해 신규로 진행되는 과제건수 등 키워드를 중심으로 한 정보보유현황과 국가과학기술표준분류의 연구분야분류 대‧중분류별 과제분포, 대‧중‧소분류별 평균 과제건수 등을 분석하였다. 그리고 실제 과제 키워드에 입력된 용어들을 상세 분석하여 국가R&D에서 쓰이는 전문용어들의 특이점, 실제 사전 구축 시 고려해야 할 사항들 등을 도출하였다.
이를 토대로 국가R&D 전문용어사전을 구축하기 위해 필요한 용어사전의 유형과 관리구조, 구축절차 등을 정의‧설계하고 실제 구축의 각 단계에서 필요한 단계별 용어 정제 규칙 등을 정의하였다.
정보검색서비스에서 활용 가능한 용어사전을 구축하기 위해 기존 용어사전을 활용하여 확장하는 방법도 제안되었다. 이 방법은 기존 용어사전 자원들을 활용하여 용어사전의 초기 데이터를 쉽게 구조화하고, 신규 발생되는 용어에 대해서는 주기적으로 유사도 매트릭스를 생성하여 활용함으로써 용어사전이 지속적으로 쉽게 갱신될 수 있도록 한 방법이다[9].
대상 데이터
[그림 2]에서 보는 바와 같이 국가R&D과제정보로부터 우선 키워드가 1개 이상이고 국문/영문 키워드의 개수가 일치하는 과제를 선별한다.
이론/모형
정보보강 단계에서는 외부용어사전을 활용하여 설명, 동의어, 반의어 등의 관련 정보를 자동 보강한다. 이를 위해 국립국어원의 표준국어대사전[11], 특허정보 활용 서비스에서 제공하는 특허 시소러스, 영한 특허기술용어 번역사전[12], 한국정보통신기술협회에서 제공하는 정보통신용어사전[13], 국방기술품질원에서 제공하는 국방과학기술용어사전[14] 등을 활용한다.
성능/효과
본 연구에서 제안하는 국가R&D용어사전 구축 방안은 기본용어 구축의 관점에서 상세 기술되었다.
전문용어의 연구분야 분류정보를 필요로 하는 경우와 검색어 확장을 목적으로 용어에 대한 동의어와 관련어를 필요로 하는 경우이다. 본 연구에서 제안한 방법으로는 타 용어사전에서 제공할 수 없는 과학기술표준분류 기준의 전문 연구분야 분류 정보를 제공할 수 있다는 장점이 있다. 또한 키워드 빈도를 기준으로 용어를 자동추출하여 용어사전을 구축하므로, 국문/영문 대역어와 함께 동의어까지도 손쉽게 구축할 수 있다는 장점이 있다.
다음 [표 3]은 과기표준분류의 대‧중‧소 분류별 과제 건수를 전체, 과학기술 관련 연구 분야, 인문사회과학관련 연구 분야로 나누어 본 것이다. 분류의 개수로 볼 때 과학기술과 인문사회과학 분야의 분류 개수는 중분류 기준으로 보더라도 약 56%, 44%로 크게 차이가 나지 않지만, 과제 건수 기준으로 보면 과학기술 분야의 분류에 약 12배 많은 과제가 있음을 알 수 있다. 이로써 대부분의 국가R&D가 과학기술 분야에 집중되어 있음을 알 수 있다.
이와 같은 과기표준분류의 대‧중‧소 분류 건수와 분류별 과제건수 분포를 기준으로 판단할 때 국가R&D용어사전을 구축하고 활용하는데 있어 의미있는 결과를 얻기 위해서는 용어사전 구축자나 이용자가 쉽게 인지할 수 있는 수준과 기계학습에 활용할 수 있는 적절한 과제건수를 고려할 때 소분류 보다는 중분류 수준에서 국가R&D용어사전의 분류정보를 구축하는 것이 적합하다.
후속연구
그밖에도 다양한 외부용어사전들을 효율적으로 참조하고 활용하기 위한 용어사전 표준양식 개발 및 관리방안에 대한 연구와 용어사전을 보다 효율적으로 구축하고 관리하기 위한 관리도구 개발에 관한 연구도 수행 되어야 할 것이다.
그러나 관련어와 관련해서는 외부용어사전을 활용한 관련어 정보구축만으로는 신규 용어나 외부용어사전에서 잘 검색되지 않는 전문용어에 대한 관련어 제공 부분이 약할 수밖에 없다. 따라서 향후에는 본 연구에서 제안한 국가R&D용어사전 구축 방법을 확장하여 동일 과제 내에서 공기(Cooccurrence)하는 용어들을 기반으로 용어관계정보를 산출하여 관련어를 구축하는 방안에 대한 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
빅데이터 분석기법의 대표적인 예시는?
최근 인공지능 기술 발전과 함께 지능형 정보서비스 제공을 위한 다양한 노력이 이루어지고 있다. 딥러닝, 데이터 마이닝, 텍스트 분석 등의 빅데이터 분석기법을 적용하여 다양한 분야에 활용하고 있다. 소셜미디어 데이터를 대상으로 한 이용자들의 감성분석을 활용한 마케팅, 뉴스데이터를 이용한 정부정책이나 관련 인물에 대한 긍정·부정도 분석, 연구논문·특허 데이터를 활용한 최신 연구트렌드 분석, 구글이나 네이버 등 포털 이용자의 검색어 트렌드 분석 등 대부분 텍스트를 기반으로 한 분석을 통해 인사이트를 얻어 활용하고 있다.
용어에 대한 정의와 관계등을 설정하는 것이 중요한 분석은 무엇을 기반으로 하고 있나?
딥러닝, 데이터 마이닝, 텍스트 분석 등의 빅데이터 분석기법을 적용하여 다양한 분야에 활용하고 있다. 소셜미디어 데이터를 대상으로 한 이용자들의 감성분석을 활용한 마케팅, 뉴스데이터를 이용한 정부정책이나 관련 인물에 대한 긍정·부정도 분석, 연구논문·특허 데이터를 활용한 최신 연구트렌드 분석, 구글이나 네이버 등 포털 이용자의 검색어 트렌드 분석 등 대부분 텍스트를 기반으로 한 분석을 통해 인사이트를 얻어 활용하고 있다. 이러한 텍스트 분석을 위해서는 용어에 대한 정의와 관계등을 설정하여 분석하는 것이 대단히 중요하다.
존 용어사전을 활용하여 확장하는 방법은?
정보검색서비스에서 활용 가능한 용어사전을 구축하기 위해 기존 용어사전을 활용하여 확장하는 방법도 제안되었다. 이 방법은 기존 용어사전 자원들을 활용하여 용어사전의 초기 데이터를 쉽게 구조화하고, 신규 발생되는 용어에 대해서는 주기적으로 유사도 매트릭스를 생성하여 활용함으로써 용어사전이 지속적으로 쉽게 갱신될 수 있도록 한 방법이다[9].
조우승, 김정오, 박민우, 최기석, 김태현, "A Study on the Construction of the User-Customized Researcher & Research Institute Information Curation System based on National R&D Data," Journal of Advanced Research in Dynamical and Control Systems, Vol.10, No.11, pp.1389-1394, 2018.
양명석, 강남규, 김태현, 주원균, "Improvement for Generation process of Researchers Map on National R&D data," 2015 International Confernece On Future Information & Communication Engineering, Vol.7, No.1, p.351, 2015.
홍재성 외, 21세기 세종계획 전자사전 개발 연구 보고서, 문화관광부, 2000, 2001, 2002, 2003, 2004, 2005, 2006.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.