데이터베이스로부터 지식을 발견하고 이를 연구기획자, 정책의사결정자들이 활용하는 움직임이 전세계적으로 활발해지고 있다. 이러한 연구분야 중 대표적인 것이 계량정보학이고 이 분야를 지원하기 위해서 주로 선진국을 중심으로 분석시스템이 개발되고 있다. 그러나 외국의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 못하고 있고, 고가이면서 한글이 지원되지 않아 국내 연구기획자가 사용하기에 어려운 점이 있다. 따라서 한국과학기술정보연구원에서는 이러한 단점을 극복하기 위해서 계량정보분석시스템 KnowledgeMatrix를 개발하였다. KnowledgeMatrix는 논문 및 특허의 서지정보를 분석하여 지식을 발견하기 위한 목적으로 설계된 독립형(stand-alone) 시스템이다. KnowledgeMatrix의 주요구성을 살펴보면 행렬 생성, 클러스터링, 시각화, 데이터 전처리로 요약된다. 본 논문에서 소개하고 있는 KnowledgeMatrix는 외국의 대표적인 정보분석시스템과 비교했을 때 다양한 기능을 제공하고 있고 특히 영문데이터 처리 이외에 한글데이터 처리가 가능하다는 장점을 갖고 있다.
데이터베이스로부터 지식을 발견하고 이를 연구기획자, 정책의사결정자들이 활용하는 움직임이 전세계적으로 활발해지고 있다. 이러한 연구분야 중 대표적인 것이 계량정보학이고 이 분야를 지원하기 위해서 주로 선진국을 중심으로 분석시스템이 개발되고 있다. 그러나 외국의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 못하고 있고, 고가이면서 한글이 지원되지 않아 국내 연구기획자가 사용하기에 어려운 점이 있다. 따라서 한국과학기술정보연구원에서는 이러한 단점을 극복하기 위해서 계량정보분석시스템 KnowledgeMatrix를 개발하였다. KnowledgeMatrix는 논문 및 특허의 서지정보를 분석하여 지식을 발견하기 위한 목적으로 설계된 독립형(stand-alone) 시스템이다. KnowledgeMatrix의 주요구성을 살펴보면 행렬 생성, 클러스터링, 시각화, 데이터 전처리로 요약된다. 본 논문에서 소개하고 있는 KnowledgeMatrix는 외국의 대표적인 정보분석시스템과 비교했을 때 다양한 기능을 제공하고 있고 특히 영문데이터 처리 이외에 한글데이터 처리가 가능하다는 장점을 갖고 있다.
Application areas of Knowledge Discovery in Database (KDD) have been expanded into many R&D management processes including technology trends analysis, forecasting and evaluation etc. Established research field such as informetrics (or scientometrics) has recently fully utilized techniques or methods...
Application areas of Knowledge Discovery in Database (KDD) have been expanded into many R&D management processes including technology trends analysis, forecasting and evaluation etc. Established research field such as informetrics (or scientometrics) has recently fully utilized techniques or methods of KDD. Various systems have been developed to support works of analyzing large-scale R&D related databases such as patent DB or bibliographic DB by a few researchers or institutions. But extant systems have some problems for korean users to use. Their prices is not cheap, korean language process not available, and user's demands not reflected. To solve these problems, Korea Institute of Science and Technology Information (KISTI) developed stand-alone type information analysis system named as KnowledgeMatrix. KnowledgeMatrix system offer various functions to analyze retrieved data set from databases. Knowledge Matrix main operation unit is composed of user-defined lists and matrix generation, cluster analysis, visualization, data pre-processing. KnowledgeMatrix show better performances and offer more various functions than extant systems.
Application areas of Knowledge Discovery in Database (KDD) have been expanded into many R&D management processes including technology trends analysis, forecasting and evaluation etc. Established research field such as informetrics (or scientometrics) has recently fully utilized techniques or methods of KDD. Various systems have been developed to support works of analyzing large-scale R&D related databases such as patent DB or bibliographic DB by a few researchers or institutions. But extant systems have some problems for korean users to use. Their prices is not cheap, korean language process not available, and user's demands not reflected. To solve these problems, Korea Institute of Science and Technology Information (KISTI) developed stand-alone type information analysis system named as KnowledgeMatrix. KnowledgeMatrix system offer various functions to analyze retrieved data set from databases. Knowledge Matrix main operation unit is composed of user-defined lists and matrix generation, cluster analysis, visualization, data pre-processing. KnowledgeMatrix show better performances and offer more various functions than extant systems.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 시스템은 국제수준의 정보분석시스템 개발을 위해 VantagePoint와 BibTechMon 수준 이상의 기능을 구현하는 것을 목표로 하였다. 벤치마킹 대상인 VantagePoint는 행렬 생성과 데이터 전처리 부분에서 강력한 기능을 보유하고 있고, BibTechMon은 시각화 기능에서 강력한 것으로 평가되고 있다.
벤치마킹 대상인 VantagePoint는 행렬 생성과 데이터 전처리 부분에서 강력한 기능을 보유하고 있고, BibTechMon은 시각화 기능에서 강력한 것으로 평가되고 있다. 본 시스템은 벤치마킹한 두 개의 소프트웨어의 장점을 모두 포괄하고 한글지원이 되며 수요자의 요구를 반영하여 활용 로직을 탑재한 시스템 구현을 목표로 한다. 활용로직은 단축키 형태와 전략다이어그램 형태로 구현하였다.
한편 앞서 소개한 3가지 행렬 형태에 대해서 외부에서 직접 입력받아서 그 이후의 과정을 분석할 수 있도록 구현하였다. 이는 논문 및 특허의 데이터베이스 파일을 분석하기 보다는 행렬값을 통계분석에 활용하기 위하여 설계하였다.
본 시스템은 해외의 유명한 소프트웨어를 벤치마킹하였고 기능면에서 전반적으로 좀 더 다양한 기능을 제공하는 계량정 보분석시스템을 개발하였다. 장점에 대해서만 전반적으로 살펴보면 VantagePoint가 제공하는 행렬값의 형태보다 더욱 다양한 행렬 형태를 제공하고 있고 BibTechMon이 제공하는 시각화 기능과 유사한 정도로 시각화 기능을 제공하고 있다.
제안 방법
본 시스템은 벤치마킹한 두 개의 소프트웨어의 장점을 모두 포괄하고 한글지원이 되며 수요자의 요구를 반영하여 활용 로직을 탑재한 시스템 구현을 목표로 한다. 활용로직은 단축키 형태와 전략다이어그램 형태로 구현하였다.
A.[3]가 제안한 방식을 간단한 구조로 수정하여 적용하였다. 다음의 두 가지 그림에서 좌우측과 중앙에 위치한 것은 정보분석시에 선택대상이 되는 각각의 필드이고 이들을 연결하는 선은 두 필드간의 발생행렬을 표현하는데, 그 유형에 따라서 이진행렬(binary matrix), 계량행렬(valued matrix), 단위행렬(identity matrix) 형태로 구분된다.
그런데 데이터의 형태에 따라서 적용 가능한 유사도계수는 매우 다양하며 본 시스템에서는 다음 표에 제시된 유형만을 적용한다. 통계학자들의 의견을 빌면 피어슨 계수와 코사인 계수는 상관계수의 성격을 가지므로 이진데이터에 적용하면 부적절할 수 있다고 하였으나 실제로 외국의 사례에서도 많이 사용되고 있고 행렬값의 성격에 따라서 사용자가 결정할 사안으로 판단하여 이진데이터에 대해서도 구현하였다.
본 시스템에서는 r=∞를 디폴트로 설정하고 q 값을 사용자가 입력할 수 있도록 구현하였다.
한편 앞서 소개한 3가지 행렬 형태에 대해서 외부에서 직접 입력받아서 그 이후의 과정을 분석할 수 있도록 구현하였다. 이는 논문 및 특허의 데이터베이스 파일을 분석하기 보다는 행렬값을 통계분석에 활용하기 위하여 설계하였다.
본 시스템에서 클러스터링은 계층적 방법과 비계층적 방법을 구현하였는데, 계층적 방법으로 단일연결법, 완전연결법, 평균연결법, 와드연결법 등을 구현하였고[4], 비계층적 방법으로 K-평균군집화 방법을 구현하였다. 와드연결법[5]은 개념적으로 살펴보면 군집간 오차제곱합(Sum of Square Error; SSE)의 증분값 중에서 최소값을 갖는 군집끼리 연결하는 기법인데 실제구현시에는 일반화된 와드연결법[4]으로 구현하였다.
본 시스템에서 챠트 기능은 논문 및 특허의 데이터베이스에서 추출한 여러 개의 필드정보 중에서 하나 또는 두 개의 필드에 대한 챠트를 보여줄 수 있도록 구현하였다.
데이터 전처리(pre-processing)는 서지DB의 비일관성 문제를 해결하고 다양한 분석을 하기 위해서는 필수적인 과정이다. 본 시스템에서 데이터 전처리는 필드정제, 그룹핑, 부분데 이터집합 생성, 편집기, 자연어 처리 등으로 구성된다. 필드 정제와 그룹핑 및 부분데이터집합 생성은 원하는 항목만을 선택해서 분석용 데이터만을 추출하기 위해서 구현하였다.
본 시스템에서 데이터 전처리는 필드정제, 그룹핑, 부분데 이터집합 생성, 편집기, 자연어 처리 등으로 구성된다. 필드 정제와 그룹핑 및 부분데이터집합 생성은 원하는 항목만을 선택해서 분석용 데이터만을 추출하기 위해서 구현하였다.
문자열 편집기(String Editor)는 정확히 일치하지 않는 단어나 어절(phrase)을 그룹핑하는 규칙을 설정하는 편집기이다. 본 시스템에서는 여러 가지 기법을 제공하고 있는데 최장 공통 부분열(Longest Common Subsequence Ratio: LCSR) 기법과 bi-gram 기법[15], 스테밍(stemming) 기법[14], 불용어(stopwords) 제거 기능 등을 구현하였다.
자연어 처리는 논문이나 특허의 제목이나 초록에서 단어나 어절을 추출할 필요가 있을 때 많이 사용되는 기능이다. 본 시스템에서 영문은 명사구만을 대상으로 하여 추출하였고, 한글은 형태소 분석기술을 이용하여 구현하였다.
본 시스템은 .NET 프레임워크를 이용하여 개발하였다. 본시스템을 처음 설치할 때는 실행에 필요한 .
장점에 대해서만 전반적으로 살펴보면 VantagePoint가 제공하는 행렬값의 형태보다 더욱 다양한 행렬 형태를 제공하고 있고 BibTechMon이 제공하는 시각화 기능과 유사한 정도로 시각화 기능을 제공하고 있다. 수요자의 활용상 편리를 위해 단축키도 제공하고 있는데 연도별 /국가별/기관별/저자별/한국 지역별 건수 챠트와 국가별/기관별/저자별/한국 지역별 협력맵을 원버튼 클릭으로 결과를 확인할 수 있도록 개발하였다. 본 시스템에서 구현한 분석방법론이 군집분석 방법이 주류를 이루고 있어서 다방면에 활용하기에는 부족한 점이 있지만 해외의 유명한 소프트웨어보다 더욱 다양한 기능을 수행하면서 한글지원이 된다는 점에서 개발의 의미가 크다고 판단된다.
이론/모형
본 시스템에서 동시발생행렬은 발생행렬과 발생행렬의 전치 행렬에 중복함수(overlap function)를 적용하여 계산한다.
비계층적 클러스터링 기법인 K-평균 클러스터링은 군집의 개수 K와 초기군집중심점을 사용자가 지정하고 계속적으로 거리 계산을 통해서 군집중심점이 바뀌는 방식이다. 본 시스템에서는 이러한 방식을 구현하였고 또한 자동으로 초기군 집중심점을 할당할 수 있는 기능도 구현하였는데 이는 대규모 데이터에 적합하다고 하는 MAX-MIN 방식을 이용하였다[6].
전략다이어그램은 Callon[12]이 제시한 동시단어분석(co-word) 방법으로 특정 기술군을 선정하고 그 내부에서 몇개의 세부 기술군간의 상대적인 발전도(활성화 정도)를 살펴보고자 할 때 적합하다. 본 시스템에서는 한국과학기술정보연구원에서 자체 연구개발한 방식으로 구현하였다[13].
성능/효과
본 시스템에서 FDP는 Eades[7] 방식과 Kamada와 Kawai[8] 방식, Fruchterman과 Reingold[9]의 방식을 비교한 후 Fruchterman과 Reingol이 제안한 방식으로 구현하였는데, Eades 방식에 비해서는 정확도가 높고, Kamada & Kawai 방식에 비해서는 구현이 단순하다.
수요자의 활용상 편리를 위해 단축키도 제공하고 있는데 연도별 /국가별/기관별/저자별/한국 지역별 건수 챠트와 국가별/기관별/저자별/한국 지역별 협력맵을 원버튼 클릭으로 결과를 확인할 수 있도록 개발하였다. 본 시스템에서 구현한 분석방법론이 군집분석 방법이 주류를 이루고 있어서 다방면에 활용하기에는 부족한 점이 있지만 해외의 유명한 소프트웨어보다 더욱 다양한 기능을 수행하면서 한글지원이 된다는 점에서 개발의 의미가 크다고 판단된다. 끝으로 KnowledgeMatrix에 관한 정보는 radar.
질의응답
핵심어
질문
논문에서 추출한 답변
KnowledgeMatrix의 주요 구성은 어떻게 요약되는가?
KnowledgeMatrix는 논문 및 특허의 서지정보를 분석하여 지식을 발견하기 위한 목적으로 설계된 독립형(stand-alone) 시스템이다. KnowledgeMatrix의 주요구성을 살펴보면 행렬 생성, 클러스터링, 시각화, 데이터 전처리로 요약된다. 본 논문에서 소개하고 있는 KnowledgeMatrix는 외국의 대표적인 정보분석시스템과 비교했을 때 다양한 기능을 제공하고 있고 특히 영문데이터 처리 이외에 한글데이터 처리가 가능하다는 장점을 갖고 있다.
KnowledgeMatrix란 무엇인가?
따라서 한국과학기술정보연구원에서는 이러한 단점을 극복하기 위해서 계량정보분석시스템 KnowledgeMatrix를 개발하였다. KnowledgeMatrix는 논문 및 특허의 서지정보를 분석하여 지식을 발견하기 위한 목적으로 설계된 독립형(stand-alone) 시스템이다. KnowledgeMatrix의 주요구성을 살펴보면 행렬 생성, 클러스터링, 시각화, 데이터 전처리로 요약된다.
계량정보학을 지원하기 위한 분석시스템을 국내 연구 기획자가 사용하기에 어려운 이유는 무엇인가?
이러한 연구분야 중 대표적인 것이 계량정보학이고 이 분야를 지원하기 위해서 주로 선진국을 중심으로 분석시스템이 개발되고 있다. 그러나 외국의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 못하고 있고, 고가이면서 한글이 지원되지 않아 국내 연구기획자가 사용하기에 어려운 점이 있다. 따라서 한국과학기술정보연구원에서는 이러한 단점을 극복하기 위해서 계량정보분석시스템 KnowledgeMatrix를 개발하였다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.