정부의 입장에서 R&D 과제간의 유사도를 분석하는 것은 불필요한 예산의 낭비를 없애고, R&D 투자의 효과를 높이는데 있어서 매우 중요한 문제이다. 그 동안, 문서의 내용을 대표하는 키워드를 중심으로 두 문서간의 유사도를 분석하거나, 문장 단위로 유사도를 분석함으로써, R&D 과제의 중복 여부를 판단하기 위한 연구들이 시도되어 왔으나, 여러 가지 이유로 아직까지 그 정확도는 매우 낮은 실정이다. 이에, 본 연구는 기 수행된 R&D 관련 특허를 조사, 수집하는 정부 R&D 특허기술동향조사사업의 특허분석 DB를 활용하여 R&D 과제간의 유사도를 분석할 수 있는 방안을 제시하고자 한다. 이를 위해, 집합 이론 및 확률 이론을 기반으로 한 유사도 측정 모델을 제시하였다. 또한, 제시한 모델의 검증을 위해 156개 과제, 160,218개의 유효특허를 기반으로 유효특허기반 과제 유사도 측정 실험을 수행하고, 그 사례를 제시하였다.
정부의 입장에서 R&D 과제간의 유사도를 분석하는 것은 불필요한 예산의 낭비를 없애고, R&D 투자의 효과를 높이는데 있어서 매우 중요한 문제이다. 그 동안, 문서의 내용을 대표하는 키워드를 중심으로 두 문서간의 유사도를 분석하거나, 문장 단위로 유사도를 분석함으로써, R&D 과제의 중복 여부를 판단하기 위한 연구들이 시도되어 왔으나, 여러 가지 이유로 아직까지 그 정확도는 매우 낮은 실정이다. 이에, 본 연구는 기 수행된 R&D 관련 특허를 조사, 수집하는 정부 R&D 특허기술동향조사사업의 특허분석 DB를 활용하여 R&D 과제간의 유사도를 분석할 수 있는 방안을 제시하고자 한다. 이를 위해, 집합 이론 및 확률 이론을 기반으로 한 유사도 측정 모델을 제시하였다. 또한, 제시한 모델의 검증을 위해 156개 과제, 160,218개의 유효특허를 기반으로 유효특허기반 과제 유사도 측정 실험을 수행하고, 그 사례를 제시하였다.
For efficient investments of government budgets, It is important to analyze the similarities of R&D projects. So, existing studies have proposed a techniques for analyzing similarities using keywords or segments. However, the techniques have low accuracy. We propose a technique for similarities of p...
For efficient investments of government budgets, It is important to analyze the similarities of R&D projects. So, existing studies have proposed a techniques for analyzing similarities using keywords or segments. However, the techniques have low accuracy. We propose a technique for similarities of projects using patent information. To achieve our goal, we suggest three metrics that are based some mathematic theories; set theory and probability theory. In order to validate our technique, we perform case studies that have 156 R&D projects and 160,218 patent informations.
For efficient investments of government budgets, It is important to analyze the similarities of R&D projects. So, existing studies have proposed a techniques for analyzing similarities using keywords or segments. However, the techniques have low accuracy. We propose a technique for similarities of projects using patent information. To achieve our goal, we suggest three metrics that are based some mathematic theories; set theory and probability theory. In order to validate our technique, we perform case studies that have 156 R&D projects and 160,218 patent informations.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 이러한 문제를 개선하고자, 기 수행된 R&D 관련 특허를 조사, 수집하는 정부 R&D 특허기술동향조사사업의 특허분석 DB를 활용한 유사도 분석 모델을 개발한다.
본 연구는 특허 정보를 이용한 과제 유사도 분석 방안을 제시하는데 목적을 둔다. 이를 위해 유사도 분석 방안에 대한 문헌들을 분석하였다.
본 연구에서는 이러한 자료들을 중심으로 신규 과제가 입력되었을 때, 과제간의 유사도를 계산한다. 이 개념은 그림 2와 같이 표현할 수 있다.
이에 본 연구에서는, 기존의 문서 간 유사도 분석 기법들을 고찰하고, 이의 활용 및 개선 방법을 도출한다. 이를 통해, 특허분석 DB를 활용한 유사도 분석 모델을 개발한다.
가설 설정
H0 (귀무가설) : 휴리스틱한 판단과 제안한 방법 사이의 유사도 검증결과는 상관관계가 없다.
H1 (검증가설) : 휴리스틱한 판단과 제안한 방법 사이의 유사도 검증결과는 상관관계가 있다.
이를 위한 가정으로서, 기존 과제 및 신규 과제는 모두 저마다의 유효특허를 가져야 한다는 것인데, 앞서 설명한 바와 같이, 이미 정부 R&D 특허기술동향조사사업을 통해 유효특허가 조사되었다는 것을 전제로 한다.
제안 방법
제안한 방안의 두 번째 검증은 전문가에 의한 분석 결과의 검증이다. 3명의 전문가 델파이 기법을 통해 과제 유사성 분석을 수행하였다. 과제의 수는 156개 이며, 주요 영역은 농업, 식품, 원예, 식량, 연구에 해당한다.
특허 정보를 기반으로 과제 유사도 분석을 위한 입출력 정보를 제시하였다. 또한 이러한 정보를 활용하여 2가지 측면의 분석 방안을 제시하였다. 그리고 제시한 모델의 타당성(일반인 조사결과)과 정확성(전문가 조사 결과)을 보였다.
이를 통해, 특허분석 DB를 활용한 유사도 분석 모델을 개발한다. 또한, 유사도 분석을 위한 입출력 정보와, 분석 알고리즘을 제시하고, 이를 검증한다.
본 연구에서는 문서간의 구별을 위한 특징으로써 특허 정보를 활용한다. 특허 정보는 정부 R&D 특허기술 동향조사사업을 통해 획득한 자료를 기반으로 하였는데, 그 데이터베이스에는 그림 1과 같은 정보들이 포함되어 있다.
이 문제를 해결하기 위해서는, “신규 과제가 기존 과제와 유사할 확률” 과 “신규 과제와 기존 과제가 유사할 확률”을 종합할 수 있는 방안이 요구된다. 본 연구에서는 포함 관계의 명확한 표현을 위해, 큰 값을 채택하는 방식을 도입하였다. 단, 이때 반드시 수식(2)의 확률 이론 기반 유사도를 함께 고려하여 해석해야 한다.
분석을 위해 연구과제가 속한 사업제안서, 과제제안서를 제공하였다. 분석 기준은 과제의 분야, 내용, 수행, 주체 등으로 하였다. 분야의 유사성은 기술분야, 지원 분야, 적용분야를 판단하였으며, 내용의 유사성은 제목, 목적, 목표, 업적을 판단하였다.
이 중 임의의 2개 과제에 대해서 전문가에게 제공하여 이 과제간의 유사정도를 7점 척도로 표현하게 하였다. 분석을 위해 연구과제가 속한 사업제안서, 과제제안서를 제공하였다. 분석 기준은 과제의 분야, 내용, 수행, 주체 등으로 하였다.
0 으로 분석하였다. 설문 결과의 신뢰성을 증진하기 위해 Reverse Question, Reverse Answer, Interval Request 기법을 통해 적절하지 않은 설문지를 제거하였다. 피설문자의 개인정보는 전화번호 뒷자리, 생년월일 등 2가지로 구분하였다.
분야의 유사성은 기술분야, 지원 분야, 적용분야를 판단하였으며, 내용의 유사성은 제목, 목적, 목표, 업적을 판단하였다. 수행의 유사성은 추진 체계 및 추진내용으로 판단하였으며, 주체는 진행자와 수혜자의 유사성을 기준으로 평가하였다. 평가 결과는 델파이 기법을 통해 만장일치제로 결과를 도출하였다.
유효특허 정보 내의 “국가공보”, “출원번호” 가 일치하는 경우를 동일한 특허로 인정하며, 유효특허간의 일치 정도에 따라 유사도를 측정한다.
이를 위해 유사도 분석 방안에 대한 문헌들을 분석하였다. 이러한 분석 결과를 기반으로 본 연구는, 첫째, 특허 정보 기반 과제 유사도 분석 모델을 제시하였다. 특허 정보를 기반으로 과제 유사도 분석을 위한 입출력 정보를 제시하였다.
본 연구는 특허 정보를 이용한 과제 유사도 분석 방안을 제시하는데 목적을 둔다. 이를 위해 유사도 분석 방안에 대한 문헌들을 분석하였다. 이러한 분석 결과를 기반으로 본 연구는, 첫째, 특허 정보 기반 과제 유사도 분석 모델을 제시하였다.
이에 본 연구에서는, 기존의 문서 간 유사도 분석 기법들을 고찰하고, 이의 활용 및 개선 방법을 도출한다. 이를 통해, 특허분석 DB를 활용한 유사도 분석 모델을 개발한다. 또한, 유사도 분석을 위한 입출력 정보와, 분석 알고리즘을 제시하고, 이를 검증한다.
제안한 모델은 다양한 척도를 제시하고 있다. 이들은 각자 고유의 의미를 가지며, 판단 기준의 다양성을 위해 반드시 필요하다.
제안한 방법의 타당성에 대한 첫 번째 검증은 일반적인 지식을 가진 일반인을 대상으로 광범위한 설문조사를 수행하였다. 질문 내용은 앞서 도출된 유사성이 있을 것으로 판단된 2개의 과제 중 임의의 1개를 선정하여 이들의 유사도를 묻는 방식을 구성하였다.
제안한 유사도 측정방법을 기반으로, 본 연구는 156개 과제, 160,218개의 유효특허를 기반으로 유효특허 기반 과제유사도 측정 하였다. 측정 결과는 표 2와 같으며, 대조군으로써 키워드 중심의 과제유사결과 표 3과 비교를 하였다.
제안한 방법의 타당성에 대한 첫 번째 검증은 일반적인 지식을 가진 일반인을 대상으로 광범위한 설문조사를 수행하였다. 질문 내용은 앞서 도출된 유사성이 있을 것으로 판단된 2개의 과제 중 임의의 1개를 선정하여 이들의 유사도를 묻는 방식을 구성하였다. 과제별로 피설문자에게 주어진 정보는 과제명과 과제 내용이다.
또한, 집합의 개수가 유사도에 영향을 미치기 때문에, 유효특허의 개수에 따라 측정된 유사도 값이 달라질 수 있다는 점도 단점이다. 집합기반 유사도의 단점을 개선하고자, 두 번째 측정척도로 확률기반 유사도를 제안한다. 확률 이론 (Probability Theory)[13]은 확인되지 않은 결과에 대한 가능성을 표현할 수 있다.
이러한 분석 결과를 기반으로 본 연구는, 첫째, 특허 정보 기반 과제 유사도 분석 모델을 제시하였다. 특허 정보를 기반으로 과제 유사도 분석을 위한 입출력 정보를 제시하였다. 또한 이러한 정보를 활용하여 2가지 측면의 분석 방안을 제시하였다.
설문 결과의 신뢰성을 증진하기 위해 Reverse Question, Reverse Answer, Interval Request 기법을 통해 적절하지 않은 설문지를 제거하였다. 피설문자의 개인정보는 전화번호 뒷자리, 생년월일 등 2가지로 구분하였다. 설문기간은 2013년 10월부터 11월까지 30일 동안 진행하였다.
대상 데이터
3명의 전문가 델파이 기법을 통해 과제 유사성 분석을 수행하였다. 과제의 수는 156개 이며, 주요 영역은 농업, 식품, 원예, 식량, 연구에 해당한다. 이 중 임의의 2개 과제에 대해서 전문가에게 제공하여 이 과제간의 유사정도를 7점 척도로 표현하게 하였다.
본 연구를 진행하며, 몇몇 한계점을 발견하였다. 사례 검증 시 적용된 도메인은 농촌진흥청관련 2010년 ~2013년의 과제를 기반으로 하였다. 본 연구의 검증이 특정 도메인에 한정된 이유는, 검증 시 전문가 협의가 반드시 필요한 사항이었기 때문이다.
피설문자의 개인정보는 전화번호 뒷자리, 생년월일 등 2가지로 구분하였다. 설문기간은 2013년 10월부터 11월까지 30일 동안 진행하였다.
응답자 수 132명 중 총 94명의 Reverse Question, Reverse Answer, Interval Request 검증 결과 유효한 응답자를 식별하였으며, 총 4722 개의 과제간 유사성 응답을 식별하였다. 이러한 통계분석을 위한 가설은 다음과 같다.
특허 정보는 정부 R&D 특허기술 동향조사사업을 통해 획득한 자료를 기반으로 하였는데, 그 데이터베이스에는 그림 1과 같은 정보들이 포함되어 있다.
데이터처리
휴리스틱한 판단에 의한 유사성 분석 결과와 본 연구에서 제안한 방법과의 상관관계를 분석한다. 2개의 척도 모두 정량척도이므로 피어슨 상관 분석을 수행하였으며, 그림 3과 같은 분석 결과를 도출하였다.
이는 설문응답의 값이 높을수록(유사성이 높다고 응답할수록) 제안한 방법으로 계산된 값이 커진다는(척도의 값이 클수록) 의미를 가진다. 상관관계 분석결과 유효특허기반의 분석결과의 신뢰성과 정확성을 분석하고자 회귀분석을 수행한다. 회귀분석의 결과는 그림 4와 같다.
응답은 리커트 7점 척도를 이용하였으며, 질문지 1개에 7개의 질문을 포함하였다. 설문은 웹 사이트를 통해 질의하였으며, 질의 결과는 통계 분석 소프트웨어인 SPSS 18.0 으로 분석하였다. 설문 결과의 신뢰성을 증진하기 위해 Reverse Question, Reverse Answer, Interval Request 기법을 통해 적절하지 않은 설문지를 제거하였다.
7 이상이며, 이는 통계적으로 95% 신뢰 수준에서 일관성을 가지고 답하였다고 할 수 있다. 전문가설문을 통해 분석된 과제 유사도 분석 결과와 본 연구에서 제안한 방안을 통해 측정된 결과 사이의 상관분석을 수행하였다. 전문가설문 결과 유효특허 기반 분석결과와 강한 상관관계를 가진다.
제안한 방안의 두 번째 검증은 전문가에 의한 분석 결과의 검증이다. 3명의 전문가 델파이 기법을 통해 과제 유사성 분석을 수행하였다.
제안한 유사도 측정방법을 기반으로, 본 연구는 156개 과제, 160,218개의 유효특허를 기반으로 유효특허 기반 과제유사도 측정 하였다. 측정 결과는 표 2와 같으며, 대조군으로써 키워드 중심의 과제유사결과 표 3과 비교를 하였다. 이 예시에서, “작물 종자형질유전자 기능분석 및 산업화” 과제의 경우 집합, 확률 관점에서 “벼 변이집단 및 생물 정보를 이용한 유용 농업형질 유전자 탐색”과 가장 유사한 것으로 나타났다.
휴리스틱한 판단에 의한 유사성 분석 결과와 본 연구에서 제안한 방법과의 상관관계를 분석한다. 2개의 척도 모두 정량척도이므로 피어슨 상관 분석을 수행하였으며, 그림 3과 같은 분석 결과를 도출하였다.
이론/모형
각 과제는 유효특허의 집합을 가지는데, 이러한 집합 간의 일치 정도를 분석하기 위한 방법으로 집합 이론(Set Theory)[12]을 적용한다. 집합기반 유사도는 2개 집합의 합집합 특허 중, 2개 집합의 교집합 특허의 비율로 나타낸다.
전문가의 회의 결과의 신뢰도에 대해 크롬바치 알파기법을 이용하여 분석하였다. 이는 전문가가 일관된 기준으로 유사도에 대해 평가하였는지에 대해 분석할 수 있다.
수행의 유사성은 추진 체계 및 추진내용으로 판단하였으며, 주체는 진행자와 수혜자의 유사성을 기준으로 평가하였다. 평가 결과는 델파이 기법을 통해 만장일치제로 결과를 도출하였다.
성능/효과
ㅇ 전문가설문 결과는 특허정보 기반 분석이 키워드 기반 분석에 비해 더 높은 해석률(정확도)를 가진다고 판단한다.
또한 이러한 정보를 활용하여 2가지 측면의 분석 방안을 제시하였다. 그리고 제시한 모델의 타당성(일반인 조사결과)과 정확성(전문가 조사 결과)을 보였다.
분석 결과, 휴리스틱한 응답결과를 종속변수로, 유효특허기반 분석결과를 독립변수로 하는 회귀모형이 유의미함을 알 수 있다. 유의확률은 0.
분석 결과, 휴리스틱한 응답결과를 종속변수로, 유효특허기반 분석결과를 독립변수로 하는 회귀모형이 유의미함을 알 수 있다. 유의확률은 0.
상관관계 분석결과, 설문응답과 유효특허기반의 분석결과 (집합, 확률_전체, 확률_부분) 사이의 상관관계는 유의미한 것으로 나타났다. 유의확률(양쪽)의 값이 0.
1% 해석률, 정확도)을 가진다. 이는 유효특허기반 과제 유사도 분석의 결과가 휴리스틱한 판단을 99%의 신뢰구간에서 67.1%의 정확도로 해석할 수 있음을 의미한다. 32.
두 번째 검증은 제안한 방법의 신뢰성과 효율성에 관한 검증이다. 제안한 방안이 타당하다는 전제조건 하에 도출된 결과가 전문가의 의견과 비교하여 신뢰성을 가질 수 있는지 판단하는 것을 의미한다.
이들은 각자 고유의 의미를 가지며, 판단 기준의 다양성을 위해 반드시 필요하다. 제안한 척도들을 통해 유사한 과제를 우선순위화할 수 있지만, 척도의 해석으로 우선순위가 높거나 낮음을 표현할 수는 없다. 이러한 해석을 위해선 과거 과제들과 특허 정보가 충분히 수집되어 통계적인 해석을 도출해야할 필요성이 있다.
그림 5의 분석결과는 다음과 같은 해석을 가질 수 있다. 첫째, 전문가 분석은 앞서 제안한 4개 분류, 11개 항목을 기준으로 유사성을 판단한다. 이는 특허 정보 기반의 분류방법과 매우 유사한 결과를 가진다고 해석할 수 있다.
후속연구
이 문제를 해결하기 위해서는, “신규 과제가 기존 과제와 유사할 확률” 과 “신규 과제와 기존 과제가 유사할 확률”을 종합할 수 있는 방안이 요구된다.
본 연구의 검증이 특정 도메인에 한정된 이유는, 검증 시 전문가 협의가 반드시 필요한 사항이었기 때문이다. 하지만, 향후 연구를 통해 다양한 도메인에 적용하여 그 결과를 검증한다면 제안한 과제 유사도 분석 모델의 일반성을 더욱 확고히 할 수 있을 것으로 사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
정부 R&D 과제에 대한 투자는 무엇에 의해 매년 약 10%정도씩 증가하고 있는 추세인가?
정부 R&D 과제에 대한 투자는 정부의 적극적인 과학기술 정책에 의해 매년 약 10%정도씩 증가하고 있는 추세이다[1]. 그러나, 각 부처의 경쟁적인 사업 추진으로 인한 예산의 낭비가 여전히 문제로 지적되고 있는 실정이다.
각 부처의 경쟁적인 사업 추진은 어떤 문제로 지적되고 있는가?
정부 R&D 과제에 대한 투자는 정부의 적극적인 과학기술 정책에 의해 매년 약 10%정도씩 증가하고 있는 추세이다[1]. 그러나, 각 부처의 경쟁적인 사업 추진으로 인한 예산의 낭비가 여전히 문제로 지적되고 있는 실정이다. 정부 R&D 예산의 중복 투자를 방지하고, 투자 효율을 제고하기 위해서는, 유사 과제를 제안 단계에서부터 식별해내는 것이 매우 중요하다.
정부에서는 R&D 과제 기획 시, 국가연구개발 사업관리 등에 의한 규정에 따라 국가과학기술지식정보서비스를 통한 유사성 검토를 의무화하고 있는 이유는?
그러나, 각 부처의 경쟁적인 사업 추진으로 인한 예산의 낭비가 여전히 문제로 지적되고 있는 실정이다. 정부 R&D 예산의 중복 투자를 방지하고, 투자 효율을 제고하기 위해서는, 유사 과제를 제안 단계에서부터 식별해내는 것이 매우 중요하다. 이에 따라, 정부에서는 R&D 과제 기획 시, 국가연구개발 사업관리 등에 의한 규정에 따라 국가과학기술지식정보서비스를 통한 유사성 검토를 의무화하고 있다.
참고문헌 (14)
Government Research and Development Budget Analysis in the FY 2013, Korea Institute of S & T Evaluation and Planning, 2014-002, 2014.
OkNam Jung, SungYul Rhew, JongBae Kim. "An Empirical Study on Improvement model for Measuring of Project Similarity." Journal of Digital Contents Society, Vol.12, No.4, pp.457-465, 2011.
MyungSuk Yang, et al. "Discussion about the National Science & Technology Information Service(NTIS)." Proceedings of the Korea Technology Innovation Society Conference, pp.294-304, 2013.
Hyung Deuk Hong. "Comparative Analysis on the Evaluation Systems of the Public R & D Programs in the Developed Countries." Proceedings of the Korea Technology Innovation Society Conference, pp.275-290, 2001.
Bendersky, Michael, and W. Bruce Croft. "Finding text reuse on the web." Proceedings of the Second ACM International Conference on Web Search and Data Mining. ACM, 2009.
Rabin, Michael O. Fingerprinting by random polynomials. Center for Research in Computing Techn., Aiken Computation Laboratory, Univ., 1981.
Miihleisen, H., Tilman Walther, and Robert Tolksdorf. "Multi-level indexing in a distributed self-organized storage system." Evolutionary Computation (CEC), 2011 IEEE Congress on. IEEE, 2011.
Chowdhury, Gobinda, and Sudatta Chowdhury. Introduction to digital libraries. Facet publishing, 2002.
Ju-Ho Kim, Young-Ja Kim, Jong-Bae Kim. "A study on Similarity analysis of National R & D Programs using R & D Project's technical classification." Journal of Digital Contents Society. Vol. 13, No. 3, pp. 317-324, Sep. 2012
Domainguez, Josae Ferreiraos. Labyrinth of thought: A history of set theory and its role in modern mathematics. Springer, 2007.
Kang Jong Seok, Lee Hyuck Jai, Moon Yeong Ho, "Apparatus and method for configuring a comprehensive intellectual property rights star network by detecting patent similarity.", Korea Institute Of Science & Technology Information, G06F 17/30, 1020070071793, 2006.
Domainguez, Josae Ferreiraos. Labyrinth of thought: A history of set theory and its role in modern mathematics. Springer, 2007.
Kolmogorov, Andrei Nikolaevich. "Foundations of the Theory of Probability." (1950).
Freedman, David. Statistical models: theory and practice. Cambridge University Press, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.