[논문]특허 데이터 분석시 효율적인 노이즈 제거와 신뢰도가 향상된 특허 기술수준 평가에 관한 연구

강희섭; 이승호

문제 정의

Excel File로 저장된 Raw Data상에서 논리 연산자 AND를 이용하여 관심 기술 데이터만을 검색하여 노이즈 제거 작업의 시간적 효율성을 높이고자 한다.
따라서 본 논문에서는 검색 DB에서 얻어진 Raw data(1차 데이터)의 신뢰도 결함을 보완하기 위한 효율적인 노이즈 제거방법을 제안한다. 그 결과 과거 수작업으로만 진행하였던 노이즈 제거 과정을 논리 연산자 AND를 활용하여 엑셀 VBA(Visual Basic Application)에서 프로그램화 하여 효율적으로 제거하여 유효 데이터를 획득할 수 있게 된다.
따라서 본 논문에서는 신뢰도가 향상된 기술수준 평가를 제안한다. 그 결과 신뢰도가 향상된 특허의 기술수준 평가를 위하여 평균 청구항 수, 특허 패밀리 사이즈(PFS: Patent Family Size), 특허당 인용도 지수(CPP: Cites per Patent), 삼극특허, 규격화 특허경쟁력 지수(stdPCPI: Standardization Patent Diversification Index), haF-index(Hirsch a Family index) 등을 사용하게 된다.
따라서 본 논문에서는 와 같은 단점은 보완하고 장점은 더욱 부각시키기 위한 효율적인 노이즈 제거 프로그램을 제안하고자 한다.
본 논문에서 산출된 6가지 지수를 이용한 종합적 기술수준 평가 결과를 논한다.
본 논문에서는 특허맵 분석 데이터 구축 과정에서 필요한 효율적인 노이즈 제거방법과 신뢰도가 향상된 기술수준 평가를 제안하였다.
기존 특허맵은 데이터의 구축 시간, 신뢰도, 정보의 균형성에서 한계가 있다. 이 한계점을 보완하기 위한 노이즈 제거 방법 및 정보의 균형성을 갖는 기술수준 평가 방법에 대하여 알아보겠다.
특허분석방법 단계 중 노이즈 제거 작업은 발명의 명칭, 특허분류 및 초록의 내용을 토대로 수작업으로만 이루어진다. 점선으로 표시된 부분은 데이터정비 이전에 수행하는 노이즈제거 단계로써 제거 과정에서 작업자의 장시간 노동이 필요하게 되는데 여기에서 할애되는 작업(노동)시간을 최소화하기 위한 방법에 대하여 제안 하겠다.
특허맵의 도입 배경을 살펴보면, R&D 활용과 특허활동의 체계의 이원화, 선진국의 공격적 특허정책에 대한 사전 대응책 결여 및 급증하는 특허 클레임에 대한 즉각적인 대응의 지연 등의 연구개발 문제점 및 현황을 파악하기 위한 것이다.

제안 방법

계량 정보학적 방법을 이용하여 인용 특허의 수명을 추정하고 이를 통계로 나타냄으로써 특허들의 수명 분포를 파악하였다. 기술 예측에 대한 학자들의 정의를 보면, Lenz는 사회적으로 유용하게 활용되는 발명, 기술적 특성 및 차원 또는 성능을 예측하는 것(R.
논리 연산자 AND를 이용하여 유효 데이터를 신속하게 획득함으로써, 효율적인 노이즈 제거 방법을 확인 하였다.
따라서, 본 논문 기술수준 평가에서는 인용정보 이외에 한쪽 정보만을 고려하지 않고, 모든 특허 정보에서 확인할 수 있는 특허정보를 활용하여 기술수준 평가가 가능한 지수를 선정 또는 변형하여 종합적 기술수준 평가를 제안하였다.
문제점으로 언급된 장시간의 노동을 줄이기 위하여 Raw Data로 저장된 Excel File에서 검색을 수행하여 관심 데이터만을 추출하고자 한다.(그림 2)
본 논문 프로그램에서 Raw Data를 불러들여, 핵심 검색어와 AND 연산자를 이용하여 노이즈 제거 검색을 실행한다. 그 결과, 한국 특허 482건 중 204건의 특허 데이터가 검색 되었으며, 이들 특허 데이터에서 13건(6%)의 노이즈 데이터를 확인할 수 있었다.
결과적으로, <표 6>의 본 논문 기술수준 평가와 같이 특허 당 인용도 지수의 특허정보가 신뢰성이 떨어질 때, 이를 보완하기 위한 패밀리 특허(Family patent), 평균 청구항 수(Average Claims per patent), 삼극특허, 규격화 특허경쟁력 지수(stdPCPI: Standardization Patent Diversification Index), haF-index(Hirsch a Family index)를 산출하였다. 여기에서 산출된 정보는 모든 특허 데이터에서 확인 가능한 특허 청구항, 패밀리 정보, IPC별 특허건수 정보를 활용 함으로써 종합적 기술수준 평가를 하였다. 즉, 한가지 정보가 아닌 다수의 특허정보를 사용하여 균형적 평가가 가능함을 나타내었다.
고병열 등은 특허 분석을 통해 기술 시장 내에서의 미래 유망 아이템의 발굴을 시도하였다. 이를 위해서 최근 들어 급격히 부상하고 있는 특허 분류 코드 및 키워드를 파악하고 이들을 산업/제품 분류 체계에 대응시킬 경우 미래 유망 아이템 후보군을 도출할 수 있고, 해당 기술/산업 분야의 메가 트렌드를 파악할 수 있음을 착안하여 미래 유망 아이템을 발굴하였다.
특허 경쟁력 지수(PCPI: Patent Diversification Index)의 단점인 기술 개발 분야가 넓은 대기업에 유리하게 작용하여, 한 기술 분야에 특화된 경쟁력을 갖는 기업을 간과해 버릴 우려가 있는 점에서 규격화 특허 경쟁력 지수(stdPCPI: Standardization Patent Diversification Index)를 이용하여 IPC 서브 클래스당의 경쟁력을 측정하였다. 측정한 결과 S사(2685.

이론/모형

따라서 본 논문에서는 신뢰도가 향상된 기술수준 평가를 제안한다. 그 결과 신뢰도가 향상된 특허의 기술수준 평가를 위하여 평균 청구항 수, 특허 패밀리 사이즈(PFS: Patent Family Size), 특허당 인용도 지수(CPP: Cites per Patent), 삼극특허, 규격화 특허경쟁력 지수(stdPCPI: Standardization Patent Diversification Index), haF-index(Hirsch a Family index) 등을 사용하게 된다.
본 절에서는 신뢰도가 향상된 특허의 기술수준 평가를 위하여 평균 청구항 수, 특허 패밀리 사이즈(PFS), 특허당 인용도 지수(CPP), 삼극특허, 규격화 특허경쟁력 지수(stdPCP: Standardization Patent Diversification IndexI), haF-index(Hirsch Family index) 등을 사용하게 된다.
이들 검색 엔진은 대개 단어 주머니 접근(bag-of-words approach: BOW)으로 알려진 의미론적 유사성 분석(semantic similarity analysis)을 기반으로 한다. 검색 프로세스는 각각의 문서 또는 질의 내에서 단어의 원문적 중첩의 측정값을 기반으로 문서의 상관도를 계산한다.
허핀달 지수를 이용하여, 출원특허의 IPC 서브 클래스별 경쟁 상태와 연구주체의 IPC별 특허건수가 전체 특허건수에서 차지하는 점유율 및 각 연구주체의 특허건수 신장률 등을 사용하여 기술개발의 경쟁력 정도를 측정하는 특허 경쟁력 지수(PCPI: Patent Diversification Index)를 구한다. 이 값이 클수록 당해 기업이 출원하고 있는 각 IPC 서브 클래스에 대해서 기술개발 경쟁력이 큰 것을 의미한다.

성능/효과

결과적으로, 의 본 논문 기술수준 평가와 같이 특허 당 인용도 지수의 특허정보가 신뢰성이 떨어질 때, 이를 보완하기 위한 패밀리 특허(Family patent), 평균 청구항 수(Average Claims per patent), 삼극특허, 규격화 특허경쟁력 지수(stdPCPI: Standardization Patent Diversification Index), haF-index(Hirsch a Family index)를 산출하였다.
결론적으로 본 논문에서 제안한 특허맵 분석 데이터 구축 과정에서 필요한 효율적 노이즈 제거방법과 신뢰도가 향상된 기술수준 평가는 효율성, 균형성 등의 2가지 측면에 의의를 찾을 수 있다. 효율성의 측면에서는 기업이나 국가의 전략 수립에 기본 자료로서 활용될 수 있는 특허 데이터 구축에 소요되는 시간을 감소할 수 있다.
미국 특허 189건에서는 122건의 특허 데이터가 검색 되었으며, 이들 데이터 가운데 11건(9%)의 노이즈 데이터를 확인 할 수 있다. 국가별로 노이즈 비율은 10% 미만으로 90%이상이 유효 데이터로써 데이터의 신뢰도가 100% 만족 할 수는 없지만, 프로그램에서 유효 데이터를 손쉽게 획득하여 기존 장시간의 노동을 줄일 수 있는 이점을 확인할 수 있다.
따라서 본 논문에서는 검색 DB에서 얻어진 Raw data(1차 데이터)의 신뢰도 결함을 보완하기 위한 효율적인 노이즈 제거방법을 제안한다. 그 결과 과거 수작업으로만 진행하였던 노이즈 제거 과정을 논리 연산자 AND를 활용하여 엑셀 VBA(Visual Basic Application)에서 프로그램화 하여 효율적으로 제거하여 유효 데이터를 획득할 수 있게 된다.
본 논문 프로그램에서 Raw Data를 불러들여, 핵심 검색어와 AND 연산자를 이용하여 노이즈 제거 검색을 실행한다. 그 결과, 한국 특허 482건 중 204건의 특허 데이터가 검색 되었으며, 이들 특허 데이터에서 13건(6%)의 노이즈 데이터를 확인할 수 있었다. 미국 특허 189건에서는 122건의 특허 데이터가 검색 되었으며, 이들 데이터 가운데 11건(9%)의 노이즈 데이터를 확인 할 수 있다.
본 논문에서는 3가지 정보뿐만 아니라 삼극특허, 국제특허분류, haF-index를 사용하여 어느 한쪽 정보만 고려한 과거 단점을 극복함을 확인할 수 있다.
이 근거에 따라 특허 데이터에서의 두 기업간 인용정보 격차에서 S사가 기술수준이 높다고 할 수 있지만, 본 논문 특허 데이터의 경우 최근에 공개/등록된 자료가 다수인 관계로 기술수준 평가 자료로서는 미흡함을 확인할 수 있어, 본 논문의 인용정보는 신뢰도가 낮다고 할 수 있다.
정량적으로 3개국에 출원되어 공개/등록된 문헌수로만 비교 해본다면, S사가 시장 확보와 간접적으로 특허권의 가치성에서 비중을 높게 두고 있는 것으로 볼 수 있지만, S사와 A사에서 출원되어 공개/등록된 문헌에서 비율로 비교시 각각의 전체 특허건수에 대비하여 S사보다 A 사의 비율이 높게 나타났다.
제안된 효율적인 노이즈 제거 방법은 과거 수작업으로만 진행하였던 노이즈 제거 과정을 논리 연산자 AND를 활용하여 엑셀 VBA(Visual Basic Application)에서 프로그램화 하여 효율적으로 제거하여 유효 데이터를 획득할 수 있게 되었다. 제안된 효율적 노이즈 제거 작업을 적용한 결과는 획득된 특허 데이터의 노이즈 비율이 10% 미만으로 나타나서 데이터의 신뢰도가 높음이 확인되었다.
제안된 효율적인 노이즈 제거 방법은 과거 수작업으로만 진행하였던 노이즈 제거 과정을 논리 연산자 AND를 활용하여 엑셀 VBA(Visual Basic Application)에서 프로그램화 하여 효율적으로 제거하여 유효 데이터를 획득할 수 있게 되었다. 제안된 효율적 노이즈 제거 작업을 적용한 결과는 획득된 특허 데이터의 노이즈 비율이 10% 미만으로 나타나서 데이터의 신뢰도가 높음이 확인되었다.
종합적 기술수준 평가를 위하여 기존 특허맵에서 사용된 특허정보는 (그림 10)과 같이 인용 정보(Citations), 패밀리 특허(Family patent), 평균 청구항 수(Average Claims per patent) 3가지 정보만을 고려한 기술수준 평가를 확인할 수 있었다.
즉, A사는 2개국 모두에 패밀리를 갖는 수는 S사보다 많은 공개/등록된 특허문헌을 나타낸 반면, EPO, JPO, USPTO 3곳 모두에서 패밀리로 공개/등록된 특허문헌은 S사가 A사보다 많은 문헌을 보유하고 있는 것으로 나타났다. 하지만, S사의 전체 출원건수 193건 중 2개국과 3개국 모두에 출원한 비율은 26%(67건)인 반면, A사의 전체 출원건수 109건 중 2개국과 3개국 모두에 출원한 비율은 34%(57건)로 나타났다.
52평균보다 높은 패밀리를 나타냈고, A사의 전체 109건 중 50건이 평균보다 높은 패밀리 특허를 보유하고 있는 것으로 나타났다. 즉, S사의 전체 특허 중 24%만이 평균이상에 포함되고, A사의 특허는 전체 특허 중 절반에 가까운 46%가 평균이상에 분포되는 것으로 나타났다
여기에서 산출된 정보는 모든 특허 데이터에서 확인 가능한 특허 청구항, 패밀리 정보, IPC별 특허건수 정보를 활용 함으로써 종합적 기술수준 평가를 하였다. 즉, 한가지 정보가 아닌 다수의 특허정보를 사용하여 균형적 평가가 가능함을 나타내었다.
특허 경쟁력 지수(PCPI: Patent Diversification Index)의 단점인 기술 개발 분야가 넓은 대기업에 유리하게 작용하여, 한 기술 분야에 특화된 경쟁력을 갖는 기업을 간과해 버릴 우려가 있는 점에서 규격화 특허 경쟁력 지수(stdPCPI: Standardization Patent Diversification Index)를 이용하여 IPC 서브 클래스당의 경쟁력을 측정하였다. 측정한 결과 S사(2685.243)와 A사(4101.383)의 규격화 특허 경쟁력 지수(stdPCP: Standardization Patent Diversification Index)를 나타내므로, A사의 특허 경쟁력이 큰 것으로 파악되었다.
52이다. 평균보다 높게 나타내고 있는 특허문헌에 대하여 살펴본 결과, S사의 전체 193건의 특허 중 47건이 4.52평균보다 높은 패밀리를 나타냈고, A사의 전체 109건 중 50건이 평균보다 높은 패밀리 특허를 보유하고 있는 것으로 나타났다. 즉, S사의 전체 특허 중 24%만이 평균이상에 포함되고, A사의 특허는 전체 특허 중 절반에 가까운 46%가 평균이상에 분포되는 것으로 나타났다

후속연구

효율성의 측면에서는 기업이나 국가의 전략 수립에 기본 자료로서 활용될 수 있는 특허 데이터 구축에 소요되는 시간을 감소할 수 있다. 균형성 측면에서는 기존의 평가 요소가 한쪽 정보(인용정보)에 치중한 점을 보완함으로써 균형적으로 기술수준을 평가하고 향후 발전방향에 대한 전략적 통찰력을 제공하여 기술개발에 유용하게 활용할 수 있을 것으로 예상된다.
따라서, 이런 단점을 극복하기 위하여 논리연산자 AND와 함께 사용할 수 있는 OR 혹은 근접 연산자 ADJ를 이용하여 정확성을 더욱 높일 수 있는 프로그램을 작성하여야 할 것이다.
앞으로의 연구과제로는 2차 필터링을 위한 노이즈 제거에서 사용된 AND 연산자와 OR 연산자, ADJ 근접 연산자를 함께 사용함을 연구하고, 기술수준 평가에서 미국 인용정보를 현재 특허 데이터 정보에서 대체 가능한 특허 정보에 대하여 연구 또는 새로운 지수개발에 대하여 연구가 진행되어야 하겠다.
연구과제의 한계점으로는 노이즈 제거 및 기술수준 평가의 자동화가 어렵 다는점과 본 연구과제 진행시 작업자의 주관적 견해가 개입될 시 보고서 질이 낮아 질 수 있는 한계점이 있다.

핵심어	질문	논문에서 추출한 답변
	잘 정리된 형태의 문서를 이용하여 원하는 정보를 찾아내는 것이 장점인 특허정보를 활용하기 위해 필요한 것?	또한 특허정보가 가지는 장점인 잘 정리된 형태의 문서를 이용하여 원하는 정보를 찾아내는 것은 연구 개발시 기존 연구 개발된 결과를 파악하는 것뿐만 아니라, 심판이나 소송에서의 증거자료를 찾는 목적에서 매우 중요한 일이 아닐 수 없다. 따라서 기존에 구축되어 있는 특허정보를 잘 활용하는 것은 기업에 있어서 불필요한 연구개발비를 예방할 수 있고, 새로운 연구개발 방향을 설정하는 측면에서도 매우 중요한 일이라고 할수 있다.
	특허정보의 활용분야는 무엇인가?	특허정보는 연구개발 뿐만 아니라, 과학기술에 대한 국가 정책에 영향을 줄 만큼 그 활용도에 있어서 다양하게 활용되고 있다. 또한 특허정보가 가지는 장점인 잘 정리된 형태의 문서를 이용하여 원하는 정보를 찾아내는 것은 연구 개발시 기존 연구 개발된 결과를 파악하는 것뿐만 아니라, 심판이나 소송에서의 증거자료를 찾는 목적에서 매우 중요한 일이 아닐 수 없다.
	특허정보가 가지는 장점은 무엇인가?	특허정보는 연구개발 뿐만 아니라, 과학기술에 대한 국가 정책에 영향을 줄 만큼 그 활용도에 있어서 다양하게 활용되고 있다. 또한 특허정보가 가지는 장점인 잘 정리된 형태의 문서를 이용하여 원하는 정보를 찾아내는 것은 연구 개발시 기존 연구 개발된 결과를 파악하는 것뿐만 아니라, 심판이나 소송에서의 증거자료를 찾는 목적에서 매우 중요한 일이 아닐 수 없다. 따라서 기존에 구축되어 있는 특허정보를 잘 활용하는 것은 기업에 있어서 불필요한 연구개발비를 예방할 수 있고, 새로운 연구개발 방향을 설정하는 측면에서도 매우 중요한 일이라고 할수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

특허 데이터 분석시 효율적인 노이즈 제거와 신뢰도가 향상된 특허 기술수준 평가에 관한 연구
A Study on Efficient Noise Filtering of Patent Data Analysis and Level Assessment of Patent Technology which improve reliability 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

특허 데이터 분석시 효율적인 노이즈 제거와 신뢰도가 향상된 특허 기술수준 평가에 관한 연구 A Study on Efficient Noise Filtering of Patent Data Analysis and Level Assessment of Patent Technology which improve reliability 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

이승호 (64)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

특허 데이터 분석시 효율적인 노이즈 제거와 신뢰도가 향상된 특허 기술수준 평가에 관한 연구
A Study on Efficient Noise Filtering of Patent Data Analysis and Level Assessment of Patent Technology which improve reliability 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper