[논문]효율적인 특허정보 조사를 위한 분류 모형

김영호; 박상성; 장동식

doi:10.17662/ksdim.2019.15.4.103

효율적인 특허정보 조사를 위한 분류 모형
A Novel Classification Model for Efficient Patent Information Research 원문보기

디지털산업정보학회논문지 = Journal of the Korea Society of Digital Industry and Information Management, v.15 no.4, 2019년, pp.103 - 110

김영호 (고려대학교 산업경영공학부) , 박상성 (청주대학교 빅데이터통계학과) , 장동식 (고려대학교 산업경영공학부)

Abstract ▼ AI-Helper

A patent contains detailed information of the developed technology and is published to the public. Thus, patents can be used to overcome the limitations of traditional technology trend research and prediction techniques. Recently, due to the advantages of patented analytical methodology, IP R&D is carried out worldwide. The patent is big data and has a huge amount, various domains, and structured and unstructured data characteristics. For this reason, there are many difficulties in collecting and researching patent information. Patent research generally writes the Search formula to collect patent documents from DB. The collected patent documents contain some noise patents that are irrelevant to the purpose of analysis, so they are removed. However, eliminating noise patents is a manual task of reading and classifying technology, which is time consuming and expensive. In this study, we propose a model that automatically classifies The Noise patent for efficient patent information research. The proposed method performs Patent Embedding using Word2Vec and generates Noise seed label. In addition, noise patent classification is performed using the Random forest. The experimental data is published and registered with the USPTO among the patents related to Ocean Surveillance & Tracking Network technology. As a result of experimenting with the proposed model, it showed 73% accuracy with the label actually given by experts.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

나머지 데이터에 학습된 모형을 사용하여 노이즈 특허분류를 수행한다. 또한, 분류 성능 비교를 위하여 다양한 알고리즘으로 분류한 결과를 함께 제시한다.
그 중 노이즈 특허 문서의 분류는 시간 및 비용이 많이 소모되는 작업이다. 본 논문에서는 이를 해결하고자, 노이즈 특허를 자동으로 분류하는 모형을 제안한다.
본 논문에서는 효율적인 특허정보 조사를 위한 노이즈 특허 분류 모형을 제안하였다. 해당 모형은 Word2Vec과 가중치 행렬을 활용하여 Seed label을 생성하므로, 학습에 필요한 분류된 label이 요구되지 않는다.
본 논문에서는 효율적인 특허정보 조사를 위한 노이즈 특허 분류 모형을 제안한다. 제안하는 방법은 Word2Vec을 활용하여 기술적인 내용을 고려한 특허 임베딩(Patent embedding)을 수행한다.
본 연구에서는 효율적인 특허정보 조사를 위하여 노이즈 특허를 자동으로 분류하는 모형을 제안한다. 제안하는 모형은 아래 <그림 1>과 같이 수행된다.
분류 성능 비교를 위해 Decision Tree, KNN, SVM을 포함하는 다양한 알고리즘의 결과를 함께 제시하였다. 대부분 분류 알고리즘들의 성능이 유사하였으며, 제안한 모형이 실제 전문가들이 분류한 label과 73%의 일치율을 보인 것으로 가장 우수하였다.

제안 방법

본 연구에서는 Seed label을 부여한 특허들에서 더욱 많은 정보를 추출하기 위해 앞서 구축한 DTM을 활용한다. DTM에 Seed label을 부여한 총 40건(노이즈 특허 20건, 유효특허 20건)을 Training data로써, Random forest로 학습한다. 나머지 데이터에 학습된 모형을 사용하여 노이즈 특허분류를 수행한다.
먼저, 검색식을 통해 DB로부터 수집한 특허 문서 데이터에서 명칭, 요약, 청구항을 포함한 텍스트 정보를 추출한다. 다음으로 Word2Vec과 Textmining 기법 활용하여 거리 행렬 및 문서-단어 행렬(Document-Term Matrix, DTM)을 구축한다. 두 행렬을 사용하여 가중치 행렬을 생성하고 검색식 키워드와 비교하여 노이즈 특허 Seed label을 생성한다.
거리 행렬과 DTM을 행렬곱하여 도출한 가중치 행렬의 크기는 580X3758이며, <표 1>의 검색식 단어와 일치하는 단어열만을 추출하였다. 다음으로 해당 열의 값들을 정규화하고, 문서별로 단어 값의 합을 구하여 총 40건의 Seed label을 부여하였다. 아래의 <표 2>는 Seed label의 특허목록을 나타낸다.
추출된 텍스트 정보에 Word2Vec을 활용하여 벡터 공간에 Embedding 한다. 다음으로, 단어 간의 Euclidean distance를 측정하여 거리 행렬을 구축한다.
앞서 추출한 텍스트 정보에 Textmining 기법을 적용하여 전처리를 수행하고 DTM을 구축한다. 또한, DTM과 앞서 구축한 거리 행렬을 행렬곱(Matrix multiplication)하여 가중치 행렬을 구축한다.
이들은 먼저 가중치 행렬을 구축하고, 그래프 기반 방법론을 사용하여 중심단어를 산출하였다. 또한, 중심단어들만을 이용하여 기능별로 휴대폰 리뷰를 분류하였다. 그러나 중심단어만을 사용하여 분류를 진행한다면, 데이터의 정보손실 가능성이 존재한다.
해당 모형은 Word2Vec과 가중치 행렬을 활용하여 Seed label을 생성하므로, 학습에 필요한 분류된 label이 요구되지 않는다. 또한, 특허 데이터의 정보손실 방지를 위해 Seed label의 전체 단어를 Bootstrap 기반의 Random forest로 학습 및 분류한다.
또한, 거리기반 가중치 행렬을 구축하여 노이즈 특허 분류를 위한 Seed label을 생성한다. 마지막으로, 이를 Bootstrap 기반의 Ensemble 모형인 Random forest로 학습 및 분류한다.
8%의 일치율을 보이는 것으로 가장 우수하였다. 본 논문에서는 노이즈 특허 Seed label을 Random forest로 학습 및 분류한다.
본 실험에서는 의 키워드와 일치하는 가중치 행렬의 단어열(Words Columns)만을 추출하여 노이즈 특허 Seed label을 생성한다.
본 연구에서 제안하는 모형은 Word2Vec을 활용하여 가중치 행렬 구축 후, 노이즈 특허 Seed label을 생성한다. <그림 2>는 해당 과정을 도식화한 것이다.
본 연구에서는 노이즈 특허 Seed label 생성을 위한 거리 행렬을 Euclidean distance만을 사용하여 구축하였다. 이는 노이즈 특허분류를 위해 단어의 가중치를 부여하는 작업이다.
그러나 중심단어만을 사용하여 분류를 진행한다면, 데이터의 정보손실 가능성이 존재한다. 본 연구에서는 이와 같은 문제점을 해결하기 위해 초기에 부여한 Seed label의 전체 단어들을 Bootstrap 기반의 Random forest로 학습한다.
앞서 추출한 텍스트 정보에 Textmining 기법을 적용하여 전처리를 수행하고 DTM을 구축한다. 또한, DTM과 앞서 구축한 거리 행렬을 행렬곱(Matrix multiplication)하여 가중치 행렬을 구축한다.
따라서 검색식 키워드가 많이 등장한 것은 유효특허, 상대적으로 적은 것은 노이즈 특허일 가능성이 높다. 이러한 이유로, 제안하는 연구 모형은 검색식에 사용된 키워드와 일치하는 단어를 이용하여 노이즈 특허 Seed label을 생성한다.
Word2Vec을 활용하여 생성한 거리 행렬과 DTM을 행렬곱한 가중치 행렬의 크기는 580X3758이었다. 이를 검색식 키워드 20개와 매칭되는 단어열만을 추출하여 총 40개의 Seed label을 생성하고 Random forest로 학습 및 분류하였다.
본 논문에서는 효율적인 특허정보 조사를 위한 노이즈 특허 분류 모형을 제안한다. 제안하는 방법은 Word2Vec을 활용하여 기술적인 내용을 고려한 특허 임베딩(Patent embedding)을 수행한다. 또한, 거리기반 가중치 행렬을 구축하여 노이즈 특허 분류를 위한 Seed label을 생성한다.

대상 데이터

거리 행렬과 DTM을 행렬곱하여 도출한 가중치 행렬의 크기는 580X3758이며, 의 검색식 단어와 일치하는 단어열만을 추출하였다.
검색식을 구성하여 수집한 특허는 총 580건이다. 이 중 노이즈 특허는 464건(80%), 유효특허는 116건(20%)이다.
본 연구에서 제안하는 모형의 분류 성능 확인을 위해 다음과 같은 특허 데이터를 수집하여 실험을 진행한다. 수집 대상 데이터는 해양감시 네트워크 (Ocean Surveillance & Tracking Network, OSTN) 기술 관련 특허 중 미국 특허청(United States Patent and Trademark Office, USPTO)에 공개 및 등록된 것이다.
수집 대상 데이터는 해양감시 네트워크 (Ocean Surveillance & Tracking Network, OSTN) 기술 관련 특허 중 미국 특허청(United States Patent and Trademark Office, USPTO)에 공개 및 등록된 것이다.
수집된 데이터에서 Textmining 기법을 사용하여 단어를 추출한 결과 총 3758개였다. 이를 Word2Vec 방법 중 Skip-gram을 사용하여 100차원의 공간에 Embedding 하였다.
수집한 특허는 총 580건이었으며, 추출된 단어는 3758개였다. Word2Vec을 활용하여 생성한 거리 행렬과 DTM을 행렬곱한 가중치 행렬의 크기는 580X3758이었다.
실험 데이터로는 OSTN 기술 관련 특허 중 USPTO에 공개 및 등록된 것을 사용하였으며, 특허 검색 DB는 윕스를 이용하였다. 분류 성능 측정을 위한 노이즈 특허 label은 e특허나라의 OSTN 동향보고서에서 관련 기술 전문가들이 직접 분류한 특허목록을 사용하였다.
[10]은 감성분석을 위해 Word2Vec으로 단어 유사도 행렬을 구축하고 그래프 기반 준지도 학습(Semi-Supervised learning)으로 분류하였다. 이들은 준지도 학습 적용 시에 분류된 Label이 존재하는 데이터를 사용하였다. Kim and Park [11]는 특허의 IPC 분류를 위해 Word2Vec으로 가중치 행렬을 생성하고 이를 양방향 장단기 기억 네트워크로 학습 및 분류하였다.

이론/모형

Aung et al. [16] 웹페이지 문서들의 카테고리 다중 분류를 위해 Random forest를 사용하였다. A.
두 방식 모두 유사한 단어끼리는 근접하도록 학습하여 벡터값을 부여한다. 본 논문에서는 일반적으로 성능이 우수하다고 알려진 Skip-gram을 사용한다. 아래의 <식 1>은 Skip-gram의 목적 함수이다.
본 연구에서는 Seed label을 부여한 특허들에서 더욱 많은 정보를 추출하기 위해 앞서 구축한 DTM을 활용한다. DTM에 Seed label을 부여한 총 40건(노이즈 특허 20건, 유효특허 20건)을 Training data로써, Random forest로 학습한다.
수집된 데이터에서 Textmining 기법을 사용하여 단어를 추출한 결과 총 3758개였다. 이를 Word2Vec 방법 중 Skip-gram을 사용하여 100차원의 공간에 Embedding 하였다.

성능/효과

분류 성능 비교를 위해 Decision Tree, KNN, SVM을 포함하는 다양한 알고리즘의 결과를 함께 제시하였다. 대부분 분류 알고리즘들의 성능이 유사하였으며, 제안한 모형이 실제 전문가들이 분류한 label과 73%의 일치율을 보인 것으로 가장 우수하였다.
그중 Search formula Keywords는 Seed label를 생성할 시에 사용한 문서별 점수로만 분류한 것이다. 분류 결과, Random forest를 적용한 것이 73%의 Accuracy를 보인 것으로 가장 우수하였다. 또한, 다른 방법들은 대부분 비슷한 분류 성능을 보였다.
제시한 결과는 분류 알고리즘별로 Accuracy와 F1-score를 모두 나타내었다. 그중 Search formula Keywords는 Seed label를 생성할 시에 사용한 문서별 점수로만 분류한 것이다.

후속연구

이는 노이즈 특허분류를 위해 단어의 가중치를 부여하는 작업이다. 따라서, 향후 연구에서는 다양한 거리 측도를 활용하여 가장 적합한 가중치 행렬 생성 방법에 관한 연구가 필요할 것으로 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Random forest란 무엇인가?	Random forest는 Tree 기반의 Ensemble 분류 모형이며, 일반적으로 좋은 성능을 보인다. 이는 주어진 데이터에서 n개의 자료를 이용한 Bootstrap 표본을 생성한다.
	Random forest에 적용가능한 문제는?	또한, 입력 변수들을 무작위로 추출하고 서로 다른 Decision Tree를 생성한 후, 선형결합하여 최종 분류 모형을 구축한다[13, 14]. Random forest는 회귀(Regression)와 분류(Classification) 문제에 모두 적용이 가능하다[15]. 일반적으로 분류 문제에서의 선형결합 방식은 다수결 원칙(Majority voting)을 적용한다.
	Word2Vec이 전제하고 있는 것은?	[6]이 제안한 단어 분산 표상 기법이다. 이는 같은 맥락(Context)을 가진 단어들은 Embedding 공간상에서 근접하게 위치한다는 분포 가설(Distributional hypothesis)을 전제로 한다[7, 8]. Word2Vec은 신경망 기반으로, 예측 단어 구분에 따라 CBOW(Continuous Bag of Words)와 Skip-gram 방식으로 나뉜다.

참고문헌 (17)

D. Hunt, L. D. Nguyen, M. Rodgers, Patent Searching Tools & Techniques, Wiley, New Jersey, 2007.
A. Abbas, L. Zhang, S. U. Khan, "A literature review on the state-of-the-art in patent analysis," World Patent Information, Vol. 37, 2014, pp.3-13.

상세보기
S. Jun, "A Big Data Learning for Patent Analysis," Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, 2013, pp.406-411.

원문보기 상세보기
Korean Intellectual Property Office (KIPO), Korean Invention Promotion Association (KIPA), Patent and Information Analysis (for Researchers), KIPO, Seoul, 2006.
Korean Intellectual Property Office (KIPO), Korean Intellectual Property Strategy Agency (KISTA), Intellectual Property Research & Development, KIPO, Seoul, 2012.
T. Mikolov, K. Chen, G. Corrado, J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv preprint arXiv:1301.3781, 2013.
X. Rong, "word2vec Parameter Learning Explained," arXiv preprint arXiv:1411.2738, 2016.
S. Goki, Deep Learning from Scratch 2, O'Reilly, California, 2019.
W. Kim, D. Kim, H. Jang, "Semantic Extention Search for Documents Using the Word2vec," The Journal of the Korea Contents Association, Vol. 16, No. 10, 2016, pp.687-692.

원문보기 상세보기
D. Seo, K. H. Mo, J. Park, G. Lee, P. Kang, "Word Sentiment Score Evaluation based on Graph-Based Semi-Supervised Learning and Word Embedding," Journal of the Korean Institute of Industrial Engineers, Vol. 43, No. 5, 2017, pp.330-340.

상세보기
K. Kim, C. Park, "Automatic IPC Classification of Patent Documents Using Word2Vec and Two Layers Bidirectional Long Short Term Memory Network," The Journal of KINGComputing, Vol. 15, No. 2, 2019, pp.50-60.
J. Jeong, K. H. Mo, S. Seo, C. Y. Kim, H. Kim, P. Kang, "Unsupervised Document Multi-Category Weight Extraction based on Word Embedding and Word Network Analysis: A Case Study on Mobile Phone Reviews," Journal of the Korean Institute of Industrial Engineers, Vol. 44, No. 6, 2018, pp.442-451.

상세보기
A. Geron, Hands-on Machine Learning with Scikit-learn & Tensorflow, O'Reilly, California, 2017.
C. Park, Y. Kim, J. Kim, J. Song, H. Choi, R Data Mining, Kyowoosa, Seoul, 2011.
V. Sventnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, B. P. "Feuston, Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling," Journal of Chemical Information and Computer Science, Vol. 43, No. 6, 2003, pp.1947-1958.

상세보기
W. T. Aung, Y. Myanmar, K. H. S. Hla, "Random forest classifier for multi-category classification of web pages," Proceedings of 2009 IEEE Asia-Pacific Services Computing Conference (APSCC), 2009, pp.372-376.
A. Onan, S. Korukoglu, H. Bulut, "Ensemble of keyword extraction methods and classifier in text classification," Expert Systems with Applications, Vol. 57, No. 15, 2016, pp.232-247.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증