[논문]잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템

임현근; 김재윤; 정회경

doi:10.6109/jkiice.2018.22.8.1049

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템
Similar Patent Search Service System using Latent Dirichlet Allocation 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.22 no.8, 2018년, pp.1049 - 1054

임현근 (Department of Computer Engineering, Paichai University) , 김재윤 (Department of Computer Engineering, Paichai University) , 정회경 (Department of Computer Engineering, Paichai University)

초록
AI-Helper

유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

Abstract ▼ AI-Helper

Keyword searching used in the past as a method of finding similar patents, and automated classification by machine learning is using in recently. Keyword searching is a method of analyzing data that is formalized through data refinement. While the accuracy for short text is high, long one consisted of several words like as document that is not able to analyze the meaning contained in sentences. In semantic analysis level, the method of automatic classification is used to classify sentences composed of several words by unstructured data analysis. There was an attempt to find similar documents by combining the two methods. However, it have a problem in the algorithm w the methods of analysis are different ways to use simultaneous unstructured data and regular data. In this paper, we study the method of extracting keywords implied in the document and using the LDA(Latent Semantic Analysis) method to classify documents efficiently without human intervention and finding similar patents.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 특허문서를 기계 학습에 의해 국제 특허 분류(IPC) 기준에 맞게 자동으로 분류하고 유사한 특허를 검색하는 시스템에 관한 것으로 베이지안(Baysian) 확률론을 이용한 기술 주제 분류와 잠재 의미 분석 기법을 이용하여 유사 특허 검색의 효율성을 높일 수 있는 방법을 제안한다. 종래 기계 학습을 이용한 유사 특허문서 검색은 용어 빈도를 고려한 자질 선택 기법에 의존해서 특허를 분류하고 메타 키워드의 가중치를 이용한 검색 방법이었으나, 현대 기술 용어의 발생 속도와 표현의 다양성을 고려할 때 특허 문서들 간의 관련성을 분석하는데 있어서는 용어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하였다.

제안 방법

이는 국가과학기술정보센터(NDSL)에서 학술용으로 제공하는 기능으로 국내/국외 특허 검색서비스를 제공하고 있다. Open API를 사용하여 효과적으로 데이터를 가져오기 위해 검색 쿼리 작성기를 별도로 구현하였다.
이는 그림 3과 같다. 내부 모듈 구성으로 기본적인 화면 입출력 UI 서비스 이외에 내부적으로 Naive bayesian classification 모듈, Text Rank 키워드 추출 모듈, LDA 잠재의미분석 모듈 등 3가지로 구성하며 외부 기능으로 키워드 파싱, 번역, 언어 탐지API 기능을 사용한다. 또한 특허 검색 API로 NOS Open API 모듈을 사용한다.
제한된 학습데이터를 가지고 IPC 분류과정의 효율성을 높이기 위하여 지도학습 방법 중 Naive 베이지안 기계학습 알고리즘 기반의 IPC 자동 분류를 사용한다. 데이터 소스는 특허문서의 초록 필드를 사용하여 동시에다수의 IPC 분류코드를 가지는 다중 레이블 분류(multi-label classification) 모델을 구축한다.
기존의 분류 알고리즘인 Naive 베이지안 알고리즘의 자질 선택기법으로 카이제곱 테스트(Chi-Square Test)를 이용하였고 문서에서 키워드 추출은 Text Rank 기법을 사용하였다. 마지막으로 잠재 의미 추론 기법으로 LDA 알고리즘을 사용하여 특허 의미 유사도를 측정하였다. 서비스범위는 국제, 미국, 유럽, 일본, 중국으로 확대하기 위해서 모든 문서는 영어로 번역해서 사용한다.
언어 확인 API 요청을 할 경우 다음과 같이 0과 1사이의 값을 반환한다. 마지막으로 형태소 분석을 통해 필요한 단어만 추출하는 과정으로 Stop word 필터를 적용하여 불필요한 단어들을 제외하도록 하였다.
이에 종래 방법과 잠재된 의미 유사도를 비교하는 방법을 결합하여 사용하는 방법을 제안하였다. 기존의 분류 알고리즘인 Naive 베이지안 알고리즘의 자질 선택기법으로 카이제곱 테스트(Chi-Square Test)를 이용하였고 문서에서 키워드 추출은 Text Rank 기법을 사용하였다.
유사 문서 검색에 대한 정확한 분류 측정의 객관적인기준을 위하여 실험 과정은 두 단계로 구분해서 진행한다. 첫 번째로는 IPC분류 정확도를 측정하고 두 번째로는 LDA 문서 유사도 검증 테스트를 진행하도록 한다. Naive 베이지안 분류 정확도 테스트를 위하여 WIPO에서 제공하는 분류 학습용 데이터 이외에 테스트 셋을 사용하였다.
학습된 분류 모델을 통해 분석 대상을 적용하여 분류한다. 분류된 결과는 3레벨 128개의 클래스로 분류된다.
키워드 추출은 앞 장에서 설명했듯이 분석 대상 텍스트에서 동시 출현 빈도가 가장 높은 어절을 추출한다. 학습용 분류 데이터를 이용하여 분류 모델을 구성한다. WIPO에서 제공하는 75000개의 영어 기준 학습데이터를 사용하여 모델을 구성하였다.

대상 데이터

불용어(Stopword)는 전치사 대명사 등을 포함 총420개를 사용하였다. 75000개의 학습용 특허 데이터를 사용하였고 i5-1.8Gz 2 core에서 학습 시간은 10분 소요됐다. 테스트 데이터는 A그룹 5160개의 특허를 사용했다.
첫 번째로는 IPC분류 정확도를 측정하고 두 번째로는 LDA 문서 유사도 검증 테스트를 진행하도록 한다. Naive 베이지안 분류 정확도 테스트를 위하여 WIPO에서 제공하는 분류 학습용 데이터 이외에 테스트 셋을 사용하였다. 사용한 테스트 모듈은 Naive 베이지안 알고리즘을 사용하였다.
학습용 분류 데이터를 이용하여 분류 모델을 구성한다. WIPO에서 제공하는 75000개의 영어 기준 학습데이터를 사용하여 모델을 구성하였다. 이는 그림 5와 같다.
두 번째로 LDA 문서 유사도 검출 테스트를 위하여 테스트 데이터는 임의로 50개의 특허 데이터의 이름, 요약, 청구항을 사용 하였다. 문서 잠재 유사도 측정 방법으로 정규 상호정보(NMI, Normalized Mutual Information)를 측정하였다.
05를 사용하고 영문을 제외한 숫자와 기호, 외국어는 제외했다. 불용어(Stopword)는 전치사 대명사 등을 포함 총420개를 사용하였다. 75000개의 학습용 특허 데이터를 사용하였고 i5-1.
8Gz 2 core에서 학습 시간은 10분 소요됐다. 테스트 데이터는 A그룹 5160개의 특허를 사용했다. 총 분석 시간은 3분 걸렸다.

데이터처리

Naive bayesian 알고리즘으로 SVM하고 동일한 결과를 얻을 수 있다는 것을 확인하였고, LDA 알고리즘을사용하여 다중 의미 분석까지 하였다.
총 분석 시간은 3분 걸렸다. 측정 방법은 테스트 특허의 분류 결과값 0-1 사이 값의 전체 평균으로 계산하였다. 실험에서 평균 특허 분류 정확도는 88.

이론/모형

LDA 알고리즘을 사용하여 특허 문서들의 Topic을 분석한다. 분석된 결과에 따라 분석 대상과의 Topic 유사도 결과값을 도출한다.
이에 종래 방법과 잠재된 의미 유사도를 비교하는 방법을 결합하여 사용하는 방법을 제안하였다. 기존의 분류 알고리즘인 Naive 베이지안 알고리즘의 자질 선택기법으로 카이제곱 테스트(Chi-Square Test)를 이용하였고 문서에서 키워드 추출은 Text Rank 기법을 사용하였다. 마지막으로 잠재 의미 추론 기법으로 LDA 알고리즘을 사용하여 특허 의미 유사도를 측정하였다.
두 번째로 LDA 문서 유사도 검출 테스트를 위하여 테스트 데이터는 임의로 50개의 특허 데이터의 이름, 요약, 청구항을 사용 하였다. 문서 잠재 유사도 측정 방법으로 정규 상호정보(NMI, Normalized Mutual Information)를 측정하였다. 이는 Clustering이 얼마나 잘되었는지에 대한 평가 지표로 아래의 식에 따른다[6].
문서의 잠재 의미 분석을 위한 방법으로 토픽 모델링(Topic Modeling) 기법 중 LDA 알고리즘을 사용하였다. 기계 학습 및 자연언어 처리 분야에서 토픽 모델이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다.
분류 알고리즘을 적용하기 위한 전처리 과정으로 특징을 추출하는 과정에서 다양한 방법들이 고안되었고, 여기서는 자질 선택 방법으로 기존 사용하던 N-gram 방식보다 개선된 방법으로 카이제곱 분포 통계 기법을 사용하였다[1].
분석 대상 특허를 검색하기 위한 용도로 사용할 키워드 추출 방법으로 Text Rank 알고리즘을 사용하여 분석대상이 되는 문서에서 중요도가 높은 키워드를 추출한다[2]. TextRank는 텍스트에 관한 graph-based ranking model로, Google의 PageRank를 활용한 알고리즘이다[3].
Naive 베이지안 분류 정확도 테스트를 위하여 WIPO에서 제공하는 분류 학습용 데이터 이외에 테스트 셋을 사용하였다. 사용한 테스트 모듈은 Naive 베이지안 알고리즘을 사용하였다.
제한된 학습데이터를 가지고 IPC 분류과정의 효율성을 높이기 위하여 지도학습 방법 중 Naive 베이지안 기계학습 알고리즘 기반의 IPC 자동 분류를 사용한다. 데이터 소스는 특허문서의 초록 필드를 사용하여 동시에다수의 IPC 분류코드를 가지는 다중 레이블 분류(multi-label classification) 모델을 구축한다.

성능/효과

K-mean Naive 베이지안을 사용한 Single Match 정확도는 87.2%로 나왔다. Multi Match 정확도는 이보다5% 낮다[4].
본 논문에서 사용한 두 가지 알고리즘을 활용하여 저사양 컴퓨터에서 효과적으로 유사 특허 검색 시스템을 구현할 수 있었다. 또한 기존 LDA를 보완한 LDAK-mean 알고리즘 사용으로 기존 NMI = 0.74에서 평균 NMI = 0.85 까지 높이고 AU-ROC 정확도 테스트에서60% 에서 73% 까지 높일 수 있었다.
본 논문에서 사용한 두 가지 알고리즘을 활용하여 저사양 컴퓨터에서 효과적으로 유사 특허 검색 시스템을 구현할 수 있었다. 또한 기존 LDA를 보완한 LDAK-mean 알고리즘 사용으로 기존 NMI = 0.
측정 방법은 테스트 특허의 분류 결과값 0-1 사이 값의 전체 평균으로 계산하였다. 실험에서 평균 특허 분류 정확도는 88.54%로 나왔다.
위의 샘플 데이터와 50개의 데이터셋을 가지고 테스트시 평균 NMI = 0.7468의 값을 얻었다. 분석 대상에 대한 Purity Accuracy = 0.
7% 나왔다[5]. 위의 실험 결과 CHI를 사용한 Naive 베이지안은 SVM와 동일한 결과를 보인다.

후속연구

향후연구로는 두 가지 알고리즘을 하나로 만드는 것으로 LDA 방식에 Naive bayesian의 특징을 Topic으로 사용할 수 있는가에 대한 추가 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	토픽 모델링이란 무엇인가?	문서의 잠재 의미 분석을 위한 방법으로 토픽 모델링(Topic Modeling) 기법 중 LDA 알고리즘을 사용하였다. 기계 학습 및 자연언어 처리 분야에서 토픽 모델이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 현재 사용되는 가장 일반적인 주제 모델링 방법인 LDA는 여러 주제가 혼합된 문서를 다룰 수 있게 한다. LDA의 아키텍처, 즉 LDA가 가정하는 문서생성과정은 그림 2와 같다.
	최근에 사용되고 있는 유사 특허를 검색하는 방법은?	유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다.
	PageRank 알고리즘은 어떤 방식으로 동작하는가?	PageRank 알고리즘은 하이퍼링크를 가지는 웹 문서에 상대적 중요도에 따라 가중치를 부여하는 방법으로 서로간의 인용과 참조로 연결된 임의의 묶음에 적용할 수 있다. Page Rank가 높은 웹페이지는 다른 웹 사이트로 부터 링크를 받는다. 즉 다른 사이트가 참조를 많이한 것으로 해석할 수 있다. TextRank 방식으로 추출된 키워드에 상호 동시 출연 빈도수 Pointwise Mutual information(PMI) 값이 높은 키워드를 추출한다.

참고문헌 (7)

Suhendra, I. Ranggadara, "Naive Bayes Algorithm with Chi Square and NGram Feature for Reviewing Laptop Product on Amazon Site," International Research Journal of Computer Science, Issue 12, vol. 4, pp. 28-33, Dec. 2017.
J. W. Lee, I. S. Kang, H. K. Jung, "XML Document Keyword Weight Analysis based Paragraph Extraction Model," Journal of the Korea Institute of Information and Communication Engineering, vol. 21, no. 11, pp. 2133-2138, Nov. 2017.
K. H. Song, Y. S. Kim, "Automatic Keyword Extraction using Hierarchical Graph Model Based on Word Co-occurrences," Journal of Korean Institute of Information Scientists and Engineers, vol. 44, no. 5, pp. 522-536, May. 2017.
S. R. Lim, Y. J. Kwon, "IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents," Journal of Internet Computing and Services, vol. 18, no. 1, pp. 77-88, Feb. 2017.

원문보기 상세보기
T. H. Jeen, "Patent documents automatic classification with dimension reduced features using latent semantic analysis," M. S. dissertation, Computer and Information Technology, Korea University, Feb. 2014.
R. Mehrotra, S. Sanner, W. Buntine, L. Xie, "Improving LDA Topic Models for Microblogs via Tweet Pooling and Automatic Labeling," ACM Special Interest Group on Information Retrieval, pp. 889-892, Jul. 2013.
W. S. Kim, S. Y. Kim, "Document Clustering Technique by K-means Algorithm and PCA," Journal of the Korea Institute of Information and Communication Engineering, vol. 18, no. 3, pp. 625-630, Mar. 2014.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증