본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.
본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.
In this paper, we propose optimal methodologies for classifying patent literature by examining various feature extraction methods, machine learning and deep learning models, and provide optimal performance through experiments. We compared the traditional BoW method and a distributed representation m...
In this paper, we propose optimal methodologies for classifying patent literature by examining various feature extraction methods, machine learning and deep learning models, and provide optimal performance through experiments. We compared the traditional BoW method and a distributed representation method (word embedding vector) as a feature extraction, and compared the morphological analysis and multi gram as the method of constructing the document collection. In addition, classification performance was verified using traditional machine learning model and deep learning model. Experimental results show that the best performance is achieved when we apply the deep learning model with distributed representation and morphological analysis based feature extraction. In Section, Class and Subclass classification experiments, We improved the performance by 5.71%, 18.84% and 21.53%, respectively, compared with traditional classification methods.
In this paper, we propose optimal methodologies for classifying patent literature by examining various feature extraction methods, machine learning and deep learning models, and provide optimal performance through experiments. We compared the traditional BoW method and a distributed representation method (word embedding vector) as a feature extraction, and compared the morphological analysis and multi gram as the method of constructing the document collection. In addition, classification performance was verified using traditional machine learning model and deep learning model. Experimental results show that the best performance is achieved when we apply the deep learning model with distributed representation and morphological analysis based feature extraction. In Section, Class and Subclass classification experiments, We improved the performance by 5.71%, 18.84% and 21.53%, respectively, compared with traditional classification methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
둘째, 특허 문헌 분류를 위해 어떤 분류 모델을 사용하는 것이 더 효과적인가를 조사한다. 문헌 분류를 위해 전통적인 기계학습 방법인 나이브베이즈(Naive Bayes), kNN(k-Nearest Neighbor), SVM(Support Vector Machines)이 주로 사용되어 왔고, 최근 들어 딥러닝 방법으로 FCNN(Fully-Connected Neural Networks),CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 등과 같은 모델들이 자연어 처리 분야에서도 널리 활용되고 있다.
RNN은 일정한 연산을 수행하는 셀(Cell)을 두고, 입력 값을 순차적으로 연산하면서 가중치를 갱신하는 형태의 네트워크로, 문맥이나 단어 목록 내의 연결성을 분석한다. 본 논문에서는 가장 일반적으로 활용되는 RNN 셀 구조인 LSTM(LongShort-Term Memory)을 통해 정방향 RNN 연산을 수행하는 방법을 선택하였다. 입력된 벡터는 단어 단위로 LSTM 셀 내부 구조를 통해 연산되며, 이전 입력 벡터의 결과와 결합되어 현재 상태와 출력 값을 생성하게 된다.
본 논문에서는 특허 문헌 분류에 적합한 자질과 분류 모델을 알아보기 위하여, 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 사용하여 분류 성능을 살펴보았으며, 그 결과를 정리하면 다음과 같다.
본 논문에서는 특허문헌 분류를 위해 사용되는 다양한 파라미터들 중에서 가장 좋은 파라미터를 찾기 위하여 과 같이 성능평가 대상을 구분하여 실험하였다.
분산표현과 딥러닝 모델을 신문기사 분류나 감성분류 등에 적용한 연구는 있었지만, 지금까지 특허 문헌 분류에 적용한 사례는 없었다. 본 논문은 딥러닝 모델 중 FCNN, CNN, RNN의 기본적인 기능만을 사용하여 분류 시스템을 구현하였고, 분류 성능을 전통적인 기계학습모델과 비교하여 그 우수성을 입증하였으며, 이를 통해 향후 특허 문헌 분류 모델 연구에 대한 방향성을 제시하였다.
이에, 특허 문헌을 구성하고 있는 단어들로부터 분류를 위해 유용한 자질을 추출하는 방법이 가장 중요하고, 추출된 자질을 학습하고 실제 분류를 수행하는 분류 모델 또한 중요하다. 본 논문은 특허 문헌으로부터 분류를 위한 더욱 적합한 특징을 추출하고, 더 좋은 분류 성능을 제공하는 모델을 알아보기 위해 다음과 같이 연구를 진행하였다.
이에 본 논문에서는 기존 연구에서 많이 사용되었던 전통적인 기계학습 모델을 이용하여 특허 문헌에 대한 분류 성능을 측정하고, 이를 기반으로 딥러닝 모델의 분류 성능과 비교하기 위하여, 와 같이 기계학습 기반의 특허문헌 분류 모델10)을 구현하였다.
제안 방법
14) 본 논문에서는 특허 문헌의 필드 중 초록을 특허 분류의 기본 자질로 사용하고, 영문제목, 국문 제목을 추가 자질로 사용한다. 이에 딥러닝 모델에 대한 입력은 영문제목, 국문제목, 초록으로 구성되며, 이 중 초록은 모든 실험에서 항상 사용되고, 영문제목과 국문제목은 4.
4.5까지는 특허 문헌의 초록만을 대상으로 실험이 진행되었고, 본 실험에서는 영문제목과 국문제목을 추가하여 그 성능을 비교한다. 국문제목과 영문제목을 제외한 나머지 하이퍼 파라미터는 4.
9) 4가지 워드 임베딩 벡터 모델(CBOW, Skip-Gram,GloVe, fastText), 4가지 벡터공간(50, 100, 200,300), 그리고 3가지 단어 문맥 윈도우(10, 15, 20)의 조합을 사용하여 4가지 문헌 집합 당 각각 48가지의 워드 임베딩 벡터를 생성하였다.
입력된 단어와 벡터의 곱으로 이루어진 2차원 자질 벡터를 1차원으로 평탄화하여 입력하고, FCNN을 거친 후 출력 벡터로 변환된다. FCNN의 활성화 함수는 사전실험을 통하여 ReLU(Rectified Linear Unit)로 선택하였다.
NOUN과 NAV(Noun, Adjective, Verb)는형태소 분석기의 품사태깅7) 결과를 이용하여 추출된 단어들로 특허 문헌 집합을 생성한다. <표3>은 형태소 분석기를 이용하여 초록에 대한 품사 태깅이 수행된 문헌의 예를 보여준다.
학습 자질을 추출하기 위해 현재까지 가장 성능이 좋다고 알려진 fastText(벡터 크기 200, 윈도우 크기 15)를 사용하였다. TF-ICF를 사용한 경우와 달리, 문헌 내의 모든 단어들에 워드임베딩 벡터를 적용한 값들을 합산한 후 이에 대한 평균값을 사용하여 문헌을 표현하는 벡터로 구성하였다.
5에서 좋은 실험결과를 보여준 NOUN과 NAV를 사용하였다. 국문제목과 영문제목에 대한 딥러닝 모델로 CNN과 RNN의 조합을 선택하도록 조건을 구성한 후 실험을 수행하였다.
기계학습 기반의 모델을 이용하여 본 논문에서 제안하는 워드 임베딩 벡터의 성능을 검증하기 위하여 나이브베이즈, kNN, SVM 3가지 모델을 사용하였고, 학습집합은 “초록”만을 이용하여 구성하였다.
다음으로, 두 번째는 선학습된 워드 임베딩벡터 48가지에 대한 성능 분포를 살펴본다. 딥러닝 모델은 앞의 실험과 마찬가지로 동일한 CNN 모델과 하이퍼 파라미터를 사용하였고, 48가지의 워드 임베딩 벡터에 대해 실험을 진행하였다.
Larkey(1999)는 미국특허문헌을 대상으로 분류에 대한 연구를 수행하였다. 단어와 명사구의 조합을 색인을 위한 용어로 선정하였으며, 빈도수를 기반으로 용어에 대한 가중치를 부여하고 임계치 이상인 용어들만을 분류를 위해 사용하였다. 특허 문헌 중에서 “speech signal processing” 서브클래스 수준에 대한 분류 실험에서 최고 32%의 성능을 얻었다.
무작위로 초기화된 워드 임베딩 벡터는 학습집합에 대한 데이터에서만 학습이 진행되고, 선학습된 워드 임베딩 벡터는 수집된 전체 문헌집합으로 구축된 상태에서 추가적으로 학습이 진행된다. 딥러닝 모델은 4.3의 실험에서 가장 우수한 성능을 보였던 CNN 모델을 사용하고, 최고 성능을 보여주었을 때 사용하였던 하이퍼 파라미터로 고정한 후, 무작위 초기화된 벡터와 선학습된 워드 임베딩 벡터18)에 대해 실험을 진행하였다.
다음으로, 두 번째는 선학습된 워드 임베딩벡터 48가지에 대한 성능 분포를 살펴본다. 딥러닝 모델은 앞의 실험과 마찬가지로 동일한 CNN 모델과 하이퍼 파라미터를 사용하였고, 48가지의 워드 임베딩 벡터에 대해 실험을 진행하였다.
모든 분류 실험에서 워드 임베딩 벡터 중 fastText를 사용하였을 때 가장 좋은 성능을 보여주었기 때문에, 이후 진행되는 실험에서 4.4를 제외하고 워드 임베딩 벡터를 fastText로 고정하고 진행하였다.
본 논문에서 기계학습 모델은 기존 기계학습 방법에서 사용하던 방법 중의 하나인 TF-ICF와 워드 임베딩 벡터를 이용하는 2가지 방법을 사용하여 자질을 추출하고 성능을 비교한다.
이미지 분석에서 주로 활용되던 CNN은 Collobert and Weston(2008)의 연구를 기점으로 점점 자연어 처리에도 활용되면서, 문장의 구조 분석을 활용한 연구에서 우수한 성능을 보였다. 본 논문에서 입력된 2차원 자질 벡터는 이미지와 유사한 2차원 벡터로 구성되고, 실험에서 설정된 필터 단위로 1차원적인 컨볼루션 연산을 수행하고 그 결과에 최대값 풀링을 적용하여 결과 벡터를 생성한다.
문헌 분류를 위해 전통적인 기계학습 방법인 나이브베이즈(Naive Bayes), kNN(k-Nearest Neighbor), SVM(Support Vector Machines)이 주로 사용되어 왔고, 최근 들어 딥러닝 방법으로 FCNN(Fully-Connected Neural Networks),CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 등과 같은 모델들이 자연어 처리 분야에서도 널리 활용되고 있다. 본 논문에서는 기계학습 모델과 딥러닝 모델들을 특허 문헌 분류에 적용하여 분류 성능을 평가하고 적합한 모델을 분석한다.
본 논문에서는 입력된 임베딩 벡터에 대해 다양한 딥러닝 모델을 적용하여 실험할 수 있도록 구성하였다. 활용할 수 있는 딥러닝 구조는 가장 기본적인 모델인 완전연결 네트워크(FCNN: Fully-Connected Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 3가지이다.
본 논문에서는 최근 자연어 처리 분야에서 좋은 평가를 받고 있는 워드 임베딩 벡터를 자질추출 방법으로 사용하고, 딥러닝 모델을 이용한 특허 문헌 분류 시스템을 제안한다. 전통적인 자질추출 방법과 기계학습 모델과의 성능 비교를 통해 특허 문헌 분류에 적합한 자질추출 방법과 분류 모델을 살펴본다.
수집된 특허문헌에서 문헌 분류를 위해 필요한 ‘제목’5)과 ‘초록’ 필드를 추출하고, ‘국문제목’과 ‘초록’은 와 같이 4가지 방법6)으로 단어 추출을 진행하여 각각 연도별로 특허 문헌집합을 구축한다.
이 중에서 형태소분석기를 이용한 품사태깅을 통해 명사, 형용사, 동사 등의 단어를 선택하여 사용하는 방법과, 바이그램이나 트라이그램을 사용하여 단어를 선택하는 방법이 일반적으로 많이 사용된다. 어떤 단어 선택 방법이 특허 문헌 분류에 가장 영향력이 있는지를 실험하고 그 성능을 분석한다.
학습집합은 NOUN을 사용하였고, 기계학습 모델로는 나이브베이즈, kNN, SVM을 이용하였다. 워드 임베딩 벡터는 CBOW, SkipGram, GloVe, fastText 4가지15)를 각각 비교하였다.
최근 들어 단어의 주변 문맥으로부터 단어에 대한 분산 표현을 추출하는 워드 임베딩방식이 주목을 받고 있다. 이 2가지 방식에 대하여 단어 표현력을 살펴보고, 특허 문헌 분류에 대한 성능을 조사한다.
<표 5>는 H02의 서브클래스에서 추출된 단어 들 중 각 범주별로 최상위 TF-ICF 값을 갖는 10개의 단어를 보여준다. 이 작업이 완료된 후, 추출된 5,000개의 단어를 이용하여 자질을 추출할 때, 각 단어에 대한 가중치는 TF-IDF 값을 사용하여 할당한다.
국문제목과 초록은 기 구축된 워드 임베딩벡터를, 영문제목은 무작위로 초기화된 벡터를 이용하고, 학습을 진행 하는 동안 해당 워드 임베딩 벡터를 동적으로 학습한다. 입력된 문헌은 임베딩 벡터를 거쳐 축소된 차원으로 변경되고, 실험에서 선택된 3가지 딥러닝 모델 중한 가지를 적용하여 계산을 수행하고 그 결과가 통합되어 최종 분류를 위한 FCNN 모델로 입력되고 분류가 수행된다.
본 논문에서는 최근 자연어 처리 분야에서 좋은 평가를 받고 있는 워드 임베딩 벡터를 자질추출 방법으로 사용하고, 딥러닝 모델을 이용한 특허 문헌 분류 시스템을 제안한다. 전통적인 자질추출 방법과 기계학습 모델과의 성능 비교를 통해 특허 문헌 분류에 적합한 자질추출 방법과 분류 모델을 살펴본다. 분류 모델의 성능에 대한 평가는 조화평균(f1-score)을 사용하며, 정확률과 재현율을 부가적인 성능으로 제공한다.
워드 임베딩 벡터를 이용한 실험은 2가지 경우로 분리하여 살펴본다. 첫 번째, 무작위로 초기화된 워드 임베딩 벡터와 선학습된 워드 임베딩 벡터를 이용한 분류 성능을 알아본다. 무작위로 초기화된 워드 임베딩 벡터는 학습집합에 대한 데이터에서만 학습이 진행되고, 선학습된 워드 임베딩 벡터는 수집된 전체 문헌집합으로 구축된 상태에서 추가적으로 학습이 진행된다.
첫째, 난해한 용어로 구성된 특허 문헌으로부터 분류를 위해 좋은 변별력을 지닌 자질 추출 방법을 살펴본다. 문헌 분류를 위한 첫 단계는 문헌으로부터 분류를 위한 자질을 추출하는 작업이다.
2GRAM과 3GRAM은 형태소 분석을 사용하지 않고, 원본 문헌에 대하여 멀티그램을 적용하여 단어를 추출하는 방법이다. 초록 문장의 단어들을 공백으로 분리한 뒤, 각 분리된 단어에 대하여 바이그램과 트라이그램을 적용하여 어휘집을 구축한다. 예를 들어, “전기자동차”의 경우 바이그램을 적용하면 “전기”, “기자”, “자동”, “동차” 4개의 단어를 추출하고, 트라이그램을 적용하면 “전기자”, “기자동”, “자동차” 3개의 단어를 추출한다.
다섯째, 특허 문헌을 구성하는 가장 기본적인 필드는 영문제목, 국문제목과 초록이다. 초록만을 사용하여 실험한 결과와, 영문제목과 국문제목에 대해 FCNN, CNN, RNN 3가지 딥러닝 모델을 조합하여 특허 분류 성능에 미치는 영향을 조사한다.
2017) 4가지가 있으며, 워드 임베딩 벡터구축 시 벡터 크기와 윈도우 크기에 따라 다양한 임베딩 벡터를 생성할 수 있다. 특허 문헌으로부터 구축된 다양한 워드 임베딩 벡터 중에서 어떤 방법으로 구축된 벡터가 특허 문헌 분류를 위해 표현력이 가장 좋은지를 실험하고 결과를 살펴본다.
학습집합과 검증집합은 2015∼16년도를 통합한 문헌집합을 8:2 비율로 분할하여 생성하였고, 전체 학습 집합의 구축 정보는 와 같다.
대상 데이터
를 통해 수행되었다. 1996년부터 2017년도까지 22년 동안 전체 2,038,553건의 특허문헌을 수집하였다. 수집된 특허문헌에서 문헌 분류를 위해 필요한 ‘제목’5)과 ‘초록’ 필드를 추출하고, ‘국문제목’과 ‘초록’은 <표 2>와 같이 4가지 방법6)으로 단어 추출을 진행하여 각각 연도별로 특허 문헌집합을 구축한다.
5까지는 특허 문헌의 초록만을 대상으로 실험이 진행되었고, 본 실험에서는 영문제목과 국문제목을 추가하여 그 성능을 비교한다. 국문제목과 영문제목을 제외한 나머지 하이퍼 파라미터는 4.5와 동일하고, 학습집합은 4.5에서 좋은 실험결과를 보여준 NOUN과 NAV를 사용하였다. 국문제목과 영문제목에 대한 딥러닝 모델로 CNN과 RNN의 조합을 선택하도록 조건을 구성한 후 실험을 수행하였다.
특허문헌 수집은 특허정보넷 키프리스 홈페이지4)를 통해 수행되었다. 1996년부터 2017년도까지 22년 동안 전체 2,038,553건의 특허문헌을 수집하였다.
데이터처리
4.2 실험에서 여러 워드 임베딩 벡터 중에서 가장 높은 성능을 보여준 fastText를 적용하여 딥러닝의 분류 성능을 진행하였고, 4.2의 fastText를 사용한 기계학습 모델과 성능을 비교하였다. 딥러닝 모델 실험을 위해 사용된 하이퍼 파라미터는 <표 9>와 같다.
기존 기계학습 방법에서 사용한 자질 추출방법 중의 하나인 TF-ICF와 본 논문에서 제안한 워드 임베딩 벡터를 자질로 사용하는 방법을 전통적인 기계학습 모델을 이용하여 성능을 비교하였다. 학습집합은 NOUN을 사용하였고, 기계학습 모델로는 나이브베이즈, kNN, SVM을 이용하였다.
이론/모형
딥러닝 모델은 4.3과 마찬가지로 CNN을 사용하였고, 하이퍼 파라미터도 4.3과 동일하게 설정하였으며, 워드 임베딩 벡터는 4.4에서 가장 우수한 성능을 보였던 fastText(v200, w15)를 사용하여 실험을 진행하였다.
전통적인 기계학습 방법에서 학습집합에서 출현하는 모든 단어들을 이용하여 학습하는 것이 불가능하기 때문에, 문헌 분류를 위해 유용한 단어들을 선별하는 작업을 먼저 수행하고, 이후 이 단어들에 가중치를 부여하는 작업을 수행하게 된다. 본 논문에서는 유용한 단어들을 선별하기 위하여 Chen and Yang(2012)와 임소라, 권용진(2017)의 연구에서 사용되었던 TF-ICF을 이용하였다.
전통적인 자질추출 방법과 기계학습 모델과의 성능 비교를 통해 특허 문헌 분류에 적합한 자질추출 방법과 분류 모델을 살펴본다. 분류 모델의 성능에 대한 평가는 조화평균(f1-score)을 사용하며, 정확률과 재현율을 부가적인 성능으로 제공한다.
Koster and Secutter(2003)은 유럽특허문헌에 대한 분류를 수행하였다. 자질 추출 방법으로 단어와 명사구에 대한 비교 실험을 수행하였으며, 분류 모델은 퍼셉트론의 변형인 Winnow을 사용하였고, 섹션 수준에 대한 분류에서 79.0%의 정확률을 보였다.
최종 분류를 위한 딥러닝 모델은 3.3.2에서 설명된 FCNN을 사용하였으며, 다중 분류를 위해 시그모이드(Sigmoid)를 활성함수로 적용하였다. 최종 출력은 해당되는 IPC 계층의 범주갯수 만큼의 차원을 갖는 배열이 되고, 각 배열의 값이 임계치 0.
예를 들어, 워드 임베딩 벡터 구축 시 사용한 벡터 크기가 200이라면 한 단어를 표현하기 위한 공간은 전체 단어의 개수 85,417차원이 아닌 200차원이 된다. 학습 자질을 추출하기 위해 현재까지 가장 성능이 좋다고 알려진 fastText(벡터 크기 200, 윈도우 크기 15)를 사용하였다. TF-ICF를 사용한 경우와 달리, 문헌 내의 모든 단어들에 워드임베딩 벡터를 적용한 값들을 합산한 후 이에 대한 평균값을 사용하여 문헌을 표현하는 벡터로 구성하였다.
기존 기계학습 방법에서 사용한 자질 추출방법 중의 하나인 TF-ICF와 본 논문에서 제안한 워드 임베딩 벡터를 자질로 사용하는 방법을 전통적인 기계학습 모델을 이용하여 성능을 비교하였다. 학습집합은 NOUN을 사용하였고, 기계학습 모델로는 나이브베이즈, kNN, SVM을 이용하였다. 워드 임베딩 벡터는 CBOW, SkipGram, GloVe, fastText 4가지15)를 각각 비교하였다.
성능/효과
모든 분류에서 명사, 형용사, 동사를 추출하여 학습집합을 구축한 NAV 방식이 가장 좋은 성능을 보여주었고, 명사만 대상 단어로 이용한 NOUN 방식이 근소한 차이로 낮은 성능을 보여줌을 알 수 있다. 2GRAM과 3GRAM 방식을 이용한 단어 추출 방식은 NAV와 NOUN 방식에 비해 좋지 않은 성능을 보여주었다.
SVM의 경우 섹션에 대한 분류에서는 워드임베딩 벡터로 fastText를 사용하였을 경우 근소하게 좋은 성능을 보여주었으나, 클래스와 서브클래스 분류에서는 전통적인 TF-ICF 방법이 더 좋은 결과를 보여주었다. SVM은 전체 자질 중에서 분류를 위해 필요로 되는 지지벡터들만을 선별하여 사용하는 특징을 지닌 모델이다.
분류기는 각 분류 수준에서 활성화되어 있는 분류노드들에 대해서만 문헌의 분류 점수를 결정하고, 이 점수에 의해 다음 분류 수준에서 활성화되는 분류노드를 결정한다. WIPO-alpha 집합에 대하여 성능 평가를 수행하였고, 서브클래스 수준에서 53.25%의 정확도를 보여주었다.
kNN 모델은 모든 실험에서 워드 임베딩 벡터를 사용하였을 경우에 압도적으로 좋은 성능을 보여주었으며, 다른 모델과의 비교에서도 섹션을 제외하고 가장 우수한 성능을 보여주었다. kNN은 분류대상 문헌을 표현하는 모든 벡터들과 학습집합에 있는 모든 문헌들에 대한 자질을 전부 비교하여 분류값을 결정한다.
기계학습 모델 중 나이브베이즈 모델은 자질추출의 방법과 상관없이 분류 성능의 차이가 크지 않았으며, 다른 모델들에 비해 매우 낮은 성능을 보여주었다.
임소라, 권용진(2017)은 TF-ICF를 이용하여 단어들에 랭킹을 부여하고, 서브클래스별로 상위 100개의 단어를 추출하여 분류 자질로 선택하였다. 나이브베이즈 모델을 분류모델로 사용하였고, 제목, 초록, 청구항, 기술분야, 배경기술 필드의 조합에 대해 성능 실험을 수행하여 청구항을 제외한 제목, 초록, 기술분야, 배경기술 조합에서 가장 좋은 70.00%의 성능을 보여주었다.
넷째, 특허 문헌으로부터 단어 추출 시 2GRAM, 3GRAM 같은 멀티그램 방식보다는 형태소 분석기를 적용한 품사 태깅 결과를 이용한 방법이 유용한 것으로 나타났다.
다섯째, 분류를 위한 자질로 초록만을 사용하는 것보다 국문제목과 영문제목 등의 자질을 추가할 때, 성능이 향상되는 것으로 입증되었다.
다섯째, 특허 문헌을 구성하는 가장 기본적인 필드는 영문제목, 국문제목과 초록이다. 초록만을 사용하여 실험한 결과와, 영문제목과 국문제목에 대해 FCNN, CNN, RNN 3가지 딥러닝 모델을 조합하여 특허 분류 성능에 미치는 영향을 조사한다.
둘째, 딥러닝 모델을 적용하였을 경우 기존 기계학습 모델보다 섹션, 클래스, 서브클래스의 모든 분류 실험에서 좋은 성능을 보였으며, 범주갯수가 많아 분류에 대한 난이도가 더 높아질수록 딥러닝이 더 우수한 결과를 보여주는 것으로 평가되었다.
섹션, 클래스, 서브클래스 모든 분류 실험에서 딥러닝 모델이 기계학습 모델보다 훨씬 좋은 성능을 보여주었고, 딥러닝 모델 중 가장 좋은 성능을 보여준 모델은 CNN이었다. 딥러닝 모델과 기계학습 모델의 성능 차이를 구체적으로 살펴보면, 섹션 분류에서 딥러닝의 CNN 모델과 기계학습의 SVM 모델의 성능차이는 4.36으로 크지 않지만, 클래스 분류에서는 CNN과 kNN이 16.93, 서브클래스 분류에서는 19.51로 그 차이가 더욱 크게 나타났다. 분류할 범주갯수의 증가로 분류복잡도가 높아질수록 딥러닝 모델이 더 적합한 분류 모델임을 알 수 있다.
모든 분류에서 명사, 형용사, 동사를 추출하여 학습집합을 구축한 NAV 방식이 가장 좋은 성능을 보여주었고, 명사만 대상 단어로 이용한 NOUN 방식이 근소한 차이로 낮은 성능을 보여줌을 알 수 있다. 2GRAM과 3GRAM 방식을 이용한 단어 추출 방식은 NAV와 NOUN 방식에 비해 좋지 않은 성능을 보여주었다.
SVM은 전체 자질 중에서 분류를 위해 필요로 되는 지지벡터들만을 선별하여 사용하는 특징을 지닌 모델이다. 본 실험에서 SVM이 워드 임베딩 벡터의 전체차원을 제대로 활용하지 못하는 반면, TF-ICF에서는 필요한 소수의 지지벡터들을 잘 선별하였다고 볼 수 있다.
51로 그 차이가 더욱 크게 나타났다. 분류할 범주갯수의 증가로 분류복잡도가 높아질수록 딥러닝 모델이 더 적합한 분류 모델임을 알 수 있다.
분산표현 기법인 워드 임베딩 벡터를 사용하고, 형태소 분석을 이용한 문헌집합 구축을 기반으로 CNN 모델을 적용하였을 경우에 분류성능이 가장 우수한 것으로 나타났으며, 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.8%, 21.53% 우수한 분류 성능을 보여주었다.
2의 기계학습 모델의 실험결과와 딥러닝 모델의 실험결과를 보여준다. 섹션, 클래스, 서브클래스 모든 분류 실험에서 딥러닝 모델이 기계학습 모델보다 훨씬 좋은 성능을 보여주었고, 딥러닝 모델 중 가장 좋은 성능을 보여준 모델은 CNN이었다. 딥러닝 모델과 기계학습 모델의 성능 차이를 구체적으로 살펴보면, 섹션 분류에서 딥러닝의 CNN 모델과 기계학습의 SVM 모델의 성능차이는 4.
<표 13>은 국문제목과 영문제목을 추가한 분류 성능에 대한 결과이다. 섹션, 클래스, 서브클래스 모든 실험에서 국문제목과 영문제목을 추가한 경우에 초록만을 사용하여 분류를 수행한 경우보다 좋은 성능을 나타내고 있으며, 4.5 실험과 마찬가지로 NAV를 사용한 경우에 가장 좋은 성능을 보여주었다.
셋째, 워드 임베딩 벡터에 대한 실험에서는 fastText, Skip-Gram, CBOW, GloVe 순으로 좋은 성능을 보여주는 것으로 나타났다.
<표 11>에서 보는바와 같이, 모든 분류 체계에서 선학습 벡터를 이용하고 학습을 진행하는 방법이 더 우수한 결과를 보여주었으며, 하위분류 체계로 갈수록 분류 성능이 더 차이가 나고 있음을 알 수 있다. 분류할 범주의 수가 많아져서 분류 복잡도가 증가할수록 선학습된 임베딩 벡터를 사용하는 방법이 분류 성능에 도움을 준다고 볼 수 있다.
클래스와 서브클래스 분류에서 fastText는 상위분포에서 가장 많이 나타난 워드 임베딩 벡터 종류였으며, 하위 분포에는 1건도 나타나지 않았다. 이와 같이, 특허 문헌에 대해서 워드 임베딩 벡터는 fastText, Skip-Gram, CBOW, GloVe 순으로 좋은 표현력을 가지고 있는 것으로 나타났다.
(2003)은 WIPO-alpha에 대한 분류 연구를 수행하였고, 나이브베이즈, SVM, kNN 등의 여러 기계학습 알고리즘의 성능을 비교하였다. 제목, 초록, 청구항의 처음 300 단어를 분류를 위한 자질로 선택하여 실험하였고, 초록을 사용한 경우 서브클래스에서 42%의 성능을 보여주었다.
국문제목(K_CNN, K_RNN)의 경우 CNN을 사용한 경우 왼쪽 그래프에 많은 분포를 보이지만, RNN의 경우에는 오른쪽 그래프에서 더 많은 분포를 보이고 있다. 즉, 국문제목에서는 CNN이 RNN에 비해 더 좋은 성능을 보여줌을 알 수 있다. 영문제목(E_CNN, E_RNN)의 경우에는 왼쪽과 오른쪽의 그래프에서 분포 차이가 크지 않다.
를 이용하였고, 세 단계로 구성된 하이브리드분류 모델을 제시하였다. 첫 번째와 두번째 단계에서 SVM 모델을 학습시켜 특허 문헌을 계속해서 여러 하위 클래스로 분류하고, 마지막 세 번째 단계에서 kNN 모델을 이용하여 선택된 후보에 기반하여 주어진 특허 문헌에 최종 범주값을 할당하는 방법으로, 서브클래스에서 36.89%의 성능을 나타냈다.
첫째, 특허 문헌 분류를 위한 자질 추출 방법에서, 단어에 대한 분산표현인 워드 임베딩 벡터를 사용하였을 경우에 전통적인 BoW 방식보다 더 좋은 성능을 보여주는 것으로 나타났다.
학습문헌이 표준화되어 있지 않고, 동일하게보이는 학습문헌일지라도 문헌의 수집 범위가 다양하고, 평가 기준 또한 상이하기 때문에 기존연구들에 대한 직접적인 성능 비교는 어렵지만, 개별 연구들의 최고 성능을 기준으로 살펴보았을 때, 섹션수준에서 43%∼79.0%, 클래스 수준에서 55%∼65%, 서브클래스 수준에서 32%∼70.00%의 분류 성능을 제공하고 있는 것으로 나타났다.
박찬정, 김기영, 성동수(2014)는 특징선택 방법으로 정보이득, 카이제곱 통계량, 상호정보량 그리고 우세정보량에 대한 성능 비교를 수행하였다. 한국특허문헌의 섹션 수준에서 분류 실험을 수행하였고, kNN 모델을 적용하여 k=2, 우세정보량 10%를 선택한 경우에 43%의 정확도를 보였다.
후속연구
향후 연구로는 특허 문헌에서 제공하는 배경기술 및 기술분야 등의 필드를 분류를 위한 자질로 추가하고, 현재 서브클래스 보다 하위 수준인 메인그룹이나 서브그룹까지 분류 범위를 확대하고, 기본적인 딥러닝 구조를 확장 및 혼합한 분류 모델에 대한 연구가 수행될 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
특허문헌의 자동분류가 어려운 이유는?
특허 문헌의 양적인 팽창과 함께, 융합연구의 증가로 분류의 난이도 또한 함께 증가하고 있기 때문에, 노동집약적인 수동 특허 분류 작업을 지원하기 위한 자동 분류 도구에 대한 요구가지속적으로 증가하고 있다. 하지만 특허문헌은 일반적인 신문기사나 기술문헌과는 달리 특허에 사용되는 난해한 법률 용어인 ‘patentese’의 빈번한 활용이라는 특징을 지니고 있어 자동분류에 어려움이 있다. 특허 출원자의 주된 목적은 발명의 정보를 전달하는 일 외에도 발명에 대한 최대한의 법적 범위와 보호를 확보하는 일이므로, 발명을 기술할 때 일반적으로 잘 사용되지 않는 기술용어를 이용해 작성되거나,의도적으로 검색이 되지 않도록 관련 기술용어를 직접 사용하지 않고 풀어 작성하기도 한다.
IPC란 무엇인가?
특허 문헌을 분류하기 위해 널리 사용되는 방법은 특허와 관련된 기술의 모든 영역을 포괄하는 복잡한 계층구조로 구성된 국제특허 분류(IPC: International Patent Classification)이다. IPC는 특허 문헌에 대한 국제적으로 균일한 분류를 획득하기 위한 방법으로, 지난 수십 년 동안 갱신되고 정제되었으며, 현재 90여 개 이상의 국가에서 사용되고 있다.
국가 차원에서 융합기술 육성을 위해 투입하는 예산은?
한국과학기술연구원 융합연구정책센터(2018)에 의하면 융합연구에 대한 예산은 지속적으로증가하여 2017년 기준으로 정부가 주도하는 전체 R&D예산의 16.88%인 2.5조원이 융합연구예산으로 할당되었다. 이와 더불어 2개 이상의 범주에 포함되는 특허 문헌 또한 지속적으로증가하여, 2017년에 다중 범주를 갖는 특허 문헌의 수는 전체 특허의 33.
참고문헌 (15)
Kim, Jao-Ho and Choi, Key-Sun. 2005. "Patent Document Categorization based on Semantic Structural Information." Proc. of the 17th Annual Conference on Human and Cognitive Language Technology, 28-34.
Park, Chanjeong, Kim, Kiyong and Seong, Dongsu. 2014. "Automatic IPC Classification for Patent Documents of Convergence Technology Using KNN." Journal of Korean Institute of Information Technology, 12(3): 175-185.
Lim, Sora and Kwon, Yongjin. 2017. "IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents." Review of Korean Society for Internet Information, 18(1): 77-88.
Korean Intellectual Property Office. 2018. Intellectual Property Statistics for 2017. Daejeon: Korean Intellectual Property Office.
KIST, Convergence Research Policy Center. 2018. Research and Analysis of National Convergence Technology R & D in 2017. Seoul: KIST, Convergence Research Policy Center.
Bahdanau D., Cho, K. and Bengio, Y. 2015. "Neural Machine Translation by Jointly Learning to Align and Translate." In Proceeding of ICLR 2015. [arXiv:1409.0473]
Bojanowski, P. et al. 2017. "Enriching word vectors with subword information." Transactions of the Association for Computational Linguistics, 5: 135-146.
Collobert, R. and Weston, J. 2008. "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning." In Proceeding of the 25th International Conference on Maching Learning.
Fall, C. et al. 2003. "Automated categorization in the international patent classification." In Acm Sigir Forum, 37(1): 10-25.
Koster, C. and Seutter, M. 2003. "Taming wild phrases." In Proceedings of the 25th European conference on IR research (ECIR'03), 161-176.
Larkey, L. 1999. "A patent search and classification system." In Proceedings of the fourth ACM conference on Digital libraries, 179-187.
Mikolov, T., Chen, K., Corrado, G. and Dean, J. 2013. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781.
Pennington, J., Socher, R. and Manning, C. 2014. "Glove: Global vectors for word representation." In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 1532-1543.
Tikk, D., Biro, G. and Torcsvari, A. 2008. "A hierarchical online classifier for patent categorization." Emerging technologies of text mining: Techniques and applications. IGI Global, 244-267.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.