매년 Patent Cooperation Treaty(PCT)를 통해 출원되는 특허의 수가 증가하고 있다. 각 국가는 국제 표준화를 위해 산업 발전에 따라 자체 분류체계를 발전시키고 대응한다. 특허 분류는 특허 문서를 분석하여 사람이 직접 달게 되는데 특허의 수가 증가함에 따라 딥러닝을 이용하여 특허 분류 문제를 해결한다. 하지만 특허는 불균형한 데이터의 분포를 이루고 있어 특허 분류에 어려움이 있다. BERT의 등장 이전엔 Word Embedding과 Convolution Neural Network(CNN)을 활용한 모델이 나왔다. Word Embedding은 다의어, 동음이의어를 문맥에 따라 구분할 수 없다는 단점이 존재하였다. 이를 극복한 모델인 BERT가 등장한 이후로 BERT를 fine-tuning한 PatentBERT와 LAHA에서 제안한 방식을 BERT에 적용한 Label-aware ...
매년 Patent Cooperation Treaty(PCT)를 통해 출원되는 특허의 수가 증가하고 있다. 각 국가는 국제 표준화를 위해 산업 발전에 따라 자체 분류체계를 발전시키고 대응한다. 특허 분류는 특허 문서를 분석하여 사람이 직접 달게 되는데 특허의 수가 증가함에 따라 딥러닝을 이용하여 특허 분류 문제를 해결한다. 하지만 특허는 불균형한 데이터의 분포를 이루고 있어 특허 분류에 어려움이 있다. BERT의 등장 이전엔 Word Embedding과 Convolution Neural Network(CNN)을 활용한 모델이 나왔다. Word Embedding은 다의어, 동음이의어를 문맥에 따라 구분할 수 없다는 단점이 존재하였다. 이를 극복한 모델인 BERT가 등장한 이후로 BERT를 fine-tuning한 PatentBERT와 LAHA에서 제안한 방식을 BERT에 적용한 Label-aware Attention BERT가 연구되었다. 하지만, 두 모델 모두 BERT의 최대 길이 제한으로 인하여 충분한 특허 기술 내용 담지 못하기 때문에 만족할 만한 성능이 나오지 못하였다. 청구항에는 기술 내용이 작성된 독립항, 독립항보다 더 자세히 작성된 종속항이 있는데 PatentBERT는 독립항, 종속항 둘 다 사용하였지만, 종속항에는 독립항의 일부 내용도 포함되어 있어서 특허에 존재하는 많은 기술 내용을 보지 못한다. 본 논문은 특허의 초록과 독립항을 두 가지 특징을 추출하는 모듈(Extract Module 1, Extract Module 2)과 추출된 두 개의 특징을 핵심적인 특징으로 합치는 모듈(Ensemble Module)을 제안하였다. 4가지 데이터 셋(I&T1430, I&T1409, KSIC564, KNSCC188)으로 실험을 통해 제안한 모델이 불균형한 데이터인 I&T1430와 I&T1409에서 모든 지표에서 우수한 성능을 보였고, 데이터 셋 KSIC564, KNSCC188에서 모든 모델의 성능이 비슷하다는 것을 보였다. 이에 따라 제안하는 모델은 불균형한 데이터 셋에서 높은 성능을 보인다는 것을 확인할 수 있었다. Ablation Study를 통해 두 가지 특징 추출하는 모듈을 사용하는 방법이 가장 성능이 우수하다는 것을 확인할 수 있었고 제안하는 모델이 극한 다중 레이블 분류 문제에서 성능이 우수하다는 것을 확인하였다.
매년 Patent Cooperation Treaty(PCT)를 통해 출원되는 특허의 수가 증가하고 있다. 각 국가는 국제 표준화를 위해 산업 발전에 따라 자체 분류체계를 발전시키고 대응한다. 특허 분류는 특허 문서를 분석하여 사람이 직접 달게 되는데 특허의 수가 증가함에 따라 딥러닝을 이용하여 특허 분류 문제를 해결한다. 하지만 특허는 불균형한 데이터의 분포를 이루고 있어 특허 분류에 어려움이 있다. BERT의 등장 이전엔 Word Embedding과 Convolution Neural Network(CNN)을 활용한 모델이 나왔다. Word Embedding은 다의어, 동음이의어를 문맥에 따라 구분할 수 없다는 단점이 존재하였다. 이를 극복한 모델인 BERT가 등장한 이후로 BERT를 fine-tuning한 PatentBERT와 LAHA에서 제안한 방식을 BERT에 적용한 Label-aware Attention BERT가 연구되었다. 하지만, 두 모델 모두 BERT의 최대 길이 제한으로 인하여 충분한 특허 기술 내용 담지 못하기 때문에 만족할 만한 성능이 나오지 못하였다. 청구항에는 기술 내용이 작성된 독립항, 독립항보다 더 자세히 작성된 종속항이 있는데 PatentBERT는 독립항, 종속항 둘 다 사용하였지만, 종속항에는 독립항의 일부 내용도 포함되어 있어서 특허에 존재하는 많은 기술 내용을 보지 못한다. 본 논문은 특허의 초록과 독립항을 두 가지 특징을 추출하는 모듈(Extract Module 1, Extract Module 2)과 추출된 두 개의 특징을 핵심적인 특징으로 합치는 모듈(Ensemble Module)을 제안하였다. 4가지 데이터 셋(I&T1430, I&T1409, KSIC564, KNSCC188)으로 실험을 통해 제안한 모델이 불균형한 데이터인 I&T1430와 I&T1409에서 모든 지표에서 우수한 성능을 보였고, 데이터 셋 KSIC564, KNSCC188에서 모든 모델의 성능이 비슷하다는 것을 보였다. 이에 따라 제안하는 모델은 불균형한 데이터 셋에서 높은 성능을 보인다는 것을 확인할 수 있었다. Ablation Study를 통해 두 가지 특징 추출하는 모듈을 사용하는 방법이 가장 성능이 우수하다는 것을 확인할 수 있었고 제안하는 모델이 극한 다중 레이블 분류 문제에서 성능이 우수하다는 것을 확인하였다.
Every year, the number of patents filed through Patent Cooperation Treatment (PCT) is increasing. Each country develops and responds to its own classification system according to industrial development for international standardization. Patent classification analyzes patent documents and is directly...
Every year, the number of patents filed through Patent Cooperation Treatment (PCT) is increasing. Each country develops and responds to its own classification system according to industrial development for international standardization. Patent classification analyzes patent documents and is directly attached by humans, and as the number of patents increases, deep learning is used to solve the patent classification problem. However, patents have a disproportionate distribution of data, making it difficult to classify patents. Prior to the advent of BERT, models using Word Embedded and Convolution Neural Network (CNN) emerged. Word Embeddeding had the disadvantage of not being able to distinguish polysemy and homonyms according to context. Since the emergence of BERT, a model that overcame this, PatentBERT that fine-tuned BERT and Label-aware Attention BERT that applied the method proposed by LAHA to BERT have been studied. However, both models did not produce satisfactory performance because they did not contain sufficient patent technology content due to the maximum length limit of BERT. There are independent and dependent terms in which the description was written, and PatentBERT used both independent and dependent terms, but the dependent terms also include some of the independent terms, so many of the technical contents present in the patent are not seen. This paper proposed a module (Extract Module 1 and Extract Module 2) that extracts two features of the patent's abstract and independent terms and an Ensemble Module that combines the extracted two features into key features. The model proposed in the experiment with four datasets (I&T1430, I&T1409, KSIC564, and KNSCC188) showed excellent performance in all indicators in the unbalanced data I&T1430 and I&T1409, and the performance of all models in the datasets KSIC564 and KNSCC188. Accordingly, it was confirmed that the proposed model exhibits high performance on an unbalanced dataset. Ablation Study confirms that using two feature extraction modules performs best and that the proposed model performs well in extreme multi-label classification problems.
Every year, the number of patents filed through Patent Cooperation Treatment (PCT) is increasing. Each country develops and responds to its own classification system according to industrial development for international standardization. Patent classification analyzes patent documents and is directly attached by humans, and as the number of patents increases, deep learning is used to solve the patent classification problem. However, patents have a disproportionate distribution of data, making it difficult to classify patents. Prior to the advent of BERT, models using Word Embedded and Convolution Neural Network (CNN) emerged. Word Embeddeding had the disadvantage of not being able to distinguish polysemy and homonyms according to context. Since the emergence of BERT, a model that overcame this, PatentBERT that fine-tuned BERT and Label-aware Attention BERT that applied the method proposed by LAHA to BERT have been studied. However, both models did not produce satisfactory performance because they did not contain sufficient patent technology content due to the maximum length limit of BERT. There are independent and dependent terms in which the description was written, and PatentBERT used both independent and dependent terms, but the dependent terms also include some of the independent terms, so many of the technical contents present in the patent are not seen. This paper proposed a module (Extract Module 1 and Extract Module 2) that extracts two features of the patent's abstract and independent terms and an Ensemble Module that combines the extracted two features into key features. The model proposed in the experiment with four datasets (I&T1430, I&T1409, KSIC564, and KNSCC188) showed excellent performance in all indicators in the unbalanced data I&T1430 and I&T1409, and the performance of all models in the datasets KSIC564 and KNSCC188. Accordingly, it was confirmed that the proposed model exhibits high performance on an unbalanced dataset. Ablation Study confirms that using two feature extraction modules performs best and that the proposed model performs well in extreme multi-label classification problems.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.