[논문]조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식

이태석; 신수미; 강승식

doi:10.3745/ktsde.2016.5.9.419

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식
Named Entity Recognition for Patent Documents Based on Conditional Random Fields 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.5 no.9, 2016년, pp.419 - 424

이태석 (한국과학기술정보연구원 정보서비스실) , 신수미 (한국과학기술정보연구원 정보서비스실) , 강승식 (국민대학교 컴퓨터공학부)

초록
AI-Helper

특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

Abstract ▼ AI-Helper

Named entity recognition is required to improve the retrieval accuracy of patent documents or similar patents in the claims and patent descriptions. In this paper, we proposed an automatic named entity recognition for patents by using a conditional random field that is one of the best methods in machine learning research. Named entity recognition system has been constructed from the training set of tagged corpus with 660,000 words and 70,000 words are used as a test set for evaluation. The experiment shows that the accuracy is 93.6% and the Kappa coefficient is 0.67 between manual tagging and automatic tagging system. This figure is better than the Kappa coefficient 0.6 for manually tagged results and it shows that automatic named entity tagging system can be used as a practical tagging for patent documents in replacement of a manual tagging.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

개체명 태그가 부착되어 있는 특허 말뭉치로부터 조건부 랜덤 필드(CRF: conditional random fields)에 기반을 둔 학습 모델을 생성하는 방법은 입력 데이터 열에 대한 태그 부착 문제를 해결하는 응용 분야에서 은닉 마르코프 모델(hidden Marcov model)이나 최대 엔트로피 마르코프 모델(maximum-entropy Markov model) 등에 비하여 우수한 성능을 보이고 있다[6-8]. 본 논문에서는 조건부 랜덤 필드 기법을 이용하여 특허의 요약, 청구항 등 특허 문서에서 개체명을 인식하는 방법을 제안한다.

제안 방법

개체명 인식 성능이 어절 단위로 어느 정도 영향이 있는지 알아보기 위해 학습 자질을 어절 단위로 나누어 상태 자질과 전이 자질로 구분하여 CRF++를 사용하여 실험하였다.³⁾ Table 4는 각 자질들의 기여도를 나타내는 결과를 보여주는데 한 어절 단위, 두 어절 단위, 세 어절 단위 모두 x_i 위치 전후의 상태 자질과 전이 자질이 성능에 가장 많은 영향을 미치는 것을 알 수 있다.
5만 문장)을 발췌하여 만들었다. 실험은 10등분된 자료를 평가용과 학습용으로 교대하여 10회 평균을 하였다.
이 모델은 학습 데이터로부터 최적의 모델을 생성하는데, 상호 작용하는 자질을 표현하거나 멀리 떨어진 입력 데이터 열 사이의 의존 관계를 표현하기 어려운 단점이 있다. 이러한 단점을 극복하기 위하여 은닉 마르코프 모델의 제약 조건을 완화하여 범용 모델로 확장하는 조건부 확률 모델이 제안되었다.
자질 선택 효용성을 비교하기 위해 기본 명사구 인식 기법의 자질값과 특허 개체명 인식을 위한 최적화된 자질 집합으로 실험하였으며, 그 결과는 Table 6과 같다. 최적화된 CRF 개체명 인식 F1 점수가 기본 명사구 인식 자질 집합보다 3.
작업자 상호 의견 일치도를 평가하는 카파 계수를 이용하여 인식 시스템의 효용성을 검증하였다. N은 토큰 라인의수, n은 비교 평가자 수, k는 개체명 태깅 종류의 수, #는 평가자들의 평가가 일치할 확률, #는 평가자 평가가 우연하게 일치할 확률, i = 1, ⋯ N , j = 1 ⋯ k 일때, 카파 계수는 Equation (3)과 같이 계산된다.
태그 열 y를 구하는 과정은 Viterbi 알고리즘을 사용한 동적 프로그래밍 방법을 이용하여 계산한다. 조건부 랜덤 필드 모델을 개체명 태깅에 적용할 때는 개체명 태깅 문제를 기본 명사구 인식(base NP chunking) 문제와 같이 시작-중간-끝 태그(begin-inside-outside tag)를 부여하는 태그 부착 문제로 간주하였다. 이 때, 기계 학습을 위한 자질로는 단어의 품사, 어휘, 단어의 길이, 문장에서의 단어 위치 등과 같은 다양한 언어 정보를 사용하였다.
특허 개체명 인식 시스템의 효용성을 검증하기 위하여 비교 대상 시스템으로 개체명 태그 사전을 이용하는 경우와 비교-평가를 수행하였으며, 자질 선택 기법의 효용성을 검증하기 위하여 기본 명사구 인식 방법의 자질 집합으로 구현한 경우와 성능을 비교하였다. 개체명 인식 실험은 기계학습 기법에서 말뭉치가 충분하지 않을 때 사용하는 10-등분 교차 검증(10-fold cross validation) 방식을 사용하였다.
특허 문서에서 기술명, 서비스명, 제품명에 대해 태깅한 데이터를 사용하여 태그 부착 문제에 뛰어난 성능을 보이는 것으로 알려진 조건부 랜덤 필드 모델을 이용하여 특허 개체명 인식 시스템을 구축하였다. 개체명 태깅된 특허 말뭉치로부터 학습용 데이터와 실험 데이터를 10-등분 교차 검증 방식으로 분할하여 학습 및 실험을 수행하였다.

대상 데이터

또한, 세 어절 묶음 자질은 데이터 부족 현상으로 인식률에 큰 영향을 주지 못했다. Table 5는 각 자질들의 인식 성능 기여도가 높은 자질들을 선택한 것으로 최적 자질 선택은 F1 점수가 10 이상인 자질들만 모두 선택하였다.
본 논문에서는 사람이 직접 개입하여 개체명 태그를 부착하고 오류 검증 과정을 거쳐 구축한 한국과학기술정보연구원(KISTI)¹⁾의 특허 문서 말뭉치를 사용하였다. 이 특허 문서 말뭉치는 미국 등록 특허에서 분류별로 임의로 선별한 2,400건에 대해 7명의 작업자가 태깅을 한 자료이다.
실험에 사용할 특허 문서는 전기통신기술 분야의 특허 분류 H04* 분야의 17,531개 문장 중 품사 태그가 인식된 17,142개 문장이다. 각 문장은 Table 2와 같이 발명의 명칭(title), 요약서(abstract), 청구항(claim), 명세서(description)에서 추출하였으며, 85.
이 특허 문서 말뭉치는 미국 등록 특허에서 분류별로 임의로 선별한 2,400건에 대해 7명의 작업자가 태깅을 한 자료이다. 이 말뭉치는 Table 1과 같이 361,211 문장에 대한 태깅 정보를 사용하였다. 이 말뭉치를 구축할 때 작업자의 의견 일치도를 코헨의 카파 계수(Cohen’s kappa coefficient)로 계산하면 0.
의 특허 문서 말뭉치를 사용하였다. 이 특허 문서 말뭉치는 미국 등록 특허에서 분류별로 임의로 선별한 2,400건에 대해 7명의 작업자가 태깅을 한 자료이다. 이 말뭉치는 Table 1과 같이 361,211 문장에 대한 태깅 정보를 사용하였다.
개체명 인식 실험은 기계학습 기법에서 말뭉치가 충분하지 않을 때 사용하는 10-등분 교차 검증(10-fold cross validation) 방식을 사용하였다. 전체 자료를 10등분하여 평가용 데이터로는 특허 문서 말뭉치의 10%에 해당하는 7만 어절을 발췌하고, 학습용 데이터는 나머지 90%에 해당하는 약 66만 어절(약 1.5만 문장)을 발췌하여 만들었다. 실험은 10등분된 자료를 평가용과 학습용으로 교대하여 10회 평균을 하였다.
특허 태깅 말뭉치를 단어 단위의 토큰으로 분리하면 Table 3과 같이 총 742,510개의 토큰들로 구성되어 있다. 이 중에서 개체명으로 태깅이 된 토큰은 91,440개(12.

데이터처리

특허 개체명 인식 시스템의 효용성을 검증하기 위하여 비교 대상 시스템으로 개체명 태그 사전을 이용하는 경우와 비교-평가를 수행하였으며, 자질 선택 기법의 효용성을 검증하기 위하여 기본 명사구 인식 방법의 자질 집합으로 구현한 경우와 성능을 비교하였다. 개체명 인식 실험은 기계학습 기법에서 말뭉치가 충분하지 않을 때 사용하는 10-등분 교차 검증(10-fold cross validation) 방식을 사용하였다. 전체 자료를 10등분하여 평가용 데이터로는 특허 문서 말뭉치의 10%에 해당하는 7만 어절을 발췌하고, 학습용 데이터는 나머지 90%에 해당하는 약 66만 어절(약 1.
특허 문서에서 기술명, 서비스명, 제품명에 대해 태깅한 데이터를 사용하여 태그 부착 문제에 뛰어난 성능을 보이는 것으로 알려진 조건부 랜덤 필드 모델을 이용하여 특허 개체명 인식 시스템을 구축하였다. 개체명 태깅된 특허 말뭉치로부터 학습용 데이터와 실험 데이터를 10-등분 교차 검증 방식으로 분할하여 학습 및 실험을 수행하였다. 7만 어절의 평가용 데이터로 개체명 인식 정확도를 평가한 결과 정확률이 93.

이론/모형

태그 열 y를 구하는 과정은 Viterbi 알고리즘을 사용한 동적 프로그래밍 방법을 이용하여 계산한다. 조건부 랜덤 필드 모델을 개체명 태깅에 적용할 때는 개체명 태깅 문제를 기본 명사구 인식(base NP chunking) 문제와 같이 시작-중간-끝 태그(begin-inside-outside tag)를 부여하는 태그 부착 문제로 간주하였다.

성능/효과

개체명 태깅된 특허 말뭉치로부터 학습용 데이터와 실험 데이터를 10-등분 교차 검증 방식으로 분할하여 학습 및 실험을 수행하였다. 7만 어절의 평가용 데이터로 개체명 인식 정확도를 평가한 결과 정확률이 93.69%, F1 점수가 65.40로 나타났다. 이는 단순 사전으로 매칭하는 방식이나, 기본 명사구 인식에 의한 자질 선택 방식보다 F1 점수가 각각 1.
40로 나타났다. 또한, 학습 자료에서 수집한 개체명 사전으로 매칭한 경우보다 최적화된 CRF 개체명 인식이 1.6 더 높은 F1 점수를 보였다. 사전을 이용한 개체명 인식은 재현율 측면에서 좋은 점수를 보이지만, 정확률은 낮은 편이다.
자질 선택 효용성을 비교하기 위해 기본 명사구 인식 기법의 자질값과 특허 개체명 인식을 위한 최적화된 자질 집합으로 실험하였으며, 그 결과는 Table 6과 같다. 최적화된 CRF 개체명 인식 F1 점수가 기본 명사구 인식 자질 집합보다 3.29 높은 65.40로 나타났다. 또한, 학습 자료에서 수집한 개체명 사전으로 매칭한 경우보다 최적화된 CRF 개체명 인식이 1.
29 만큼 향상된 것이다. 특히, 사람이 수작업으로 특허 개체명 말뭉치 구축했을 때 두 작업자간의 의견 일치도가 0.6인데 비해, 조건부 랜덤 필드에 의한 기계 학습 기법으로 태깅한 결과를 수작업 결과와 비교한 카파 계수 측정 결과는 0.67로 수작업 태깅한 결과와 유사한 수준임을 알 수 있다.

후속연구

6보다 높은 카파 계수를 보여주었다. 제안한 시스템은 사람이 작업한 수준과 유사한 결과를 얻을 수 있기 때문에 개체명 자동 인식을 통해 특허 개체명 말뭉치를 구축하는데 활용할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	개체명 인식에 대한 초기의 연구에서는 어떤 방법이 사용되었는가?	개체명 인식에 대한 초기의 연구에서는 경험적인 규칙으로 개체명을 인식하는 규칙 기반 방법이 사용되었다. 이 기법에서는 인식하고자 하는 개체명의 앞뒤 문장 구조를 규칙으로 기술하여 개체명을 인식한다.
	은닉 마르코프 모델의 단점은 무엇인가?	이 모델은 입력 데이터 열과 태그 열 사이의 결합 확률(joint probability)을 이용하는 생성 모델(generative model)이다. 이 모델은 학습 데이터로부터 최적의 모델을 생성하는데, 상호 작용하는 자질을 표현하거나 멀리 떨어진 입력 데이터 열 사이의 의존 관계를 표현하기 어려운 단점이 있다. 이러한 단점을 극복하기 위하여 은닉 마르코프 모델의 제약 조건을 완화하여 범용 모델로 확장하는 조건부 확률 모델이 제안되었다.
	자연어 처리 분야에서 품사 태깅에 관한 연구는 어떻게 발전되었는가?	자연어 처리 분야에서 품사 태깅(part-of-speech tagging)에 관한 연구는 단순히 품사를 부착하는 것으로부터 개체명 태그(named entity tag)를 부착하는 문제로 발전하였다[1]. 개체명 인식은 기본적으로 인명, 지명, 기관명을 대상으로 하고 있으며, 그 외에도 날짜, 시간, 가격과 같은 특정 수치 등으로 확대되어 왔다.

참고문헌 (8)

D. Nadeau and S. Sekine, "A Survey of Named Entity Recognition and Classification," Lingvisticae Investigationes, Vol.30, No.1, pp.3-26, 2007.

상세보기
S. Cucerzan and D. Yarowsky, "Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence," Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, pp.90-99, 1999.
Y. Wang, "Annotating and Recognising Named Entities in Clinical Notes," Proceedings of the ACL-IJCNLP 2009 Student Research Workshop, pp.18-26, 2009.
H. Gurulingappa, B. Muller, R. Klinger, H. Mevissen, M. Hofmann-Apitius, J. Fluck, and C. Friedrich, "Patent Retrieval in Chemistry based on Semantically Tagged Named Entities," Proceedings of the Eighteenth Text RETrieval Conference (TREC 2009), pp.1-9, 2009.
D. Eisinger, G. Tsatsaronis, M. Bundschus, U. Wieneke, and M. Schroeder, "Automated Patent Categorization and Guided Patent Search using IPC as Inspired by MeSH and PubMed," Journal of Biomed Semantics, Vol.4, Suppl. 1, 2013.
J. Lafferty, A. McCallum, and F. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," Proceedings of the 18th International Conference on Machine Learning, pp.282-289, 2001.
C. Sutton and A. McCallum, "An Introduction to Conditional Random Fields," Machine Learning, Vol.4, No.4, pp.267-373, 2011.
H. Wallach, "Conditional Random Fields: An Introduction," CIS Technical Report MS-CIS-04-21, University of Pennsylvania, pp.1-9, 2004.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증