[논문]특허 정보 검색을 위한 대체어 후보 추출 방법

백종범; 김성민; 이수원

문제 정의

다행히도 특허 정보 도메인은 IPC 분류에 의해 단어의 다의성은 어느 정도 해결이되어있는 도메인이라고 할 수 있다. 그러므로 본 연구에서는 표기의 다양성으로 인한 검색의 어려움을 해결하는데 중점을 두고자 한다.
본 논문에서는 이와 같은 문제를 해결하기 위하여 문서벡터 모델이 아닌 확률에 기반을 두는 연관 규칙을이용하여 대체어 후보를 추출하는 방법을 제안한다. 제안하는 방법은 먼저 집중도를 계산하여 IPC별 중요 단어를 선정하고 중요 단어로 선정된 단어들을 이용하여연관단어 뭉치를 생성한 다음, 생성된 연관단어 뭉치의유사도를 계산하여 대체어 후보 목록을 생성하고 마지막으로 대체어 순위를 보정하는 단계를 거친다.
본 논문은 위와 같은 표기의 다양성으로 인한 키워드불일치에 의한 정보 누락을 최소화하기 위하여 특허 문헌 뭉치에서 대체어 후보를 추출하는 방법을 제안한다. 본 연구에서 정의하는 대체어란, “한 문장에서 특정 단어를 대신하여 사용해도 문장의 의미를 훼손하지 않는 단어”를 의미하며, 특허 문헌 데이터의 특성을 고려하여 대체어를 표 1과 같이 4가지 경우로 분류하여 사용한다.
문제가 종종 발생한다. 본 논문은 이런 현상을 개선하기 위하여 신뢰도를 이용한 순위 보정 방법을 제안한다.
초래할 수 있다. 이러한 문제를 해결하기 위하여본 연구에서는 각 IPC 분류별 중요 단어를 추출하는 방 . 법으로 [8] 에서 사용한 분류별 집중도를 반영한 TFIDF 를 변형하여 분류별 집중도(식 (1))를 정의하였다’
1 절에서 선정한 분류별 중요 단어들만을 이용하여 생성한다. 최소 지지도를 선정하지않은 이유는 이를 설정함으로 인해 희소하게 등장하는철자변형 단어들이 다른 단어들과 유사도를 비교할 기회조차 갖지 못한 채 알고리즘 수행 과정에서 배제되는문제를 완화하기 위해서이다.

가설 설정

본 논문에서 제안하는 대체어 후보 추출 방법은 "특정단어 A와 함께 자주 쓰이는 '연관단어 뭉치 A'가 다른 단어 B와 함께 자주 쓰이는 '연관단어 뭉치 B'와 비슷할 경우, 이 두 단어는 대체어일 것이다”라는 직관적 가설을전제로 한다. 즉, 특정 단어 A와 함께 자주 쓰이는 단어가 비슷한 단어 B는 대체어일 가능성이 높다는 것이다.
3333을 중심으로 정규분포를 이루는 것으로 나타난다. 본 연구에서는 가장 많은 단어들이 모여 있는 지점인 0.3333을 H04L분류에서 특징을 지니지 못하는 일반적인 단어들이 위치하는 지점으로 가정하고, 이를 집중도임계치로 설정하여 IPC분류별 중요단어를 선정하였다.
즉, 각 단어별로 생성된 연관단어 뭉치가 특정 단어를 설명해주는 기술자라고 가정하고, 두 단어의 연관단어 뭉치를 모두 포함하는 하나의 벡터 공간(vector space)을생성하여 코사인 유사도를 계산한 후 내림차 순 정렬을함으로써 대체어 후보 목록을 생성한다.

제안 방법

또한 본 실험의 대체어 추출 성능 평가를 위한 최대한객관적인 평가지표 생성을 위해서, 3.1 절에서 선정한 중요단어를 '엠파스 IT 용어 사전'에서 검색하고 '영어-한글' 관계에 있는 단어들을 수집하여 기본 평가지표를 생성하였다.
또한 연관단어생성 과정에서는 최소 신뢰도 a를 0으로 설정하여 특정 단어를 기준으로 신뢰도를 지니는 모든 연관단어들을 추출한 후, 최소 지지도 0를 1로 설정하여 양의 상관관계(Positive Correlation)^ 지니는 연관단어들만 취함으로써 연관단어 뭉치를 생성하였다.
연구들과 차별된다. 또한 유사도를 비교하는 최종 단계에서 신뢰도를 이용하여 같은 문장에서 함께 나타날 가능성이 높은 단어들의 순위를 낮추어 줌으로써 대체어가 상위 10개 목록에 속할 확률을 높여주는 방법을 제안하였다.
본 논문에서는 특허 문헌 뭉치 속에서 대체어 후보를추출하는 방법을 제안하였다’ “의미가 비슷한 단어들은같은 문맥에서 사용 될 것이다'는 기존 연구들과 동일한가설로 접근하였으나, 중요 단어 선정 절차를 거치지 않고문서 단어 동시 출현 빈도에 의존하여 분석하던 기존 연구들과 달리 특허 문헌의 IPC 분류를 이용하여 각 분류별중요 단어를 선정하였다는 점과 그 단어들을 이용하여 문서벡터공간 모델 대신에 확률에 기반을 둔 연관 규칙을이용하여 각 단어의 특징 벡터를 생성하였다는 점에서 선행 연구들과 차별된다. 또한 유사도를 비교하는 최종 단계에서 신뢰도를 이용하여 같은 문장에서 함께 나타날 가능성이 높은 단어들의 순위를 낮추어 줌으로써 대체어가 상위 10개 목록에 속할 확률을 높여주는 방법을 제안하였다.
본 연구에서 집중도 임계치는 '집중도에 의한 단어의분포'를 고려하여 설정하였다. 실험 결과에 따르면 집중도(식 (1))를 계산한 결과, H04L 분류에 속한 단어들이 0.
본 연구에서는 제안한 알고리즘의 세부적 성능을 평가하기 위하여 대체어를 '철자변형', '영어', '한글', '유의어' 등총 4가지 경우로 분류하였으며 각각의 정의는 표 1과 같다.
앞서 언급한 가설에 따라 본 연구에서 대체어를 추출하는 방법은 IPC별 중요 단어 선정 단계[1 단계], 연관단어 뭉치를 생성하는 단계[2단계], 생성된 연관단어 뭉치의 유사도를 계산하여 대체어 후보 목록을 생성하는 단계[3단계], 대체어 순위를 보정하는 필터링 단계[4단계] 로 구성된다(그림 1).
제안하는 방법은 먼저 집중도를 계산하여 IPC별 중요 단어를 선정하고 중요 단어로 선정된 단어들을 이용하여연관단어 뭉치를 생성한 다음, 생성된 연관단어 뭉치의유사도를 계산하여 대체어 후보 목록을 생성하고 마지막으로 대체어 순위를 보정하는 단계를 거친다.
자료이다. 제안하는 알고리즘의 단계별 성능 평가는 첫 단계인 “중요단어 선정” 단계와 마지막 단계인 “대체어 순위 보정” 단계가 대체어 추출 성능에 미치는 영향을 알아보기 위한 것으로서 각 단계를 제거한 상태에서의 재현율을 비교하였다.
분류할 수 있다. 첫 번째 방법은 사전(dictionary)을이용하여 유의어를 찾는 방법이고, 두 번째 방법은 문서뭉치 속에서 유의어를 찾는 방법이다.
평가는 4.2절에서 생성한 평가지표를 이용하여 각 단어의 대체어 후보 목록 상위 10개에서의 재현율(Recall) 을 측정하는 방식으로 진행되었다.

대상 데이터

본 연구에서 정의하는 연관단어 뭉치란 “연관규칙 'X-Y'가 있을 때 최소 산뢰도 (minimum confidence) a와 최소 개선도(minimum lift) 。를 만족하는 연관단어들의 집합”을 의미한다. 본 연구에서 연관단어 뭉치는 3.1 절에서 선정한 분류별 중요 단어들만을 이용하여 생성한다. 최소 지지도를 선정하지않은 이유는 이를 설정함으로 인해 희소하게 등장하는철자변형 단어들이 다른 단어들과 유사도를 비교할 기회조차 갖지 못한 채 알고리즘 수행 과정에서 배제되는문제를 완화하기 위해서이다.
본 연구에서는 실험을 위하여 '네이버 특허 서비스'에존재하는 특허 문헌들을 수집하였다. 수집된 특허 문헌은총 172, 458건으로 본 실험에서는 IPC 분류 중 기술 용어의의미를 판별하기 쉬운 '디지틀정보의 전송(H04L)' 분류에속한 27, 845건의 특허 문헌에 대하여 실험을 수행하였다.
특허 문헌들을 수집하였다. 수집된 특허 문헌은총 172, 458건으로 본 실험에서는 IPC 분류 중 기술 용어의의미를 판별하기 쉬운 '디지틀정보의 전송(H04L)' 분류에속한 27, 845건의 특허 문헌에 대하여 실험을 수행하였다.

이론/모형

본 연구에서는 연관단어 뭉치를 추출하기 위해서 연관 규칙 [8, 9]을 이용한다. 본 연구에서 정의하는 연관단어 뭉치란 “연관규칙 'X-Y'가 있을 때 최소 산뢰도 (minimum confidence) a와 최소 개선도(minimum lift) 。를 만족하는 연관단어들의 집합”을 의미한다.
실험 과정은 3장에서 제안한 절차에 따라 수행하였으며, 비교 평가를 위하여 벡터공간 모델을 이용한 실험도수행하였다.
즉, 특허를출원하고자 하는 기술이 이미 존재하는 기술과 동일하거나 유사한 경우에는 등록이 불가능하다는 의미이며, 이러한 유사 기술의 존재 여부를 확인하기 위해서 특허정보 검색은 필수적인 절차이다. 특허 정보 검색에서는특허문헌을 효율적으로 관리하기 위해서 IPC 분류(Inter- national Patent Classification)를 이용한다. 비록 IPC 분류에 의해 검색해야할 특허 문헌의 개수가 많이 줄어든다 할지라도 여전히 방대한 양의 특허 문헌을 검색해야 하므로 IPC 분류가 기존의 특허 정보 검색에 존재하는 문제의 범위를 줄여줄 수는 있지만 검색의 근본적문제를 해결해 주지는 않는다.

성능/효과

3절에서 생성한 대체어 후보 목록이며 오른쪽(b)은 신뢰도를 이용하여 대체어 후보를 보정한 결과이다. 결과 중 평가지표(표 6)에 존재하는 '단어로는 '컨텐츠', '콘텐트', '컨텐트' 등이 있으며, 표 5(a)를식 (2)를 이용하여 순위 보정을 수행한 결과 표 5(b)와 같이 상위 10순위에서 벗어나 있던 '콘텐츠'의 대체어 '컨텐트'가 8순위로 상승하는 것을 확인할 수 있었다.
그림 2에 따르면 특허 문헌의 제목만 이용하여 대체어 추출을 시도할 경우 전체적으로 본 논문에서 제안하는 알고리즘이 기존의 문서벡터공간모델을 이용하는 것보다 월등한 성능을 보이는 것을 확인할 수 있다. 또한본 알고리즘에서 중요하게 다루는 중요단어 선정 단계(1 단계)와 대체어 순위 보정 단계(4단계)를 모두 적용하는것이 그렇지 않은 경우보다 성능이 뛰어남을 확인할 수 있었다.
또한본 알고리즘에서 중요하게 다루는 중요단어 선정 단계(1 단계)와 대체어 순위 보정 단계(4단계)를 모두 적용하는것이 그렇지 않은 경우보다 성능이 뛰어남을 확인할 수 있었다. 다만 영어, 한글의 경우 대체어 순위 보정 단계 (4단계)를 적용할 경우 재현율이 떨어지는 것을 확인할수 있는데, 이는 제목에서 특정 외래어를 한글로 표기한후 괄호에 영어를 표기하여 부연 설명을 하거나 그 반대의 경우가 존재하기 때문이다.

후속연구

또한, 평가 단계에서도 나타났듯이 영어, 한글 유형의 경우 괄호에 포함된 부연 설명으로 인해 대체어 순위 보정 단계에서 성능이 떨어지는 문제를 개선하기 위하여 이 경우를 따로 분리하여 대체어 순위 보정을 수행하는 방법에 대한 추가 연구가 필요하다.
본 연구에서는 연관단어 뭉치 간 유사도를 비교하는척도로 코사인 유사도를 이용하였으나, 코사인 유사도외에 다양한 척도를 이용한 비교 실험을 수행하여 대체어 추출 성능을 향상시키는 방법에 대한 연구가 필요하다. 또한, 평가 단계에서도 나타났듯이 영어, 한글 유형의 경우 괄호에 포함된 부연 설명으로 인해 대체어 순위 보정 단계에서 성능이 떨어지는 문제를 개선하기 위하여 이 경우를 따로 분리하여 대체어 순위 보정을 수행하는 방법에 대한 추가 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

특허 정보 검색을 위한 대체어 후보 추출 방법
Extracting Alternative Word Candidates for Patent Information Search 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

특허 정보 검색을 위한 대체어 후보 추출 방법 Extracting Alternative Word Candidates for Patent Information Search 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

김성민 (1) 이수원 (28)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

특허 정보 검색을 위한 대체어 후보 추출 방법
Extracting Alternative Word Candidates for Patent Information Search 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper