[논문]술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반관계 추출

정창후; 최성필; 최윤수; 송사광; 전홍우

문제 정의

본 논문에서는 기존에 연구되어 비교적 높은 성능을 나타낸 합성곱 구문 트리 커널에 술어-논항구조 패턴 유사도 커널을 결합한 혼합 커널을 제안한다. 구절 구조의 유사도를 측정하는 합성곱 구문 트리 커널과 술어와 논항 간의 의미적 연결고리를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 보다 성능 좋은 혼합 커널을 구성할 수 있음을 보인다.
본 절에서는 술어-논항 구조의 패턴 유사도를 활용하는 방법이 기존의 트리 커널 방법과 결합됐을 때 얼마만큼의 성능 향상 효과를 발휘하는지를 알아보기 위한 실험을 수행한다.
본 절에서는 술어-논항 구조의 패턴 유사도를 활용하는 혼합 커널의 보다 객관적인 성능 비교를 위해서 비교적 선행 연구가 많이 수행되어진 바이오분야의 단백질 간 상호작용 식별 실험을 수행하여 기존 시스템과 비교를 수행한다. 본 논문에서 제안하는 방법론은 분야에 의존적이지 않기 때문에 테스트컬렉션만 존재하면 다양한 분야에 적용해볼 수 있는 장점이 있다.
지도학습 기반 관계 추출(Supervised Relation Extraction)은 1997년도에 개최된 MUC-7(Message Understanding Conference 7)에서 처음으로 도입된 ‘템플릿 기반 관계 추출(Template Relation Extraction)’ 태스크에서 본격적으로 기계학습 기반의 관계 추출을 위한 학습 집합을 제공함으로써 이 분야 연구의 단초를 제공하였다.
1에서 소개한 KREC 2010 테스트컬렉션을 기반으로 수행한 PLOT 간 연관관계 자동 분류에 대한 성능 평가 결과를 보인다. 혼합 커널의 보다 정확한 성능 비교를 위해서 우선 일반 구문 트리 커널과 술어-논항 구조의 패턴 유사도 커널을 각각 단독으로 사용한 경우에 대해서 살펴본다. 그리고 나서 최종적으로 두 방법을 결합한 상태로 사용한 경우의 성능 측정 결과를 비교해 본다.

제안 방법

관계 추출 분야에서의 커널기반 방법의 특징은 한 문장에 존재하는 두 개체 간의 관계를 가장 잘 표현하는 특징을 선별해서 유사도를 가장 효과적으로 계산하는 커널을 구성하면 성능이 매우 높게 나타난다는 것이다. 개체 간의 관계를 추출할 때 문서 내에 존재하는 다양한 특징을 활용할 수 있는데, 본 논문에서는 두 개체 간의 관계를 핵심적으로 표현하고 있는 술어-논항 구조 패턴을 추출하여 이를 기존의 합성곱 구문 트리 커널(Convolution Parse Tree Kernel) 기법과 결합한 혼합 커널 기반의 관계 추출 방법을 제안한다.
본 논문에서는 트리 커널을 빠르게 계산하기 위하여 [13]에서 개발한 트리 커널 도구를 활용하였고, 지지벡터기계 학습을 위해서는 LIBSVM*을 활용하였다. 그리고 구절 구조 트리 생성을 위해서 Charniak parser**를 이용하였고, 술어-논항 구조 분석을 위해서 Enju parser***를 이용하였다.
혼합 커널의 보다 정확한 성능 비교를 위해서 우선 일반 구문 트리 커널과 술어-논항 구조의 패턴 유사도 커널을 각각 단독으로 사용한 경우에 대해서 살펴본다. 그리고 나서 최종적으로 두 방법을 결합한 상태로 사용한 경우의 성능 측정 결과를 비교해 본다.
실험에 사용된 테스트컬렉션에 대해서 살펴보면, 첫 번째 실험에서는 녹색기술문헌에 존재하는 PLOT 간의 구체적인 상호작용의 종류를 판별하는 성능 평가에 사용되는 KREC 2010 테스트컬렉션을 이용하였다. 그리고 두 번째 실험에서는 바이오 분야의 단백질 간 상호작용 식별 실험에 대표적으로 사용되는 Five PPI Corpora라고 불리는 테스트컬렉션을 이용하였다.
술어-논항 구조 패턴을 자질로 활용하기 위해서 술어-논항 구조, 즉 (그림 4)에서 화살표로 연결되는 술어와 논항, 술어의 종류, 그리고 술어와 논항 사이의 관계 레이블을 이용하여 벡터 값을 생성하였다. 그리고 이 벡터 값을 SVM의 내장 커널 중 하나인 RBF(Radial Basis Function) 커널을 이용하여 술어-논항 구조 패턴의 유사도를 측정하였다.
첫 번째 실험을 통해서 술어-논항 구조의 패턴 유사도 정보를 결합하여 혼합 커널을 구성하는 것이 관계 추출에 유용한 작업임을 보인다. 다음으로 최근에 발표된 시스템들과의 성능 비교 실험을 수행한다. 두 번째 실험을 통해서 본 논문에서 제안한 방법론과 기존 시스템과의 객관적인 성능 비교 평가를 수행할 수 있다.
이때 관계 추출을 위한 커널 함수의 유사도 측정 성능을 향상시키기 위해서 불필요한 문맥 정보들을 제외시키는 트리 가지치기 작업을 수행해야 하는데, 다양한 트리 가지 기 방법들 중에서 PT(Path-enclosed Tree) 방법이 가장 우수하다고 알려져 있다[10]. 따라서 본 논문에서도 PT 방법을 사용하여 두 개체를 연결하는 최소 경로 내에 포함된 부분 트리를 사용하도록 한다.
본 장에서는 논문에서 제안한 술어-논항 구조의 패턴 유사도를 결합한 혼합 커널의 성능을 파악하기 위해서 다양한 테스트컬렉션 기반의 실험을 수행하고 결과를 분석한다. 먼저 기존의 트리 커널만을 사용한 방법과 술어-논항 구조의 패턴 유사도를 결합한 혼합 커널을 사용한 방법의 성능에 대해서 비교 실험을 수행한다. 첫 번째 실험을 통해서 술어-논항 구조의 패턴 유사도 정보를 결합하여 혼합 커널을 구성하는 것이 관계 추출에 유용한 작업임을 보인다.
문장 내에 존재하는 두 개체 간의 구절 구조 정보를 이용하여 유사도를 계산하는 트리 커널과 두 개체 사이의 유의미한 연관관계를 표현하는 술어-논항 구조 패턴을 기반으로 유사도를 계산하는 커널을 선형 관계로 결합하여 혼합 커널을 구성하였다. 트리 커널은 그 자체만으로도 좋은 성능을 발휘하기 때문에 이전의 많은 연구에서 활용되어 왔지만, 동일한 의미를 반영하는 문장의 다양한 변형에 대해서는 유사도 측정에 잡음이 발생할 수밖에 없다.
학습 집합의 클래스별 분포가 차이가 나는 경우나, 학습 모델의 특정 클래스 예측 성능이 낮게 나타날 경우에는 두 평가 방법의 수치 차이가 상당한 경우도 있다. 본 논문에서는 10겹 교차평가(10-fold cross validation)를 수행하여 각 성능을 측정하였다.
본 연구에서는 문장 내에 존재하는 두 개체 간의 구절 구조 정보를 이용하여 유사도를 계산하는 합성곱 구문 트리 커널과 두 개체 사이의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴을 기반으로 유사도를 계산하는 커널을 선형 관계로 결합하는 혼합 커널을 제안하였다. 그리고 이것을 과학기술 문헌의 PLOT 간 연관관계 추출 및 바이오 분야의 단백질 간 상호작용 식별 문제에 적용하여 성능 향상을 입증하였다.
본 장에서는 논문에서 제안한 술어-논항 구조의 패턴 유사도를 결합한 혼합 커널의 성능을 파악하기 위해서 다양한 테스트컬렉션 기반의 실험을 수행하고 결과를 분석한다. 먼저 기존의 트리 커널만을 사용한 방법과 술어-논항 구조의 패턴 유사도를 결합한 혼합 커널을 사용한 방법의 성능에 대해서 비교 실험을 수행한다.
넷째, 선정된 종에서 종별로 각 25%의 문서를 선정하여 최종적으로 10,310건의 문서를 수집하였다. 선정된 문서는 미리 정의된 연관관계 집합을 참조하여 관계태깅 작업을 수행하였다. 실제 테스트컬렉션에 존재하는 연관관계의 수는 39개이지만, 본 실험에서는 비슷한 성질의 연관관계를 통합하여 (표 2)와 같이 총 7개의 연관관계로 재구성하여 실험을 진행하였다.
결과적으로 개체 1과 개체 2의 관계는 두 개체를 유의미한 관계로 연결해주는 술어-논항 구조 패턴에 의하여 식별될 수 있다. 술어-논항 구조 패턴을 자질로 활용하기 위해서 술어-논항 구조, 즉 (그림 4)에서 화살표로 연결되는 술어와 논항, 술어의 종류, 그리고 술어와 논항 사이의 관계 레이블을 이용하여 벡터 값을 생성하였다. 그리고 이 벡터 값을 SVM의 내장 커널 중 하나인 RBF(Radial Basis Function) 커널을 이용하여 술어-논항 구조 패턴의 유사도를 측정하였다.
선정된 문서는 미리 정의된 연관관계 집합을 참조하여 관계태깅 작업을 수행하였다. 실제 테스트컬렉션에 존재하는 연관관계의 수는 39개이지만, 본 실험에서는 비슷한 성질의 연관관계를 통합하여 (표 2)와 같이 총 7개의 연관관계로 재구성하여 실험을 진행하였다.
테스트컬렉션 구축은 전문가 2인에 의해 수행되었고, 서로 교차 검토하여 오류를 최소화하였다. 테스트컬렉션 구축 시 발생되는 철자오류 및 태깅오류 등을 방지하고 작업 속도를 높이기 위하여, (그림 6)과 같은 테스트컬렉션 구축 도구를 자체적으로 개발하여 사용하였다.

대상 데이터

그리고 실제 문헌은 과학기술 뉴스*와 NDSL**에서 보유하고 있는 해외학술지에서 선정하였다. KREC 2010 구축 과정에 대해서 좀 더 구체적으로 살펴보면, 우선 과학기술 뉴스 데이터는 녹색기술 분야 중에서도 2000년도 이후의 문서를 대상으로 문서크기가 상위 80% 이상에 해당되는 것들만을 연도별로 임의로 선정하여 전체 11,185건을 수집하였다. 그리고 해외학술지 데이터는 SCI급, 인용지수, 초록크기 등 여러 가지 요소들을 고려하여 수집하였다.
과학기술 문헌에 존재하는 PLOT 간 연관관계 추출 성능 평가를 위해서 자체적으로 구축한 관계 추출 테스트컬렉션 KREC 2010을 활용하였다. PLOT간 연관관계 추출 대상은 과학기술문헌 중에서도 최근 들어 활발히 언급되고 있는 녹색기술 관련 분야로 한정하였다. 그리고 실제 문헌은 과학기술 뉴스*와 NDSL**에서 보유하고 있는 해외학술지에서 선정하였다.
그리고 해외학술지 데이터는 SCI급, 인용지수, 초록크기 등 여러 가지 요소들을 고려하여 수집하였다. 그 기준으로는 첫째, 해외학술지 중에서 인용지수(impact factor)를 기준으로 상위 50종을 우선 선별하였다. 둘째, 동일한 종에서 개별 초록의 크기가 평균초록 크기의 90% 이상인 문서를 선정하였다.
PLOT간 연관관계 추출 대상은 과학기술문헌 중에서도 최근 들어 활발히 언급되고 있는 녹색기술 관련 분야로 한정하였다. 그리고 실제 문헌은 과학기술 뉴스*와 NDSL**에서 보유하고 있는 해외학술지에서 선정하였다. KREC 2010 구축 과정에 대해서 좀 더 구체적으로 살펴보면, 우선 과학기술 뉴스 데이터는 녹색기술 분야 중에서도 2000년도 이후의 문서를 대상으로 문서크기가 상위 80% 이상에 해당되는 것들만을 연도별로 임의로 선정하여 전체 11,185건을 수집하였다.
KREC 2010 구축 과정에 대해서 좀 더 구체적으로 살펴보면, 우선 과학기술 뉴스 데이터는 녹색기술 분야 중에서도 2000년도 이후의 문서를 대상으로 문서크기가 상위 80% 이상에 해당되는 것들만을 연도별로 임의로 선정하여 전체 11,185건을 수집하였다. 그리고 해외학술지 데이터는 SCI급, 인용지수, 초록크기 등 여러 가지 요소들을 고려하여 수집하였다. 그 기준으로는 첫째, 해외학술지 중에서 인용지수(impact factor)를 기준으로 상위 50종을 우선 선별하였다.
셋째, 발행연도가 2000년 이후인 최신 문서를 선정하였다. 넷째, 선정된 종에서 종별로 각 25%의 문서를 선정하여 최종적으로 10,310건의 문서를 수집하였다. 선정된 문서는 미리 정의된 연관관계 집합을 참조하여 관계태깅 작업을 수행하였다.
단백질 상호작용 식별 실험은 [14]에서 구성한 5가지의 PPI(Protein-Protein Interaction) 관련 테스트 컬렉션을 대상으로 수행하였다. 통상적으로 Five PPI Corpora***라고 불리는 이 테스트컬렉션 집합은 AIMed[15], BioInfer[16], HPRD50[17], IEPA[18] 그리고 LLL[19]을 단일화된 XML 형식으로 변환해 놓은 컬렉션으로서, 현재 단백질 간 상호작용 추출 기법의 준거 평가 컬렉션으로 활용되고 있다.
그 기준으로는 첫째, 해외학술지 중에서 인용지수(impact factor)를 기준으로 상위 50종을 우선 선별하였다. 둘째, 동일한 종에서 개별 초록의 크기가 평균초록 크기의 90% 이상인 문서를 선정하였다. 셋째, 발행연도가 2000년 이후인 최신 문서를 선정하였다.
둘째, 동일한 종에서 개별 초록의 크기가 평균초록 크기의 90% 이상인 문서를 선정하였다. 셋째, 발행연도가 2000년 이후인 최신 문서를 선정하였다. 넷째, 선정된 종에서 종별로 각 25%의 문서를 선정하여 최종적으로 10,310건의 문서를 수집하였다.

데이터처리

다음으로 최근에 발표된 시스템들과의 성능 비교 실험을 수행한다. 두 번째 실험을 통해서 본 논문에서 제안한 방법론과 기존 시스템과의 객관적인 성능 비교 평가를 수행할 수 있다.

이론/모형

과학기술 문헌에 존재하는 PLOT 간 연관관계 추출 성능 평가를 위해서 자체적으로 구축한 관계 추출 테스트컬렉션 KREC 2010을 활용하였다. PLOT간 연관관계 추출 대상은 과학기술문헌 중에서도 최근 들어 활발히 언급되고 있는 녹색기술 관련 분야로 한정하였다.
또한 Moschitti (2006)에 의하면, 부분트리 커널은 부분집합트리 커널에 비해서 성능이 매우 저조하게 나타났다[13]. 따라서 본 논문에서도 구문 트리 분리 방법은 부분집합트리를 이용하였다.
본 논문에서 사용한 성능 측정 기준은 거시 평균 기반 F-점수(macro-averaged F-score)와 미시 평균 기반 F-점수(micro-averaged F-score)이다. 우선 거시 평균 기반 방법은 m개의 클래스에 대해서 개별적으로 정확율과 재현율이 합산된 F-점수를 계산하고, 이를 m으로 나눈 평균을 계산하는 방법이다.
본 논문에서는 술어-논항 구조 패턴을 추출하기 위해서 HPSG* 파서를 이용하였다. CFG**를 사용하는 전통적인 파서와 달리 HPSG를 사용하는 파서는 효과적으로 문장의 구문적/의미적 구조를 분석하여 술어-논항 관계를 제공한다.
본 논문에서는 트리 커널을 빠르게 계산하기 위하여 [13]에서 개발한 트리 커널 도구를 활용하였고, 지지벡터기계 학습을 위해서는 LIBSVM*을 활용하였다. 그리고 구절 구조 트리 생성을 위해서 Charniak parser**를 이용하였고, 술어-논항 구조 분석을 위해서 Enju parser***를 이용하였다.
실험에 사용된 테스트컬렉션에 대해서 살펴보면, 첫 번째 실험에서는 녹색기술문헌에 존재하는 PLOT 간의 구체적인 상호작용의 종류를 판별하는 성능 평가에 사용되는 KREC 2010 테스트컬렉션을 이용하였다. 그리고 두 번째 실험에서는 바이오 분야의 단백질 간 상호작용 식별 실험에 대표적으로 사용되는 Five PPI Corpora라고 불리는 테스트컬렉션을 이용하였다.
커널 기반 기법의 단초는 Zelenko (2003)에서 제시하였다. 최초로 두 개의 구문 분석 트리에 대한 유사도를 재귀적으로 측정하는 연속 부분 트리 커널(contiguous subtree kernel)과 희소 부분 트리 커널(sparse subtree kernel)의 두 가지 구문 트리 커널을 고안하고, 이를 두 가지 이진 관계에 적용하여 매우 높은 성능을 보였다[7].

성능/효과

(표 4)는 PLOT 간 연관관계 추출 실험에 대한 성능 평가 결과를 보여준다. (표 4)에서 보이는 것처럼 트리 커널과 술어-논항 구조 패턴 유사도 커널을 단독으로 수행했을 때는 트리 커널의 성능이 술어-논항 구조 패턴 유사도 커널보다 더 좋은 것을 확인할 수 있다. 하지만 트리 커널 단독으로 사용하는 것보다는 술어-논항 구조 패턴 유사도 커널을 결합하여 혼합 커널을 구성하였을 때에 더 나은 성능을 보이는 것을 확인할 수 있다.
그리고 이것을 과학기술 문헌의 PLOT 간 연관관계 추출 및 바이오 분야의 단백질 간 상호작용 식별 문제에 적용하여 성능 향상을 입증하였다. 결과적으로 문장 내에 존재하는 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널은 기존의 합성곱 구문 트리 커널과 결합됨으로써 관계 추출의 성능을 향상시킬 수 있음을 보여주었다.
또한 총 4개의 단백질 명이 존재하며, 이들 간의 상호 작용 쌍은 총 6가지이다. 결론적으로 위의 문장에서는 총 6개의 단백질 간 상호작용 포함 문장이 구성될 수 있으며, 이들 각각은 동일한 문장을 공유하게 된다.
본 논문에서는 기존에 연구되어 비교적 높은 성능을 나타낸 합성곱 구문 트리 커널에 술어-논항구조 패턴 유사도 커널을 결합한 혼합 커널을 제안한다. 구절 구조의 유사도를 측정하는 합성곱 구문 트리 커널과 술어와 논항 간의 의미적 연결고리를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 보다 성능 좋은 혼합 커널을 구성할 수 있음을 보인다.
본 연구에서는 문장 내에 존재하는 두 개체 간의 구절 구조 정보를 이용하여 유사도를 계산하는 합성곱 구문 트리 커널과 두 개체 사이의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴을 기반으로 유사도를 계산하는 커널을 선형 관계로 결합하는 혼합 커널을 제안하였다. 그리고 이것을 과학기술 문헌의 PLOT 간 연관관계 추출 및 바이오 분야의 단백질 간 상호작용 식별 문제에 적용하여 성능 향상을 입증하였다. 결과적으로 문장 내에 존재하는 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널은 기존의 합성곱 구문 트리 커널과 결합됨으로써 관계 추출의 성능을 향상시킬 수 있음을 보여주었다.
7%를 차지한다는 사실로 그 편중현상이 매우 심함을 알 수 있다. 따라서 관계 추출의 정답과 오답만을 검사하는 미시 평균 기반 F-점수와는 달리 거시 평균 기반 F-점수는 각 관계 별 정답과 오답을 따로 검사한 후에 그것의 평균 값을 성능으로 취하기 때문에 관계별 인스턴스 개수의 분포가 고르지 못한 경우에는 성능이 낮게 나오는 경향이 있다. 이는 관계 인스턴스가 적은 연관관계의 경우에 학습 집합의 부족 현상이 발생하기 때문이다.
본 절에서는 술어-논항 구조의 패턴 유사도를 활용하는 혼합 커널의 보다 객관적인 성능 비교를 위해서 비교적 선행 연구가 많이 수행되어진 바이오분야의 단백질 간 상호작용 식별 실험을 수행하여 기존 시스템과 비교를 수행한다. 본 논문에서 제안하는 방법론은 분야에 의존적이지 않기 때문에 테스트컬렉션만 존재하면 다양한 분야에 적용해볼 수 있는 장점이 있다.
실험에 필요한 학습 매개변수 C는 SVM 정규화 인자를 나타내고, λ는 비교 대상이 되는 구문 트리들의 깊이(tree depth)가 서로 상이함에 따라 발생하는 커널 값의 불일치성을 해결하기 위해서 사용되는 트리 커널 소멸 인자를 나타낸다. 실험 결과, 대체적으로 80% 중⁃후반대의 높은 성능을 보여주고 있다.
5로 동일하게 적용하였다. 실험 결과, 모든 테스트컬렉션에 대해서 본 논문에서 제안한 시스템이 우수한 성능을 보이고 있다. 특히 학습 집합의 규모가 큰 AIMed와 BioInfer 테스트컬렉션에서의 성능 향상이 두드러진다.
먼저 기존의 트리 커널만을 사용한 방법과 술어-논항 구조의 패턴 유사도를 결합한 혼합 커널을 사용한 방법의 성능에 대해서 비교 실험을 수행한다. 첫 번째 실험을 통해서 술어-논항 구조의 패턴 유사도 정보를 결합하여 혼합 커널을 구성하는 것이 관계 추출에 유용한 작업임을 보인다. 다음으로 최근에 발표된 시스템들과의 성능 비교 실험을 수행한다.
커널 기반 기법의 단초는 Zelenko (2003)에서 제시하였다. 최초로 두 개의 구문 분석 트리에 대한 유사도를 재귀적으로 측정하는 연속 부분 트리 커널(contiguous subtree kernel)과 희소 부분 트리 커널(sparse subtree kernel)의 두 가지 구문 트리 커널을 고안하고, 이를 두 가지 이진 관계에 적용하여 매우 높은 성능을 보였다[7]. 이 연구를 기반으로 Culotta et al.
(표 4)에서 보이는 것처럼 트리 커널과 술어-논항 구조 패턴 유사도 커널을 단독으로 수행했을 때는 트리 커널의 성능이 술어-논항 구조 패턴 유사도 커널보다 더 좋은 것을 확인할 수 있다. 하지만 트리 커널 단독으로 사용하는 것보다는 술어-논항 구조 패턴 유사도 커널을 결합하여 혼합 커널을 구성하였을 때에 더 나은 성능을 보이는 것을 확인할 수 있다. 따라서 기존의 트리 커널은 술어-논항 구조 패턴 유사도 커널과 결합하여 더 나은 성능을 발휘한다는 사실을 알 수 있다.

후속연구

본 논문에서는 술어-논항 구조의 패턴 유사도 정보를 트리 커널에 혼합 커널 형태로 적용하였지만, 또 다른 방법으로 트리 커널의 가지치기 수행 시에 본 아이디어를 적용해 볼 수 있을 것이다. 기존에 제안된 다양한 형태의 트리 가지치기 방법이 있지만, 술어-논항 구조의 패턴 정보에 근거하여 정말 중요한 노드들을 인식하고 그 정보에 기반하여 가지치기를 수행한다면 혼합 커널 기법이 아닌 트리 커널 단독으로도 충분히 성능을 향상시킬 수 있을 것으로 예상한다. 이 경우 트리 커널은 또 다른 종류의 커널과 결합하여 더욱 정교한 혼합 커널을 구성할 수 있을 것이다.
향후 연구로는 본 논문에서 제안한 아이디어를 또 다른 형태로 적용하는 방법을 생각해볼 수 있다. 본 논문에서는 술어-논항 구조의 패턴 유사도 정보를 트리 커널에 혼합 커널 형태로 적용하였지만, 또 다른 방법으로 트리 커널의 가지치기 수행 시에 본 아이디어를 적용해 볼 수 있을 것이다. 기존에 제안된 다양한 형태의 트리 가지치기 방법이 있지만, 술어-논항 구조의 패턴 정보에 근거하여 정말 중요한 노드들을 인식하고 그 정보에 기반하여 가지치기를 수행한다면 혼합 커널 기법이 아닌 트리 커널 단독으로도 충분히 성능을 향상시킬 수 있을 것으로 예상한다.
향후 연구로는 본 논문에서 제안한 아이디어를 또 다른 형태로 적용하는 방법을 생각해볼 수 있다. 본 논문에서는 술어-논항 구조의 패턴 유사도 정보를 트리 커널에 혼합 커널 형태로 적용하였지만, 또 다른 방법으로 트리 커널의 가지치기 수행 시에 본 아이디어를 적용해 볼 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	관계 추출 기법 중 자질 기반 방법으로 kambhatla가 시도한 것은 무엇인가?	자질 기반 방법으로서 Kambhatla (2004)는 최초로 최대 엔트로피 모델(Maximum Entropy Model)을 기반으로 다양한 형태의 어휘적, 구문적, 의미적 자질들을 이용하여 관계 추출을 시도하였다[4]. 이를 기반으로 GuoDong et al.
	정보 추출 기술을 구성하는 요소 기술로는 어떤 것들이 있는가?	비정형적인 텍스트 내에서 중요하고 연관성 있는 정보를 식별하는 정보 추출은 자연어 처리 및 텍스트 마이닝 분야에서 핵심적인 영역으로 인식되고 있다. 이러한 정보 추출 기술을 구성하는 요소 기술로서 (1) 개체명 인식(Named-Entity Recognition), (2) 관계 추출(Relation Extraction), (3) 대용어 참조해소(Co-reference Resolution) 등이 있는데[1], 이 중에서 문서 내에 존재하는 중요한 개체 간의 관계를 자동으로 추출하는 관계 추출은 정보 추출 중에서 핵심적인 작업으로 꼽히면서도 가장 어려운 작업으로 알려져 있다[1-3].
	관계 추출은 무엇인가?	비정형적인 텍스트 내에서 중요하고 연관성 있는 정보를 식별하는 정보 추출은 자연어 처리 및 텍스트 마이닝 분야에서 핵심적인 영역으로 인식되고 있다. 이러한 정보 추출 기술을 구성하는 요소 기술로서 (1) 개체명 인식(Named-Entity Recognition), (2) 관계 추출(Relation Extraction), (3) 대용어 참조해소(Co-reference Resolution) 등이 있는데[1], 이 중에서 문서 내에 존재하는 중요한 개체 간의 관계를 자동으로 추출하는 관계 추출은 정보 추출 중에서 핵심적인 작업으로 꼽히면서도 가장 어려운 작업으로 알려져 있다[1-3].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반관계 추출
Relation Extraction based on Composite Kernel combining Pattern Similarity of Predicate-Argument Structure 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (21)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반관계 추출 Relation Extraction based on Composite Kernel combining Pattern Similarity of Predicate-Argument Structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (21)

이 논문을 인용한 문헌

저자의 다른 논문 :

정창후 (3) 최성필 (28) 최윤수 (7) 송사광 (8) 전홍우 (1)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반관계 추출
Relation Extraction based on Composite Kernel combining Pattern Similarity of Predicate-Argument Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper