[국내논문] Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.26 no.8, 2021년, pp.47 - 54  

Kang, In-Su (Dept. of Computer Science, Kyungsung University)

핵심구 추출은 문서의 내용을 대표하는 주제 용어를 자동 추출하는 작업이다. 비지도 방식 핵심구 추출에서는 문서 텍스트로부터 핵심구 후보 용어가 되는 단어나 구를 추출하고 후보 용어에 부여된 중요도에 기반하여 최종 핵심구들이 선택된다. 본 논문에서는 비지도 방식 핵심구 후보 용어 중요도 계산에서 단어 유형 후보 용어와 구 유형 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 핵심구 추출 대상 문서 텍스트로부터 후보 용어 집합의 타입-토큰 비율과 고빈도 대표 용어의 정보량을 단어 유형과 구 유형으로 구분하여 수집한 후 중요도 조정에 활용한다. 실험에서는 영어로 작성된 full-text 논문을 대상으로 구축된 4개 서로 다른 핵심구 추출 평가집합들을 사용하여 성능 평가를 수행하였고, 제안된 중요도 조정 방법은 3개 평가집합들에서 베이스 라인 및 비교 방법들보다 높은 성능을 보였다.

Given a document, keyphrase extraction is to automatically extract words or phrases which topically represent the content of the document. In unsupervised keyphrase extraction approaches, candidate words or phrases are first extracted from the input document, and scores are calculated for keyphrase ...


문제 정의

  • 본 연구에서는 고빈도 단어 유형 후보 용어들로의 핵심 구 편향 문제를 다루기 위해 문서 내 단어 및 구 유형 용어들의 출현 정보에 기반하여 핵심구 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 개별 문서 단위로 단어 및 구 유형 용어 집합들의 타입-토큰 비율과 고빈도 대표 단어 및 대표 구의 출현 확률에 기반한 정보량을 활용한다.
  • 이를 위해 개별 문서 단위로 단어 및 구 유형 용어 집합들의 타입-토큰 비율과 고빈도 대표 단어 및 대표 구의 출현 확률에 기반한 정보량을 활용한다. 특히 본 연구에서는 역문헌빈도 등 문서 외부정보의 사용으로 인한 성능 변화 효과를 배제하기 위해, 핵심구 추출 대상 문서 내부의 정보만을 사용하여 핵심 구 추출을 수행한다. 실험에서는 기존 핵심구 추출 연구들에서 사용된 4개 서로 다른 데이터셋들에 대해, 제안된 방법의 성능 평가 결과를 제시한다.
  • 본 논문에서는 핵심구 추출을 위해 단어 및 구 유형 후보용어의 중요도를 조정하는 방법을 제안하였다. 이를 위해 단어 및 구 유형 후보 용어 집합에 대한 어휘다양성과 단어 및 구 유형 고빈도 대표 용어의 출현확률에 기반한 정보량을 결합 사용하였다.
