[논문]Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text

Kang, In-Su

doi:10.9708/jksci.2021.26.08.047

[국내논문] Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.26 no.8, 2021년, pp.47 - 54

Kang, In-Su (Dept. of Computer Science, Kyungsung University)

초록
AI-Helper

핵심구 추출은 문서의 내용을 대표하는 주제 용어를 자동 추출하는 작업이다. 비지도 방식 핵심구 추출에서는 문서 텍스트로부터 핵심구 후보 용어가 되는 단어나 구를 추출하고 후보 용어에 부여된 중요도에 기반하여 최종 핵심구들이 선택된다. 본 논문에서는 비지도 방식 핵심구 후보 용어 중요도 계산에서 단어 유형 후보 용어와 구 유형 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 핵심구 추출 대상 문서 텍스트로부터 후보 용어 집합의 타입-토큰 비율과 고빈도 대표 용어의 정보량을 단어 유형과 구 유형으로 구분하여 수집한 후 중요도 조정에 활용한다. 실험에서는 영어로 작성된 full-text 논문을 대상으로 구축된 4개 서로 다른 핵심구 추출 평가집합들을 사용하여 성능 평가를 수행하였고, 제안된 중요도 조정 방법은 3개 평가집합들에서 베이스 라인 및 비교 방법들보다 높은 성능을 보였다.

Abstract ▼ AI-Helper

Given a document, keyphrase extraction is to automatically extract words or phrases which topically represent the content of the document. In unsupervised keyphrase extraction approaches, candidate words or phrases are first extracted from the input document, and scores are calculated for keyphrase candidates, and final keyphrases are selected based on the scores. Regarding the computation of the scores of candidates in unsupervised keyphrase extraction, this study proposes a method of adjusting the scores of keyphrase candidates according to the types of keyphrase candidates: word-type or phrase-type. For this, type-token ratios of word-type and phrase-type candidates as well as information content of high-frequency word-type and phrase-type candidates are collected from the input document, and those values are employed in adjusting the scores of keyphrase candidates. In experiments using four keyphrase extraction evaluation datasets which were constructed for full-text articles in English, the proposed method performed better than a baseline method and comparison methods in three datasets.

Keyword

표/그림 (9)

그림 Fig. 1. A list of equations which are used in the proposed method.
표 Table 1. Keyphrase evaluation datasets.
그림 Fig. 2. Distribution of SingleTermWeight values over different datasets.
그림 Fig. 3. Ratio of single-word terms among top keyphrase candidates.
그림 Fig. 4. F1 performance of top-k candidates on Citeulike dataset.
그림 Fig. 5. F1 performance of top-k candidates on NUS dataset.
그림 Fig. 6. F1 performance of top-k candidates on SemEval dataset.
그림 Fig. 7. F1 performance of top-k candidates on Krapivin dataset.
표 Table 2. Ratio of single-word and multi-word terms among the gold-standard keyphrases.

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 고빈도 단어 유형 후보 용어들로의 핵심 구 편향 문제를 다루기 위해 문서 내 단어 및 구 유형 용어들의 출현 정보에 기반하여 핵심구 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 개별 문서 단위로 단어 및 구 유형 용어 집합들의 타입-토큰 비율과 고빈도 대표 단어 및 대표 구의 출현 확률에 기반한 정보량을 활용한다.
이를 위해 개별 문서 단위로 단어 및 구 유형 용어 집합들의 타입-토큰 비율과 고빈도 대표 단어 및 대표 구의 출현 확률에 기반한 정보량을 활용한다. 특히 본 연구에서는 역문헌빈도 등 문서 외부정보의 사용으로 인한 성능 변화 효과를 배제하기 위해, 핵심구 추출 대상 문서 내부의 정보만을 사용하여 핵심 구 추출을 수행한다. 실험에서는 기존 핵심구 추출 연구들에서 사용된 4개 서로 다른 데이터셋들에 대해, 제안된 방법의 성능 평가 결과를 제시한다.
본 논문에서는 핵심구 추출을 위해 단어 및 구 유형 후보용어의 중요도를 조정하는 방법을 제안하였다. 이를 위해 단어 및 구 유형 후보 용어 집합에 대한 어휘다양성과 단어 및 구 유형 고빈도 대표 용어의 출현확률에 기반한 정보량을 결합 사용하였다.

제안 방법

특히 본 연구에서는 역문헌빈도 등 문서 외부정보의 사용으로 인한 성능 변화 효과를 배제하기 위해, 핵심구 추출 대상 문서 내부의 정보만을 사용하여 핵심 구 추출을 수행한다. 실험에서는 기존 핵심구 추출 연구들에서 사용된 4개 서로 다른 데이터셋들에 대해, 제안된 방법의 성능 평가 결과를 제시한다.
본 논문에서는 핵심구 추출을 위해 단어 및 구 유형 후보용어의 중요도를 조정하는 방법을 제안하였다. 이를 위해 단어 및 구 유형 후보 용어 집합에 대한 어휘다양성과 단어 및 구 유형 고빈도 대표 용어의 출현확률에 기반한 정보량을 결합 사용하였다. 핵심구 추출 평가 집합들을 사용한 분석을 통해 제안된 방법은 단어 유형 후보 용어의 중요도를 감소시키는 효과가 있음을 보였다.

데이터처리

제안된 방법의 중요도 조정 동작을 분석하기 위해 식 (1)을 핵심구 순위화 관점에서 동일한 식 (6)으로 변경한 후, 실험 문서집합들에서 식 (6)의 SingleTermWeight의 값들을 수집하였고, 그 결과를 box plot 형식으로 그림 2에 제시하였다.

성능/효과

모든 실험 문서들에서 SingleTermWeight 값은 0.6 미만이었으며, 가장 많은 문서로 이루어진 Krapivin 데이터셋의 SingleTermWeight 값들이 가장 넓은 분포를 보였다. SingleTermWeight의 평균 값의 경우, Citeulike가가장 높았고 다음으로 NUS, SemEval, Krapivin 순이었다.
그림을 통해 모든 실험 문서 집합들에서 제안된 중요도 조정 방식은 상위 핵심구 목록 내 단어 용어의 포함 비율을 감소시키고 있음을 알 수 있다. 다음은 SemEval 데이터셋 내 한 논문에 대해 베이스라인 방법과 제안된 방법의 상위 5개 핵심구 목록들을 비교 제시한 것으로, 제안된 방법의 경우 구 유형 용어 포함 비율이 베이스라인 방법에 비해 상대적으로 높음을 확인할 수 있다. 아래 목록에서 정답 핵심구들은 볼드체로 표시되었다.
중요도 조정이 적용되지 않은 베이스라인 방법과 비교할 때, 제안된 방법 및 boosting factor 기반 방법은 공통적으로 NUS, SemEval, Krapivin의 데이터셋들에서 베이스라인 방법보다 높은 성능을 보였다. 제안된 방법과 boosting factor 기반 방법을 비교한 경우, 제안된 방법은 NUS, SemEval, Krapivin 데이터셋들의 모든 상위 순위용어 목록들에서 boosting factor 기반 방법보다 높은 성능을 보였다.
중요도 조정이 적용되지 않은 베이스라인 방법과 비교할 때, 제안된 방법 및 boosting factor 기반 방법은 공통적으로 NUS, SemEval, Krapivin의 데이터셋들에서 베이스라인 방법보다 높은 성능을 보였다. 제안된 방법과 boosting factor 기반 방법을 비교한 경우, 제안된 방법은 NUS, SemEval, Krapivin 데이터셋들의 모든 상위 순위용어 목록들에서 boosting factor 기반 방법보다 높은 성능을 보였다. Sumup 및 HmeanTF 방법과 비교한 경우에도 제안된 방법은 NUS, SemEval, Krapivin의 평가 집합들에서 더 높은 성능을 보였다.
제안된 방법과 boosting factor 기반 방법을 비교한 경우, 제안된 방법은 NUS, SemEval, Krapivin 데이터셋들의 모든 상위 순위용어 목록들에서 boosting factor 기반 방법보다 높은 성능을 보였다. Sumup 및 HmeanTF 방법과 비교한 경우에도 제안된 방법은 NUS, SemEval, Krapivin의 평가 집합들에서 더 높은 성능을 보였다. 이러한 결과는 제안된 방법에서 시도된 단어-구 유형 용어 집합의 어휘다양성 및 고빈도 대표 용어의 정보량에 기반한 후보 용어의 중요도 조정 방법이 핵심구 추출 성능 향상에 긍정적 효과가 있음을 보여주는 결과이다.
Sumup 및 HmeanTF 방법과 비교한 경우에도 제안된 방법은 NUS, SemEval, Krapivin의 평가 집합들에서 더 높은 성능을 보였다. 이러한 결과는 제안된 방법에서 시도된 단어-구 유형 용어 집합의 어휘다양성 및 고빈도 대표 용어의 정보량에 기반한 후보 용어의 중요도 조정 방법이 핵심구 추출 성능 향상에 긍정적 효과가 있음을 보여주는 결과이다.
그러나, 제안된 방법은 Citeulike 데이터셋에서는 나머지 데이터셋들과 달리, 베이스라인, boosting factor 기반 방법 및 HmeanTF 방법보다 낮은 성능을 보였다. 그 이유중 하나는 Citeulike 데이터셋 내 정답 핵심구 중 단어 유형 키워드의 높은 비율이 제안된 방법에서의 단어 유형 용어 중요도 감소 효과와 상충되기 때문인 것으로 보인다.
이를 위해 단어 및 구 유형 후보 용어 집합에 대한 어휘다양성과 단어 및 구 유형 고빈도 대표 용어의 출현확률에 기반한 정보량을 결합 사용하였다. 핵심구 추출 평가 집합들을 사용한 분석을 통해 제안된 방법은 단어 유형 후보 용어의 중요도를 감소시키는 효과가 있음을 보였다. 성능 평가를 통해 제안된 방법은 중요도를 조정하지 않은 베이스라인 방법 및 다른 비교 방법들보다 NUS, SemEval, Krapivin 데이터셋들에서 높은 성능을 보였다(그림 5, 6, 7 참조).
핵심구 추출 평가 집합들을 사용한 분석을 통해 제안된 방법은 단어 유형 후보 용어의 중요도를 감소시키는 효과가 있음을 보였다. 성능 평가를 통해 제안된 방법은 중요도를 조정하지 않은 베이스라인 방법 및 다른 비교 방법들보다 NUS, SemEval, Krapivin 데이터셋들에서 높은 성능을 보였다(그림 5, 6, 7 참조). 그러나 Citeulike 데이터셋의 경우 제안된 방법은 Sumup 방법을 제외한 나머지 방법들보다 낮은 성능을 보였는데(그림 4 참조), 이는 제안된 방법의 단어 유형 용어 중요도 감소 효과(그림 2, 3 참조) 가 단어 유형의 정답 핵심구 비율이 상대적으로 높은 Citeulike 데이터셋에서 부정적으로 동작한 이유에 기인한 것으로 분석되었다.
성능 평가를 통해 제안된 방법은 중요도를 조정하지 않은 베이스라인 방법 및 다른 비교 방법들보다 NUS, SemEval, Krapivin 데이터셋들에서 높은 성능을 보였다(그림 5, 6, 7 참조). 그러나 Citeulike 데이터셋의 경우 제안된 방법은 Sumup 방법을 제외한 나머지 방법들보다 낮은 성능을 보였는데(그림 4 참조), 이는 제안된 방법의 단어 유형 용어 중요도 감소 효과(그림 2, 3 참조) 가 단어 유형의 정답 핵심구 비율이 상대적으로 높은 Citeulike 데이터셋에서 부정적으로 동작한 이유에 기인한 것으로 분석되었다. 향후에는 새로운 중요도 조정 방법들을 고안하여 현재 방법을 보다 개선할 계획이다.

후속연구

그러나 Citeulike 데이터셋의 경우 제안된 방법은 Sumup 방법을 제외한 나머지 방법들보다 낮은 성능을 보였는데(그림 4 참조), 이는 제안된 방법의 단어 유형 용어 중요도 감소 효과(그림 2, 3 참조) 가 단어 유형의 정답 핵심구 비율이 상대적으로 높은 Citeulike 데이터셋에서 부정적으로 동작한 이유에 기인한 것으로 분석되었다. 향후에는 새로운 중요도 조정 방법들을 고안하여 현재 방법을 보다 개선할 계획이다.

참고문헌 (20)

P. Turney, "Learning Algorithms for Keyphrase Extraction," Information Retrieval, Vol. 2, No. 4, pp. 303-336, 2000.

상세보기
K. Hasan, and V. Ng, "Automatic Keyphrase Extraction: A Survey of the State of the Art," Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp. 1262-1273, 2014.
S. El-Beltagy, and A. Rafea, "KP-Miner: Participation in SemEval-2," Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 190-193, 2010.
R. Campos, V. Mangaravite, A. Pasquali, A. Jorge, C. Nunes, and A. Jatowt, "YAKE! Keyword extraction from single documents using multiple local features," Information Sciences, Vol. 509, pp. 257-289, 2020.

상세보기
R. Mihalcea, and P. Tarau, "TextRank: Bringing Order into Texts," Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004.
C. Florescu, and C. Caragea, "PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents," Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pp. 1105-1115, 2017.
F. Boudin, "Unsupervised Keyphrase Extraction with Multipartite Graphs," Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 667-672, 2018.
S. Kim, O. Medelyan, M. Kan, and T. Baldwin, "SemEval-2010 Task 5 : Automatic Keyphrase Extraction from Scientific Articles," Proceedings of the 5th International Workshop on Semantic Evaluation, pp. 21-26, 2010.
E. Papagiannopoulou, and G. Tsoumakas, "A review of keyphrase extraction," Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol. 10, No. 2, 2020.
X. Wan, and J. Xiao, "Single document keyphrase extraction using neighborhood knowledge," Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, pp. 855-860, 2008.
C. Florescu, and C. Caragea, "A New Scheme for Scoring Phrases in Unsupervised Keyphrase Extraction," Advances in Information Retrieval - 39th European Conference on IR Research, pp. 477-483, 2017.
W. Johnson, "Studies in language behavior: A program of research," Psychological Monographs, Vol. 56, No. 2, pp. 1-15, 1944.

상세보기
B. Richards, "Type/Token Ratios: what do they really tell us?," Journal of Child Language, Vol. 14(2), pp. 201-209, 1987.

상세보기
C. Shannon, "A mathematical theory of communication," Bell System Technical Journal, Vol. 27, No. 3, pp. 379-423, 1948.

상세보기
O. Medelyan, E. Frank, and I. Witten, "Human-competitive tagging using automatic keyphrase extraction," Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp. 1318-1327, 2009.
T. Nguyen, and M. Kan, "Keyphrase Extraction in Scientific Publications," Proceedings of the 10th International Conference on Asian Digital Libraries, pp. 317-326, 2007.
M. Krapivin, A. Autaeu, and M. Marchese, "Large Dataset for Keyphrases Extraction," University of Trento, Tech Report # DISI-09-055, 2009.
Datasets of Automatic Keyphrase Extraction, https://github.com/LIAAD/KeywordExtractor-Datasets
M. Porter, "An Algorithm for Suffix Stripping," Program, Vol. 14, No. 3, pp. 130-137, 1980.

상세보기
SpaCy. https://spacy.io/

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증