[논문]TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구

유은순; 최건희; 김승훈

doi:10.9708/jksci.2015.20.2.121

TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구
Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.20 no.2, 2015년, pp.121 - 129

유은순 (단국대학교 미디어콘텐츠연구원) , 최건희 (단국대학교 소프트웨어학과) , 김승훈 (단국대학교 응용컴퓨터공학과)

초록
AI-Helper

도서 상품에 대한 정보량이 폭증하면서 고객이 도서 선택에 어려움을 겪는 상황이 발생하고 있다. 이에 따라 고객에게 적합한 도서 정보를 제공하여 구매를 유도하는 도서 추천시스템의 중요성이 커지고 있다. 하지만 도서의 서지정보나 사용자 정보 등을 이용한 기존의 추천시스템은 추천 결과의 신뢰도에 문제를 드러내고 있기 때문에 도서 본문 텍스트의 의미적 정보를 추천시스템에 반영하는 것이 필요하다. 따라서 본 논문은 이에 대한 선행연구로 TF-IDF기법과 소설의 외형적 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다. 이를 위해 100권의 소설텍스트를 수집하고 각각의 소설을 머리말, 대화문, 비대화문, 맺음말의 4개의 구조로 분리한 후 TF-IDF 가중치를 계산하였다. 실험결과 본문 텍스트만을 이용했을 때 보다 머리말과 맺음말을 포함하고 대화문에 가중치를 높게 부여하였을 때 주제어의 추출 정확도가 42.1%의 성능 향상을 보였다.

Abstract ▼ AI-Helper

With the explosive growth of information about books, there is a growing number of customers who find it difficult to pick a book. Against the backdrop, the importance of a book recommendation system becomes greater, through which appropriate information about books could be offered then to encourage customers to buy a book in the end. However, existing recommendation systems based on the bibliographical information or user data reveal the reliability issue found in their recommendation results. This is why it is necessary to reflect semantic information extracted from the texts of a book's main body in a recommendation system. Accordingly, this paper suggests a method for extracting keywords from the main body of novels, as a preceding research, by using TF-IDF method as well as the text structure. To this end, the texts of 100 novels have been collected then to divide them into four structural elements of preface, dialogue, non-dialogue and closing. Then, the TF-IDF weight of each keyword has been calculated. The calculation results show that the extraction accuracy of keywords improves by 42.1% in performance when more weight is given to dialogue while including preface and closing instead of using just the main body.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

도서의 내용적 의미를 간과하고 도서의 서지 정보와 사용자 정보만을 이용하는 기존의 추천 시스템의 성능을 향상시키기 위한 선행연구로 본 연구는 TF-IDF와 소설 텍스트의 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다.
TF-IDF는 문서의 내용을 대표하는 주제어를 추출하는데 유용하게 사용되어 왔지만 빈도 정보에 의한 방법은 한계가 있다. 따라서 본 논문은 빈도 정보뿐만 아니라 소설텍스트의 구조 정보를 이용하여 가중치를 부여함으로써 주제어 추출의 성능과 정확도를 향상시키고자 한다.
또한 소설 연구에서 등장인물들의 대사가 작가의 작품세계와 주제를 드러내는데 유용한 형식이라는 점이 강조되어 온 점을 고려하여 대화문에 가중치를 부여하였다. 따라서 본 논문의 목적은 소설의 주제어 추출을 위해 소설 구조가 반영된 개선된 TF-IDF를 제안하는 것이다.
구조에 대한 가중치는 해당 구조가 얼마나 중요한 지표가 되는지를 설정한다. 본 논문에서는 소설의 대화가 주제를 전달하는데 있어 중요한 역할을 한다는 점을 고려하여 대화문에 대한 가중치를 다양하게 설정한다. 머리말과 맺음말, 대화문과 비대화문에 대해 부여하는 가중치의 합은 식(3)과 같다.
하지만 현재 제공되고 있는 대부분의 추천시스템은 고객의 선호도 정보와 도서 서지 정보, 고객들의 리뷰 정보들을 이용하는데 그치고 있으며 도서 본문 내용에 대한 정보를 고려하지 않기 때문에 추천 정확도에 대한 신뢰도가 떨어진다. 이에 본 연구는 도서 본문의 내용 정보를 추천시스템에 반영하여 추천 성능을 향상시키기 위한 선행 연구로 도서 본문에 대한 주제어 추출을 제안한다.

제안 방법

TF_h,i는 머리말에서 등장한 단어의 TF값을, TF_c,i는 맺음말에서 등장한 단어의 TF값을, TF_d,i는 대화문에서 등장한 단어의 TF값을, TF_n,i는 비대화문에서 등장한 단어의 TF값을 나타낸다. 각 문서들의 데이터를 계산하고 특정 단어 i의 가중치 TEIDF_i를 계산하여 저장한다. IDF는 모든 문서의 집합이므로 특정단어 i의 IDF값은 반드시 존재한다.
계산된 TFIDF 가중치를 이용하여 오름차순으로 정렬한 후 상위 주제어 10개를 선정하여 주제어 DB에 저장한다.
우선 주제어 추출을 위해 소설 텍스트 100권을 수집하고 수집된 소설 텍스트들을 소설의 형식적 구조인 머리말, 맺음말, 대화문, 비대화문 4가지로 분리하였다. 그리고 각각의 구조에서 명사를 추출하고 명사, 태그, 빈도수를 DB형태로 저장한 후 저장된 명사 DB를 이용하여 IDF 문서를 생성하고 명사, 태그, 문서군에서의 출현빈도수를 DB형태로 저장하였다. 마지막으로 저장된 데이터를 이용하여 각 소설의 구조에 가중치 값을 다르게 부여하면서 상위 10개의 주제어를 선정한 후 학생 10명이 소설 텍스트에서 수작업으로 추출한 주제어 10개와 비교하여 일치율을 측정하였다.
셋째, 추출된 명사 데이터를 이용하여 IDF 문서를 생성하였다. 넷째, 명사 데이터와 IDF 문서를 이용하여 각 명사에 TF-IDF 가중치를 부여하였다.
15씩 부여하고 대화문의 가중치를 다르게 부여했을 때 나타난 실험 결과를 그래프로 나타낸 것이다. 대화문의 가중치 비율은 5% 단위로 올리고, 이에 비례하여 비대화문의 가중치를 5% 단위로 낮추어 실험을 진행하였다. 그림 5에서 보여준 그래프에서 대화문의 가중치의 비율을 높게 할수록 주제어의 일치율이 올라가는 것을 확인 할 수 있었다.
형태소 분석을 위해 각 구조는 문장 단위로 DB화 하였다. 둘째, 형태소 분석기를 이용하여 분리된 소설 데이터에서 각 명사, 태그, 빈도수를 추출하여 DB화 하였다. 셋째, 추출된 명사 데이터를 이용하여 IDF 문서를 생성하였다.
그리고 각각의 구조에서 명사를 추출하고 명사, 태그, 빈도수를 DB형태로 저장한 후 저장된 명사 DB를 이용하여 IDF 문서를 생성하고 명사, 태그, 문서군에서의 출현빈도수를 DB형태로 저장하였다. 마지막으로 저장된 데이터를 이용하여 각 소설의 구조에 가중치 값을 다르게 부여하면서 상위 10개의 주제어를 선정한 후 학생 10명이 소설 텍스트에서 수작업으로 추출한 주제어 10개와 비교하여 일치율을 측정하였다.
본 연구는 주제어 추출을 위해 소설의 본문뿐만 아니라 그동안 주제어 추출에서 제외 되었던 머리말과 맺음말을 포함하고, 대화가 소설에서 차지하는 중요성과 기능을 고려하여 대화에 출현한 단어들에 가중치를 부여하였다.
본 연구에서 주제어 추출은 그림 1과 같이 데이터 수집 및 정규화, 형태소 분석, IDF 문서 생성, 주제어 추출 순으로 총 4단계로 진행되었다.
본 연구의 실험은 앞서 설계한 주제어 추출 프로세스를 구축하여 진행되었다. 첫째, 머리말과 맺음말, 대화문과 비대화문의 형식적인 구조가 명확한 전자책 소설 데이터 100권을 구조적으로 분리하였다.
분석된 실험 결과를 검증하기 위해 본 연구와는 무관한 학생 10명이 수작업으로 뽑은 소설 텍스트의 주제어와 본 실험을 통해 추출한 상위 주제어 10개를 비교하여 일치율을 측정하였다.
주제어 추출을 위해 총 800권의 전자텍스트 소설을 수집한 후 위에서 기술한 소설의 형식적 구조인 머리말, 맺음말을 갖추고 있는 소설을 분류하여 총 100권의 소설텍스트를 최종 선별하였다. 선별된 텍스트는 추리, 로맨스, SF 등 특정 장르에 편중되지 않도록 다양하게 구성하였다.
둘째, 형태소 분석기를 이용하여 분리된 소설 데이터에서 각 명사, 태그, 빈도수를 추출하여 DB화 하였다. 셋째, 추출된 명사 데이터를 이용하여 IDF 문서를 생성하였다. 넷째, 명사 데이터와 IDF 문서를 이용하여 각 명사에 TF-IDF 가중치를 부여하였다.
우선 주제어 추출을 위해 소설 텍스트 100권을 수집하고 수집된 소설 텍스트들을 소설의 형식적 구조인 머리말, 맺음말, 대화문, 비대화문 4가지로 분리하였다. 그리고 각각의 구조에서 명사를 추출하고 명사, 태그, 빈도수를 DB형태로 저장한 후 저장된 명사 DB를 이용하여 IDF 문서를 생성하고 명사, 태그, 문서군에서의 출현빈도수를 DB형태로 저장하였다.
한나눔 형태소 분석의 태그셋에서 명사는 고유명사(nq), 의존명사(nb), 대명사(np), 보통명사(nc)로 구분되는데, 의존명사와 대명사는 주제어를 표현하는 적합하지 않으므로 제외하였다. 이처럼 실제 분석에 필요 없거나 형태소 분석기의 오류로 나온 노이즈들을 제거하는 전처리 과정을 통해 명사를 필터링한 후 DB로 구축하였다. 형태소 분석으로 추출된 명사는 정규화된 문서 단위로 저장된다.
주제어 추출을 위해 본 논문은 가장 대중적인 문학 장르인 소설텍스트를 수집하고 단어의 빈도 값을 표현하는 TF-IDF 가중치 모델과 소설텍스트의 외형적 구조 정보에 가중치를 부여하는 방식을 제안한다. TF-IDF는 어떤 단어가 특정 문서에 자주 출현하지만 전체 문서집합에서는 출현 빈도가 낮은 값을 나타내는 것[1,2]으로 해당 단어가 문서의 내용을 대표하는 중요한 주제어인가를 평가하는데 일반적으로 많이 사용되고 있는 방법이다.
TF-IDF는 어떤 단어가 특정 문서에 자주 출현하지만 전체 문서집합에서는 출현 빈도가 낮은 값을 나타내는 것[1,2]으로 해당 단어가 문서의 내용을 대표하는 중요한 주제어인가를 평가하는데 일반적으로 많이 사용되고 있는 방법이다. 하지만 빈도 정보만으로는 단어의 중요성을 판단하는데 한계가 있기 때문에 본 연구는 단어의 빈도 값뿐만 아니라 소설 텍스트가 갖는 외형적 구조 정보를 이용한다.
한나눔 형태소 분석기[13]를 이용하여 각 소설의 머리말과 맺음말, 대화문과 비대화문에 대해 형태소 분석을 진행하여 명사를 추출하였다. 그림 3은 형태소 분석 결과를 나타낸 것이다.
첫째, 머리말과 맺음말, 대화문과 비대화문의 형식적인 구조가 명확한 전자책 소설 데이터 100권을 구조적으로 분리하였다. 형태소 분석을 위해 각 구조는 문장 단위로 DB화 하였다. 둘째, 형태소 분석기를 이용하여 분리된 소설 데이터에서 각 명사, 태그, 빈도수를 추출하여 DB화 하였다.

대상 데이터

사용된 실험 도서는 총 100권이므로 문서의 총 개수는 400개이다. 400개의 문서군을 이용하여 특정단어의 IDF값을 구하기 위해 필요한 문서를 생성한다. 각 문서에서 나온 단어들을 분석하여 해당 단어가 전체 문서에서 출현한 빈도수를 저장한다.
모든 출판사의 태그 구조를 파악하기에 많은 시간이 소요되는 문제점이 있다. 따라서 구조가 명확한 출판사의 EPUB 파일만을 이용하였다.
위에서 기술했듯이 100권의 소설은 머리말과 맺음말, 대화문과 비대화문의 4개의 텍스트로 분리되었다. 사용된 실험 도서는 총 100권이므로 문서의 총 개수는 400개이다. 400개의 문서군을 이용하여 특정단어의 IDF값을 구하기 위해 필요한 문서를 생성한다.
주제어 추출을 위해 총 800권의 전자텍스트 소설을 수집한 후 위에서 기술한 소설의 형식적 구조인 머리말, 맺음말을 갖추고 있는 소설을 분류하여 총 100권의 소설텍스트를 최종 선별하였다. 선별된 텍스트는 추리, 로맨스, SF 등 특정 장르에 편중되지 않도록 다양하게 구성하였다.

이론/모형

각 네 가지로 분류된 문서에서 추출된 명사의 빈도수를 이용하여 TF값을 구한다. IDF문서를 이용하여 해당 단어의 IDF값을 구한 뒤 TF-IDF 가중치 기법을 사용하여 각 명사에 가중치를 부여한다. 부여된 가중치를 오름차순으로 정렬하여 각 문서에 하나의 최종 주제어리스트들을 출력한다.

성능/효과

1%로 최고점을 나타냈다. 그리고 대화문의 가중치를 0.5이상을 부여하였을 때 계속해서 감소하는 것을 보였다.
본 연구에서 제안한 주제어 추출 프로세스 실험결과를 통해 대화문의 가중치와 비대화문의 가중치를 똑같이 설정하였을 때보다 대화문의 가중치의 비율을 더 높게 하였을 때 주제어 추출 일치율의 정확도 더 높다는 것을 확인하였다.
IDF 값은 전체 문서군에서 출현한 빈도수를 보기 때문에 특정 문서에서 특정 단어가 높은 빈도수를 보이더라도 전체 문서군에서 출현한 빈도수는 1이 증가한다. 본 연구에서는 전체 문서군의 수는 400개이므로 한 단어가 전체 문서군에서 출현할 수 있는 빈도수는 최대 400이다.
실험 결과 소설 구조를 고려하지 않은 경우 주제어 일치율은 20%를 나타낸 반면 본 연구에서 제시한 소설 구조를 적용한 결과 일치율은 62.1%를 나타내어 42.1%의 성능향상을 보였다. 이러한 결과를 통해 소설에서 대화는 주제어를 추출하는데 있어 핵심적인 역할을 하고 있음을 확인할 수 있었다.
1%로 가장 높았다. 이 결과는 그림 7에서처럼 소설의 구조를 고려하지 않고 본문 텍스트에서만 주제어를 추출했을 때 나온 20%의 일치율 보다 42.1% 더 높은 것으로 나타났다.
이러한 결과는 의 경우 대화문이 전체 소설 텍스트에서 차지하는 비율은 23.5%인 반면에 의 대화문이 전체 소설 텍스트에서 차지하는 비율은 14.5%로 대화문보다 비대화문에 주제어를 더 많이 포함하고 있는 것으로 풀이된다.
1%의 성능향상을 보였다. 이러한 결과를 통해 소설에서 대화는 주제어를 추출하는데 있어 핵심적인 역할을 하고 있음을 확인할 수 있었다.
일치하는 주제어는 ’동무‘, ’동물‘, ’농장‘, ’풍차‘, ’돼지‘, ’봉기‘, ’동지‘, ’혁명‘으로 80%의 일치율을 보였다.
본 연구의 실험은 앞서 설계한 주제어 추출 프로세스를 구축하여 진행되었다. 첫째, 머리말과 맺음말, 대화문과 비대화문의 형식적인 구조가 명확한 전자책 소설 데이터 100권을 구조적으로 분리하였다. 형태소 분석을 위해 각 구조는 문장 단위로 DB화 하였다.
하지만 대화문의 가중치를 높게 부여하면 일치율이 올라가지만, 그림 5와 그림 6에서 보듯이 대화문의 가중치가 일정 비율 이상 올라가게 되면 오히려 일치율이 더 낮아지는 결과를 확인하였다. 이는 소설의 구조에서 대화문이 주제를 드러내는데 유용한 역할을 하지만 머리말과 맺음말 그리고 비대화문도 주제어 추출에서 중요한 부분임을 의미한다.

후속연구

본 연구에서는 주제어의 대상을 명사에 한정하였지만 소설의 장르적 특성상 동사 역시 스토리를 전달하는데 중요한 역할을 하기 때문에 향후 연구에서는 주제어 추출에 동사도 함께 고려하는 연구를 진행할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	TF-IDF란?	주제어 추출을 위해 본 논문은 가장 대중적인 문학 장르인 소설텍스트를 수집하고 단어의 빈도 값을 표현하는 TF-IDF 가중치 모델과 소설텍스트의 외형적 구조 정보에 가중치를 부여하는 방식을 제안한다. TF-IDF는 어떤 단어가 특정 문서에 자주 출현하지만 전체 문서집합에서는 출현 빈도가 낮은 값을 나타내는 것[1,2]으로 해당 단어가 문서의 내용을 대표하는 중요한 주제어인가를 평가하는데 일반적으로 많이 사용되고 있는 방법이다. 하지만 빈도 정보만으로는 단어의 중요성을 판단하는데 한계가 있기 때문에 본 연구는 단어의 빈도 값뿐만 아니라 소설 텍스트가 갖는 외형적 구조 정보를 이용한다.
	현재 제공되고 있는 도서 추천시스템의 한계점은?	가장 대표적인 사례로 아마존은 고객의 구매정보와 고객이 클릭한 상품 정보를 바탕으로 도서를 추천한다. 하지만 현재 제공되고 있는 대부분의 추천시스템은 고객의 선호도 정보와 도서 서지 정보, 고객들의 리뷰 정보들을 이용하는데 그치고 있으며 도서 본문 내용에 대한 정보를 고려하지 않기 때문에 추천 정확도에 대한 신뢰도가 떨어진다. 이에 본 연구는 도서 본문의 내용 정보를 추천시스템에 반영하여 추천 성능을 향상시키기 위한 선행 연구로 도서 본문에 대한 주제어 추출을 제안한다.
	유형에 따라 정형화된 구조를 갖는 텍스트의 예로는 무엇이 있는가?	텍스트는 그 유형에 따라 정형화된 구조를 갖고 있다. 예를 들어 논문은 제목과 요약, 결론 부분에서, 신문은 기사 제목과 본문 앞 문장에서 주제어를 추출하고 있다[3,4]. 소설 내용 또한 일반적으로 머리말과 부(部)나 장(章), 절(節), 그리고 맺음말 혹은 작가 후기가 위계적 질서를 이루고 있다. 소설의 머리말과 맺음말은 소설 내용의 일부로 보는 견해가 강하기 때문에 본 연구는 주제어 추출을 위해 소설 본문뿐만 아니라 머리말과 맺음말도 포함하였다.

참고문헌 (14)

S. G. Lee, H.-J. Kim, "Keyword Extraction from News Corpus using Modified TF-IDF", The Journal of Society for e-Business Studies, Vol.14, No.4, pp.59-73, 2009
G.-S. Go, W.-K. Jung, Y.-G. Shin, S.-S. Park and D.-S. Jang, "A Study on Development of Patent Information Retrieval Using Textmining", Journal of the Korea Academia-Industrial cooperation Society, Vol.12, No.8, pp.3677-3688, 2011

원문보기 상세보기
P. Soucy, G. W. Mineau, "Beyond TFIDF weighting for text categorization in the vector space model" In IJCAI, Vol. 5, pp. 1130-1135, 2005
O. Zamir, O. Etzioni, O. "Grouper: a dynamic clustering interface to Web search results", Computer Networks, Vol.31, No.11, pp.1361-1374, 1999

상세보기
J. Martineau, T. Finin, "Delta TFIDF: An Improved Feature Space for Sentiment Analysis", In Proceedings of the 3rd AAAI International Conference on Weblogs and Social Media, 2009
J. Ramos, "Using tf-idf to determine word relevance in document queries", In Proceedings of the First Instructional Conference on Machine Learning, 2003
S.-P. Jung, S.-H. Lim, J.-H. Jeon, B. M. Kim and H. A. Lee, "Web Search Result Clustering using Snippets", Journal of KISS: Databases, pp.321-331, 2012
H.-G. Choi, S. J. Jun, and E.-J. Hwang, "Multi-Modal Scheme for Music Mood Classification", Korea Information Science Society, pp.259-262, 2011
H.I. Shin, U.I Yun, H.M. Ryang and G.B. Pyun, "An analytical Study for Extracting Topic Words on Text Documents", Korean Society For Internet Information, Vol.2011, No.6, pp.133-134, 2011
S.-H. Jang, S.-S. Kang, "Keyword - based Document Clustering Algorithm", Korea Information Science Society. Vol.29, No.1B, pp.469-471, 2002
C.-H. Kim, Theory of the novel structure, Korean Studies Information, pp.16-17; 45-51; 203-204, 2010
H. S. Kim, "Types, Discourse Functions of Quotation and Speech Presentation in Novel", The Journal of Language and Literature, pp.113-142, 2000
www.kldp.net/projects/hannanum
GunHee. Choi, H-S. An, J-S. Park, "Main body of the text books extraction research", Proceedings of the Korea Inteligent Information System Society Conference pp.191-193, 2014

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증