$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구
Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.20 no.2, 2015년, pp.121 - 129  

유은순 (단국대학교 미디어콘텐츠연구원) ,  최건희 (단국대학교 소프트웨어학과) ,  김승훈 (단국대학교 응용컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

도서 상품에 대한 정보량이 폭증하면서 고객이 도서 선택에 어려움을 겪는 상황이 발생하고 있다. 이에 따라 고객에게 적합한 도서 정보를 제공하여 구매를 유도하는 도서 추천시스템의 중요성이 커지고 있다. 하지만 도서의 서지정보나 사용자 정보 등을 이용한 기존의 추천시스템은 추천 결과의 신뢰도에 문제를 드러내고 있기 때문에 도서 본문 텍스트의 의미적 정보를 추천시스템에 반영하는 것이 필요하다. 따라서 본 논문은 이에 대한 선행연구로 TF-IDF기법과 소설의 외형적 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다. 이를 위해 100권의 소설텍스트를 수집하고 각각의 소설을 머리말, 대화문, 비대화문, 맺음말의 4개의 구조로 분리한 후 TF-IDF 가중치를 계산하였다. 실험결과 본문 텍스트만을 이용했을 때 보다 머리말과 맺음말을 포함하고 대화문에 가중치를 높게 부여하였을 때 주제어의 추출 정확도가 42.1%의 성능 향상을 보였다.

Abstract AI-Helper 아이콘AI-Helper

With the explosive growth of information about books, there is a growing number of customers who find it difficult to pick a book. Against the backdrop, the importance of a book recommendation system becomes greater, through which appropriate information about books could be offered then to encourag...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 도서의 내용적 의미를 간과하고 도서의 서지 정보와 사용자 정보만을 이용하는 기존의 추천 시스템의 성능을 향상시키기 위한 선행연구로 본 연구는 TF-IDF와 소설 텍스트의 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다.
  • TF-IDF는 문서의 내용을 대표하는 주제어를 추출하는데 유용하게 사용되어 왔지만 빈도 정보에 의한 방법은 한계가 있다. 따라서 본 논문은 빈도 정보뿐만 아니라 소설텍스트의 구조 정보를 이용하여 가중치를 부여함으로써 주제어 추출의 성능과 정확도를 향상시키고자 한다.
  • 또한 소설 연구에서 등장인물들의 대사가 작가의 작품세계와 주제를 드러내는데 유용한 형식이라는 점이 강조되어 온 점을 고려하여 대화문에 가중치를 부여하였다. 따라서 본 논문의 목적은 소설의 주제어 추출을 위해 소설 구조가 반영된 개선된 TF-IDF를 제안하는 것이다.
  • 구조에 대한 가중치는 해당 구조가 얼마나 중요한 지표가 되는지를 설정한다. 본 논문에서는 소설의 대화가 주제를 전달하는데 있어 중요한 역할을 한다는 점을 고려하여 대화문에 대한 가중치를 다양하게 설정한다. 머리말과 맺음말, 대화문과 비대화문에 대해 부여하는 가중치의 합은 식(3)과 같다.
  • 하지만 현재 제공되고 있는 대부분의 추천시스템은 고객의 선호도 정보와 도서 서지 정보, 고객들의 리뷰 정보들을 이용하는데 그치고 있으며 도서 본문 내용에 대한 정보를 고려하지 않기 때문에 추천 정확도에 대한 신뢰도가 떨어진다. 이에 본 연구는 도서 본문의 내용 정보를 추천시스템에 반영하여 추천 성능을 향상시키기 위한 선행 연구로 도서 본문에 대한 주제어 추출을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
TF-IDF란? 주제어 추출을 위해 본 논문은 가장 대중적인 문학 장르인 소설텍스트를 수집하고 단어의 빈도 값을 표현하는 TF-IDF 가중치 모델과 소설텍스트의 외형적 구조 정보에 가중치를 부여하는 방식을 제안한다. TF-IDF는 어떤 단어가 특정 문서에 자주 출현하지만 전체 문서집합에서는 출현 빈도가 낮은 값을 나타내는 것[1,2]으로 해당 단어가 문서의 내용을 대표하는 중요한 주제어인가를 평가하는데 일반적으로 많이 사용되고 있는 방법이다. 하지만 빈도 정보만으로는 단어의 중요성을 판단하는데 한계가 있기 때문에 본 연구는 단어의 빈도 값뿐만 아니라 소설 텍스트가 갖는 외형적 구조 정보를 이용한다.
현재 제공되고 있는 도서 추천시스템의 한계점은? 가장 대표적인 사례로 아마존은 고객의 구매정보와 고객이 클릭한 상품 정보를 바탕으로 도서를 추천한다. 하지만 현재 제공되고 있는 대부분의 추천시스템은 고객의 선호도 정보와 도서 서지 정보, 고객들의 리뷰 정보들을 이용하는데 그치고 있으며 도서 본문 내용에 대한 정보를 고려하지 않기 때문에 추천 정확도에 대한 신뢰도가 떨어진다. 이에 본 연구는 도서 본문의 내용 정보를 추천시스템에 반영하여 추천 성능을 향상시키기 위한 선행 연구로 도서 본문에 대한 주제어 추출을 제안한다.
유형에 따라 정형화된 구조를 갖는 텍스트의 예로는 무엇이 있는가? 텍스트는 그 유형에 따라 정형화된 구조를 갖고 있다. 예를 들어 논문은 제목과 요약, 결론 부분에서, 신문은 기사 제목과 본문 앞 문장에서 주제어를 추출하고 있다[3,4]. 소설 내용 또한 일반적으로 머리말과 부(部)나 장(章), 절(節), 그리고 맺음말 혹은 작가 후기가 위계적 질서를 이루고 있다. 소설의 머리말과 맺음말은 소설 내용의 일부로 보는 견해가 강하기 때문에 본 연구는 주제어 추출을 위해 소설 본문뿐만 아니라 머리말과 맺음말도 포함하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. S. G. Lee, H.-J. Kim, "Keyword Extraction from News Corpus using Modified TF-IDF", The Journal of Society for e-Business Studies, Vol.14, No.4, pp.59-73, 2009 

  2. G.-S. Go, W.-K. Jung, Y.-G. Shin, S.-S. Park and D.-S. Jang, "A Study on Development of Patent Information Retrieval Using Textmining", Journal of the Korea Academia-Industrial cooperation Society, Vol.12, No.8, pp.3677-3688, 2011 

  3. P. Soucy, G. W. Mineau, "Beyond TFIDF weighting for text categorization in the vector space model" In IJCAI, Vol. 5, pp. 1130-1135, 2005 

  4. O. Zamir, O. Etzioni, O. "Grouper: a dynamic clustering interface to Web search results", Computer Networks, Vol.31, No.11, pp.1361-1374, 1999 

  5. J. Martineau, T. Finin, "Delta TFIDF: An Improved Feature Space for Sentiment Analysis", In Proceedings of the 3rd AAAI International Conference on Weblogs and Social Media, 2009 

  6. J. Ramos, "Using tf-idf to determine word relevance in document queries", In Proceedings of the First Instructional Conference on Machine Learning, 2003 

  7. S.-P. Jung, S.-H. Lim, J.-H. Jeon, B. M. Kim and H. A. Lee, "Web Search Result Clustering using Snippets", Journal of KISS: Databases, pp.321-331, 2012 

  8. H.-G. Choi, S. J. Jun, and E.-J. Hwang, "Multi-Modal Scheme for Music Mood Classification", Korea Information Science Society, pp.259-262, 2011 

  9. H.I. Shin, U.I Yun, H.M. Ryang and G.B. Pyun, "An analytical Study for Extracting Topic Words on Text Documents", Korean Society For Internet Information, Vol.2011, No.6, pp.133-134, 2011 

  10. S.-H. Jang, S.-S. Kang, "Keyword - based Document Clustering Algorithm", Korea Information Science Society. Vol.29, No.1B, pp.469-471, 2002 

  11. C.-H. Kim, Theory of the novel structure, Korean Studies Information, pp.16-17; 45-51; 203-204, 2010 

  12. H. S. Kim, "Types, Discourse Functions of Quotation and Speech Presentation in Novel", The Journal of Language and Literature, pp.113-142, 2000 

  13. www.kldp.net/projects/hannanum 

  14. GunHee. Choi, H-S. An, J-S. Park, "Main body of the text books extraction research", Proceedings of the Korea Inteligent Information System Society Conference pp.191-193, 2014 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로