$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구
Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers 원문보기

경영과 정보연구 = Management & information systems review, v.37 no.4, 2018년, pp.41 - 62  

정해강 (국민대학교 비즈니스IT전문대학원) ,  김남규 (국민대학교 경영정보학부)

초록
AI-Helper 아이콘AI-Helper

다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

Abstract AI-Helper 아이콘AI-Helper

As the volume of unstructured data increases through various social media, Internet news articles, and blogs, the importance of text analysis and the studies are increasing. Since text analysis is mostly performed on a specific domain or topic, the importance of constructing and applying a domain-sp...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 실제로 기존의 많은 연구에서 용어 사전의 품질에 따라 문서 분류의 정확도가 영향을 받을 것이라는 주장이 있어 왔으나(최성이, 2014; 김민철, 2013; 홍진성, 2014), 사전의 구성 내용 및 구성 과정이 구체적으로 분류 정확도에 어떻게 영향을 주는지에 대한 엄밀한 검증은 이루어지지 않았다. 따라서 본 연구에서는 용어 사전을 다양하게 구축하고 각 사전의 단어 구성 비율을 고유율 관점에서 비교 및 분석함으로써 융합된 분야를 분석하는 경우 용어 사전의 단어 구성 비율과 사전 구축 방법이 문서 분류의 정확도에 미치는 영향을 살펴보고자 한다.
  • 하지만 용어 사전의 품질이 문서 분류 등 텍스트 분석의 결과에 어떠한 형태로 영향을 미치는지 용어 사전의 단어 구성과 그에 따른 품질 비교에 대한 연구는 찾아보기 어렵다. 따라서 본 연구는 용어 사전 구축 방법에 따라 각 사전을 구성하는 고유 단어 및 범용 단어의 비율이 어떻게 달라지는지 파악하고, 이러한 구성비가 문서 분류기의 성능에 미치는 영향을 분석한다.
  • 본 절에서는 문서 분류 시 사용되는 용어 사전의 다양한 구성 방법을 세분화하여 살펴보고, 각 사전의 성능을 비교하고 분석하여 최적의 사전을 만드는 방안을 제시한다. 구체적으로는 일반적으로 가장 많이 사용되는 방식인 일괄 구축 사전과 앞서 언급한 개별 구축 사전인 용어 통합 사전, 특질 통합 사전을 구성하고, 각각의 용어 사전을 사용했을 때의 문서 분류 예측 정확도를 비교하고 그 차이의 원인을 분석한다.
  • 본 절에서는 세 가지 용어 사전의 구성 방식을 소개한다. NEWS Documents는 카테고리별로 동일한 수의 기사를 추출하여 구성하며, 각 사전을 500개의 용어로 구성하여 용어의 수를 동일하게 구축하였다.
  • 본 연구에서는 다양한 방법 중 토픽 모델링을 활용하여 비정형 문서의 구조화를 수행한다. 즉 본 단계에서의 토픽 모델링은 용어 사전의 구축을 위해서가 아니라 구축된 용어 사전의 품질을 문서 분류를 통해 간접적으로 평가하기 위해 수행한다. 구체적으로는 NEWS Documents를 구성하는 기사에 대한 토픽 모델링 과정에서 일괄 구축 용어 사전이 Start List로 적용되게 된다.
  • 우선 본 부절에서는 개별 구축 방식 중 용어통합 방식에 대해 소개한다. 우선 NEWS Documents의 전체 기사를 카테고리별로 구분한 후, 카테고리별 파싱 및 빈도 계수를 통해 주요 용어를 빈도순으로 정렬한다.
  • 본 연구의 목적은 용어 사전의 구축 방식에 따라 사전의 품질이 어떻게 다르게 나타나는지를 파악하는 것이다. 하지만 사전 품질을 직접적으로 평가할 수 있는 방법은 알려져 있지 않으므로, 본 부절에서는 각 사전을 문서 분류에 적용했을 때 나타나는 분류 정확도를 비교하여 사전의 품질을 간접적으로 평가하고 사전에 따라 문서 분류의 정확도가 상이하게 나타나는 현상을 해석하는 방안을 제시한다.
  • 다음으로 본 연구에서는 사전별로 분류 정확도가 상이하게 나타나는 원인을 규명하기 위해 추가 실험을 수행하였다. 추가 실험은 <그림 12>에서 정확도가 높게 나타난 일괄 구축 사전과 용어 통합 사전의 두 가지 사전에 대해 수행하였으며, 카테고리별로 문서 분류의 정확도를 살펴보았다.
  • 본 실험에서는 다양한 방식에 따라 용어 사전을 구축하고, 각 사전의 품질을 해당 사전을 사용한 문서 분류의 정확도 측면에서 살펴보았다. 또한 사전별로 정확도 차이의 원인을 규명하기위해 사전의 고유율을 정의하고, 각 카테고리별 정확도의 차이를 고유율 관점에서 분석하였다.
  • 비정형 데이터 분석에서 분석 결과의 정제를 위해 사용되는 용어 사전은 수록된 용어의 관점에서 문서를 바라볼 수 있는 기준을 제공한다는 점에서 더욱 중요하게 여겨지고 있다. 이에 본 연구에서는 용어 사전을 구축하는 다양한 방법을 살펴보고, 각 결과로 도출된 용어 사전을 적용한 문서 분류의 정확도에 따라 용어 사전의 품질을 간접적으로 평가하였다. 또한 카테고리마다 분류 정확도가 상이하게 나타나는 현상에 착안하여 사전의 고유율이라는 개념을 정의하였으며, 용어 사전 구축 방법에 따라 사전의 고유율과 문서 분류의 정확도가 다르게 나타나는 현상을 확인하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
텍스트 마이닝이란 무엇인가? 이렇듯 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라, 각 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 관심과 연구가 활발히 진행되고 있다. 특히 텍스트 마이닝(Text Mining)은 다량의 텍스트 문서 또는 문장에 대한 분석을 통해 의미 있는 정보를 추출하는 과정으로(Hearst, 1999), 개별 데이터의 기밀성(Confidentiality)이 정형 데이터에 비해 상대적으로 낮을 뿐 아니라 크롤링(Crawling)을 통해 상대적으로 용이하게 대량의 데이터를 수집할 수 있다는 특징으로 인해 다양한 텍스트 데이터에 대한 다양한 분석이 여러 도메인에서 이루어지고 있다.
용어 사전 및 불용어 사전을 사용하는 이유는 무엇인가? 텍스트 분석 과정에서 텍스트에 포함된 방대한 용어를 모두 분석에 사용하는 대신, 분석 주제에 집중하고 분석 결과의 품질을 향상시키기 위해 용어 사전 및 불용어 사전을 사용한다. 불용어 사전은 분석 시 배제되는 용어들을 포함하며, 주로 대명사, 관사, 접속사, 전치사 등과 같이 내용 정보가 없는 단어들로 구성된다.
사전을 구성하는 용어의 ‘고유율’이라는 개념을 새롭게 고안하여 상세 분석한 이유는 무엇인가? 이와 같이 카테고리별로 분류 정확도가 상이하게 나타나는 현상은 기존의 유사 연구에서도 여러 차례 발견되었으며, 특히 스포츠와 연예 분야의 분류 정확도는 타 분야에 비해 일관되게 높게 나타난 바 있다. 또한 이러한 현상의 원인으로는 스포츠와 연예 분야의 기사가 타 분야의 기사에 비해 특수성이 높은 어휘를 다수 포함하고 있음이 주장되어왔다. 따라서 본 연구에서는 사전을 구성하는 용어의 ‘고유율’이라는 개념을 새롭게 고안하여 사전을 상세 분석하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (41)

  1. 강상욱.김민호.권혁철.전성규.오주현(2015), "세종 전자사전과 한국어 어휘의미망 을 이용한 용언의 어의 중의성 해소," 정보과학회 컴퓨팅의 실제 논문지, 21(7), 500-505. 

  2. 곽수정.김보겸.이재성(2013), "한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법", 정보처리학회논문지, 소프트웨어 및 데이터 공학, 2(12), 881-888. 

  3. 김남규.이동훈.최호창(2017), "텍스트 분석기술 및 활용 동향", 한국통신학회논문지, 42(2), 471-492. 

  4. 김민철.심규승.한남기.김예은.송민(2013), "트위터 상의 악의적 이용 자동분류", 한구문헌정보학회지, 47(1), 269-286 

  5. 김정수.이석준(2015), "주식시장관리제도와 소셜 미디어의 역할-개인 투자자 집단 유형과 토픽 분석", 경영과 정보연구, 34(5), 23-47. 

  6. 김정수.이석준(2016), "취업준비생 토픽 분석을 통한 취업난 원인의 재탐색", 경영과 정보연구, 35(1), 85-116 

  7. 김창식.최수정.곽기영(2017), "토픽모델링과 시계열회귀분석을 활용한 정보시스템분야 연구동향 분석," 한국디지털콘텐츠학회 논문지, 18(6), 1143-1150. 

  8. 김태훈.손미애(2017), "문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법", 인터넷정보학회논문지, 18(2), 61-73. 

  9. 박주섭.홍순구.김종원(2017), "토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구," 한국산업정보학회논문지, 22(4), 19-28. 

  10. 박준석.김창식.곽기영(2016), "텍스트마이닝과 소셜네트워크분석 기법을 활용한 호텔분야 연구동향 분석", 관광레저연구, 28(9), 209-226. 

  11. 배상준.고영중(2010), "한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동구축", 정보과학회논문지: 컴퓨팅의 실제 및 레터, 16(4), 492-496. 

  12. 배정환.손지은.송민(2013), "텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석", 지능정보연구, 19(3), 141-156. 

  13. 송종석.이수원(2011), "상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축", 정보과학회논문지: 소프트웨어 및 응용, 38(3), 157-168. 

  14. 안정국.김희웅(2015), "집단지성을 이용한 한글 감성어 사전 구축", 지능정보연구, 21(2), 49-67. 

  15. 윤애선.황순희.이은령.권혁철(2009), "한국어 어휘의미망 [KorLex 1.5]의 구축", 정보과학회논문지: 소프트웨어 및 응용, 36(1), 92-108. 

  16. 이상훈.최정.김종우(2016), "영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석", 지능정보연구, 22(2), 97-113. 

  17. 조정태.최상편(2015), "영화리뷰 감성 분석을 통한 평점 예측 연구", 경영과 정보연구, 34(3), 161-177. 

  18. 최석재.권오병(2014), "빅데이터 분석을 위한 한국어 SentiWordNet 개발 방안 연구," 한국전자거래학회지, 19(4), 1-19. 

  19. 최성이.김남규(2014), "토픽 분석을 활용한 웹 카테고리별 방문자 관심 이슈 식별 방안", 한국데이타베이스, 21(4), 415-429 

  20. 홍진성.김남규.이상원(2014), "단일 카테고리 문서의 다중 카테고리 자동확장 방법론", 지능정보연구, 20(3), 77-92. 

  21. Amensisa, A. D., Patil, S. and Agrawal, P.(2018), "A survey on text document categorization using enhanced sentence vector space model and bi-gram text representation model based on novel fusion techniques", 2018 2nd International Conference on Inventive Systems and Control(ICISC), 218-225 

  22. Blei, D. M., Ng, A. Y. and Jordan, M. I.(2003), "Latent dirichlet allocation", Journal of Machine Learning Research, 3, 993-1022. 

  23. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K. and Harshman, R.(1990), "Indexing by latent semantic analysis", Journal of the American Society for Information Science, 41(6), 391-407. 

  24. Fellbaum, C.(1998), "A semantic network of english: the mother of all WordNets", Computers and the Humanities, 32, 209-220. 

  25. Gao, J. B., Zhang, B. W. and Chen, X. H.(2015), "A WordNet-based semantic similarity measurement combining edgecounting and information content theory", Engineering Applications of Artificial Intelligence, 39, 80-88. 

  26. Gupta, V. and Lehal, G. S.(2009), "A survey of text mining techniques and applications", Journal of Emerging Technologies in Web Intelligence, 1(1), 60-76. 

  27. Hearst, M. A.(1999), "Untangling text data mining", In Proceedings of the 37th annual meeting of the Association for Computational Linguistics, 3-10 

  28. Hong, L. and Davison, B. D.(2010), "Empirical study of topic modeling in twitter", In Proceedings of the First Workshop on Social Media Analytics, 80-88. 

  29. Hotho, A., Nurnberger, A. and Paass, G. (2005), "A brief survey of text mining", In Ldv Forum-GLDV Journal for Computational Linguistics and Language Technology, 20(1), 19-62. 

  30. Joachims, T.(1998), "Text categorization with support vector machines: Learning with many relevant features", In European Conference on Machine Learning, 137-142. 

  31. Miller, G. A.(1995), "WordNet: A lexical database for English", Communications of the ACM, 38(11), 39-41. 

  32. Mooney, R. J. and Bunescu, R. C.(2006), "Subsequence kernels for relation extraction", In Advances in Neural Information Processing Systems, 171-178. 

  33. Pedersen, T., Patwardhan, S. and Michelizzi, J.(2004), "WordNet:: Similarity: measuring the relatedness of concepts", In Proceedings of the 5th Annual Meeting of the North American Chapter of the Association for Computational Linguistics, 38-41. 

  34. Richman, A. E. and Schone, P.(2008), "Mining wiki resources for multilingual named entity recognition", In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 1-9. 

  35. Rijsbergen, C. J. V., Information Retrieval, 2nd edition, Butterworths, 1979. 

  36. Rogati, M. and Yang, Y.(2002), "Highperforming feature selection for text classification", In Proceedings of the 11th International Conference on Information and Knowledge Management, 659-661. 

  37. Salton, G. and McGill, M. J. Introduction to Modern Information Retrieval, McGraw-Hill, 1983. 

  38. Sebastiani, F.(2006), "Classification of text, automatic", The Encyclopedia of Language and Linguistics, 14, 457-462. 

  39. Vapnik, V. N., The Nature of Statistical Learning Theory, Springer, 1995. 

  40. Wang, C. and Blei, D. M.(2011), "Collaborative topic modeling for recommending scientific articles", In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 448-456. 

  41. Wei, T., Lu, Y., Chang, H., Zhou, Q. and Bao, X.(2015), "A semantic approach for text clustering using WordNet and lexical chains", Expert Systems with Applications, 42(4), 2264-2275. 

저자의 다른 논문 :

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로