최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기경영과 정보연구 = Management & information systems review, v.37 no.4, 2018년, pp.41 - 62
정해강 (국민대학교 비즈니스IT전문대학원) , 김남규 (국민대학교 경영정보학부)
As the volume of unstructured data increases through various social media, Internet news articles, and blogs, the importance of text analysis and the studies are increasing. Since text analysis is mostly performed on a specific domain or topic, the importance of constructing and applying a domain-sp...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
텍스트 마이닝이란 무엇인가? | 이렇듯 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라, 각 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 관심과 연구가 활발히 진행되고 있다. 특히 텍스트 마이닝(Text Mining)은 다량의 텍스트 문서 또는 문장에 대한 분석을 통해 의미 있는 정보를 추출하는 과정으로(Hearst, 1999), 개별 데이터의 기밀성(Confidentiality)이 정형 데이터에 비해 상대적으로 낮을 뿐 아니라 크롤링(Crawling)을 통해 상대적으로 용이하게 대량의 데이터를 수집할 수 있다는 특징으로 인해 다양한 텍스트 데이터에 대한 다양한 분석이 여러 도메인에서 이루어지고 있다. | |
용어 사전 및 불용어 사전을 사용하는 이유는 무엇인가? | 텍스트 분석 과정에서 텍스트에 포함된 방대한 용어를 모두 분석에 사용하는 대신, 분석 주제에 집중하고 분석 결과의 품질을 향상시키기 위해 용어 사전 및 불용어 사전을 사용한다. 불용어 사전은 분석 시 배제되는 용어들을 포함하며, 주로 대명사, 관사, 접속사, 전치사 등과 같이 내용 정보가 없는 단어들로 구성된다. | |
사전을 구성하는 용어의 ‘고유율’이라는 개념을 새롭게 고안하여 상세 분석한 이유는 무엇인가? | 이와 같이 카테고리별로 분류 정확도가 상이하게 나타나는 현상은 기존의 유사 연구에서도 여러 차례 발견되었으며, 특히 스포츠와 연예 분야의 분류 정확도는 타 분야에 비해 일관되게 높게 나타난 바 있다. 또한 이러한 현상의 원인으로는 스포츠와 연예 분야의 기사가 타 분야의 기사에 비해 특수성이 높은 어휘를 다수 포함하고 있음이 주장되어왔다. 따라서 본 연구에서는 사전을 구성하는 용어의 ‘고유율’이라는 개념을 새롭게 고안하여 사전을 상세 분석하였다. |
강상욱.김민호.권혁철.전성규.오주현(2015), "세종 전자사전과 한국어 어휘의미망 을 이용한 용언의 어의 중의성 해소," 정보과학회 컴퓨팅의 실제 논문지, 21(7), 500-505.
김민철.심규승.한남기.김예은.송민(2013), "트위터 상의 악의적 이용 자동분류", 한구문헌정보학회지, 47(1), 269-286
김창식.최수정.곽기영(2017), "토픽모델링과 시계열회귀분석을 활용한 정보시스템분야 연구동향 분석," 한국디지털콘텐츠학회 논문지, 18(6), 1143-1150.
김태훈.손미애(2017), "문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법", 인터넷정보학회논문지, 18(2), 61-73.
박준석.김창식.곽기영(2016), "텍스트마이닝과 소셜네트워크분석 기법을 활용한 호텔분야 연구동향 분석", 관광레저연구, 28(9), 209-226.
송종석.이수원(2011), "상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축", 정보과학회논문지: 소프트웨어 및 응용, 38(3), 157-168.
윤애선.황순희.이은령.권혁철(2009), "한국어 어휘의미망 [KorLex 1.5]의 구축", 정보과학회논문지: 소프트웨어 및 응용, 36(1), 92-108.
최석재.권오병(2014), "빅데이터 분석을 위한 한국어 SentiWordNet 개발 방안 연구," 한국전자거래학회지, 19(4), 1-19.
최성이.김남규(2014), "토픽 분석을 활용한 웹 카테고리별 방문자 관심 이슈 식별 방안", 한국데이타베이스, 21(4), 415-429
Amensisa, A. D., Patil, S. and Agrawal, P.(2018), "A survey on text document categorization using enhanced sentence vector space model and bi-gram text representation model based on novel fusion techniques", 2018 2nd International Conference on Inventive Systems and Control(ICISC), 218-225
Blei, D. M., Ng, A. Y. and Jordan, M. I.(2003), "Latent dirichlet allocation", Journal of Machine Learning Research, 3, 993-1022.
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K. and Harshman, R.(1990), "Indexing by latent semantic analysis", Journal of the American Society for Information Science, 41(6), 391-407.
Fellbaum, C.(1998), "A semantic network of english: the mother of all WordNets", Computers and the Humanities, 32, 209-220.
Gao, J. B., Zhang, B. W. and Chen, X. H.(2015), "A WordNet-based semantic similarity measurement combining edgecounting and information content theory", Engineering Applications of Artificial Intelligence, 39, 80-88.
Gupta, V. and Lehal, G. S.(2009), "A survey of text mining techniques and applications", Journal of Emerging Technologies in Web Intelligence, 1(1), 60-76.
Hearst, M. A.(1999), "Untangling text data mining", In Proceedings of the 37th annual meeting of the Association for Computational Linguistics, 3-10
Hong, L. and Davison, B. D.(2010), "Empirical study of topic modeling in twitter", In Proceedings of the First Workshop on Social Media Analytics, 80-88.
Hotho, A., Nurnberger, A. and Paass, G. (2005), "A brief survey of text mining", In Ldv Forum-GLDV Journal for Computational Linguistics and Language Technology, 20(1), 19-62.
Joachims, T.(1998), "Text categorization with support vector machines: Learning with many relevant features", In European Conference on Machine Learning, 137-142.
Miller, G. A.(1995), "WordNet: A lexical database for English", Communications of the ACM, 38(11), 39-41.
Mooney, R. J. and Bunescu, R. C.(2006), "Subsequence kernels for relation extraction", In Advances in Neural Information Processing Systems, 171-178.
Pedersen, T., Patwardhan, S. and Michelizzi, J.(2004), "WordNet:: Similarity: measuring the relatedness of concepts", In Proceedings of the 5th Annual Meeting of the North American Chapter of the Association for Computational Linguistics, 38-41.
Richman, A. E. and Schone, P.(2008), "Mining wiki resources for multilingual named entity recognition", In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 1-9.
Rijsbergen, C. J. V., Information Retrieval, 2nd edition, Butterworths, 1979.
Rogati, M. and Yang, Y.(2002), "Highperforming feature selection for text classification", In Proceedings of the 11th International Conference on Information and Knowledge Management, 659-661.
Salton, G. and McGill, M. J. Introduction to Modern Information Retrieval, McGraw-Hill, 1983.
Sebastiani, F.(2006), "Classification of text, automatic", The Encyclopedia of Language and Linguistics, 14, 457-462.
Vapnik, V. N., The Nature of Statistical Learning Theory, Springer, 1995.
Wang, C. and Blei, D. M.(2011), "Collaborative topic modeling for recommending scientific articles", In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 448-456.
Wei, T., Lu, Y., Chang, H., Zhou, Q. and Bao, X.(2015), "A semantic approach for text clustering using WordNet and lexical chains", Expert Systems with Applications, 42(4), 2264-2275.
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.