다양한 소셜 네트워크 서비스(SNS, Social Network Service) 활동과 블로그, 인터넷 뉴스 기사 등을 통해 비정형 데이터가 유통되는 양이 급증함에 따라 많은 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 연구가 매우 활발하게 진행되고 있다. 주로 ...
다양한 소셜 네트워크 서비스(SNS, Social Network Service) 활동과 블로그, 인터넷 뉴스 기사 등을 통해 비정형 데이터가 유통되는 양이 급증함에 따라 많은 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 연구가 매우 활발하게 진행되고 있다. 주로 텍스트 분석은 특정 주제 또는 특정 도메인에 대해 수행되기 때문에 도메인에 따른 용어 사전 구축 및 적용에 대한 중요성이 강조되고 있다. 용어 사전의 품질은 분석 시 비정형 데이터의 결과 품질에 직접적인 영향을 주게 되며, 분석 과정에서 정제의 역할을 수행하여 분석의 관점을 정의하기 때문에 그 중요성이 더욱 강조된다. 이렇듯 기존의 많은 연구에서도 용어 사전의 중요성이 강조되어 왔으나, 용어 사전이 문서의 분석 결과 품질에 어떠한 방식으로 어떠한 영향을 주는지에 대한 엄밀한 분석은 충분하게 이루어지지 않았다. 이에 본 연구에서는 전체 문서에서 용어를 구성하는 빈도수에 기반을 두어 사전을 생성하는 방식, 분야별로 주요 용어를 도출하여 통합하는 방식, 그리고 분야별 주요 특질(Feature)을 산출하여 통합하는 세 가지 방식으로 사전을 형성하고 각 사전의 품질을 비교한다. 사전의 품질을 간접적으로 평가하기 위해 각각의 사전을 적용한 문서의 분류 정확도를 산출 및 비교하고, 고유율의 개념을 도입하여 사전별 정확도의 차이가 나타나는 원인을 심층적으로 분석한다. 본 연구의 실험에서는 5개 분야의 뉴스 기사 총 39,800건을 사용하여 분석하였다. 실험 결과 고유율이 높은 사전에서 문서 분류의 정확도가 전체적으로 높게 나타나는 것을 확인하였으며, 이를 통해 사전 구성 시 고유율을 높임으로써 문서 분류의 정확도를 전체적으로 향상시킬 수 있는 가능성을 발견하였다.
다양한 소셜 네트워크 서비스(SNS, Social Network Service) 활동과 블로그, 인터넷 뉴스 기사 등을 통해 비정형 데이터가 유통되는 양이 급증함에 따라 많은 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 연구가 매우 활발하게 진행되고 있다. 주로 텍스트 분석은 특정 주제 또는 특정 도메인에 대해 수행되기 때문에 도메인에 따른 용어 사전 구축 및 적용에 대한 중요성이 강조되고 있다. 용어 사전의 품질은 분석 시 비정형 데이터의 결과 품질에 직접적인 영향을 주게 되며, 분석 과정에서 정제의 역할을 수행하여 분석의 관점을 정의하기 때문에 그 중요성이 더욱 강조된다. 이렇듯 기존의 많은 연구에서도 용어 사전의 중요성이 강조되어 왔으나, 용어 사전이 문서의 분석 결과 품질에 어떠한 방식으로 어떠한 영향을 주는지에 대한 엄밀한 분석은 충분하게 이루어지지 않았다. 이에 본 연구에서는 전체 문서에서 용어를 구성하는 빈도수에 기반을 두어 사전을 생성하는 방식, 분야별로 주요 용어를 도출하여 통합하는 방식, 그리고 분야별 주요 특질(Feature)을 산출하여 통합하는 세 가지 방식으로 사전을 형성하고 각 사전의 품질을 비교한다. 사전의 품질을 간접적으로 평가하기 위해 각각의 사전을 적용한 문서의 분류 정확도를 산출 및 비교하고, 고유율의 개념을 도입하여 사전별 정확도의 차이가 나타나는 원인을 심층적으로 분석한다. 본 연구의 실험에서는 5개 분야의 뉴스 기사 총 39,800건을 사용하여 분석하였다. 실험 결과 고유율이 높은 사전에서 문서 분류의 정확도가 전체적으로 높게 나타나는 것을 확인하였으며, 이를 통해 사전 구성 시 고유율을 높임으로써 문서 분류의 정확도를 전체적으로 향상시킬 수 있는 가능성을 발견하였다.
As the volume of unstructured data increases through various social media, blogs, and Internet news articles, the importance of text analysis and the studies are increasing in various domains. In the business field, of course, attempts are made to utilize text analysis in various decision making. Ty...
As the volume of unstructured data increases through various social media, blogs, and Internet news articles, the importance of text analysis and the studies are increasing in various domains. In the business field, of course, attempts are made to utilize text analysis in various decision making. Typical examples include predicting customer churn using VOC analysis and understanding customers’ response of newly launched products or services using SNS analysis. Most text analysis applications use a kind of dictionary. The importance of applying and constructing a domain-specific dictionary has been increased since text analysis is mostly performed on a specific topic or domain. The quality of dictionary has a crucial impact on the results of the unstructured data analysis and it is much more important as it present a perspective of analysis. In the literature, most studies on text analysis has emphasized the importance of dictionaries to acquire clean and high quality results. However, unfortunately, a rigorous verification of the effects of dictionaries has not been studied, even though it is already known as the most essential factor of text analysis. In this paper, we generate three dictionaries in various ways from 39,800 news articles and analyze and verify the effect each dictionary on the accuracy of document classification by defining the concept of Intrinsic Rate. 1) A batch construction method which is building a dictionary based on the frequency of terms in the entire documents 2) A method of extracting the terms by category and integrating the terms 3) A method of extracting the features according to each category and integrating them. We compared accuracy of three artificial neural network-based document classifiers to evaluate the quality of dictionaries. As a result of the experiment, when the “Intrinsic Rate” is high, the accuracy tend to increase and we found the possibility to improve accuracy of document classification by increasing the intrinsic rate of the dictionary.
As the volume of unstructured data increases through various social media, blogs, and Internet news articles, the importance of text analysis and the studies are increasing in various domains. In the business field, of course, attempts are made to utilize text analysis in various decision making. Typical examples include predicting customer churn using VOC analysis and understanding customers’ response of newly launched products or services using SNS analysis. Most text analysis applications use a kind of dictionary. The importance of applying and constructing a domain-specific dictionary has been increased since text analysis is mostly performed on a specific topic or domain. The quality of dictionary has a crucial impact on the results of the unstructured data analysis and it is much more important as it present a perspective of analysis. In the literature, most studies on text analysis has emphasized the importance of dictionaries to acquire clean and high quality results. However, unfortunately, a rigorous verification of the effects of dictionaries has not been studied, even though it is already known as the most essential factor of text analysis. In this paper, we generate three dictionaries in various ways from 39,800 news articles and analyze and verify the effect each dictionary on the accuracy of document classification by defining the concept of Intrinsic Rate. 1) A batch construction method which is building a dictionary based on the frequency of terms in the entire documents 2) A method of extracting the terms by category and integrating the terms 3) A method of extracting the features according to each category and integrating them. We compared accuracy of three artificial neural network-based document classifiers to evaluate the quality of dictionaries. As a result of the experiment, when the “Intrinsic Rate” is high, the accuracy tend to increase and we found the possibility to improve accuracy of document classification by increasing the intrinsic rate of the dictionary.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.