[논문]텍스트 분석을 위한 용어 사전의 품질 평가에 대한 연구

정해강

텍스트 분석을 위한 용어 사전의 품질 평가에 대한 연구 원문보기

정해강 (국민대학교 비즈니스IT전문대학원 비즈니스IT전공 국내석사)

초록 ▼
AI-Helper

다양한 소셜 네트워크 서비스(SNS, Social Network Service) 활동과 블로그, 인터넷 뉴스 기사 등을 통해 비정형 데이터가 유통되는 양이 급증함에 따라 많은 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 연구가 매우 활발하게 진행되고 있다. 주로 ...

다양한 소셜 네트워크 서비스(SNS, Social Network Service) 활동과 블로그, 인터넷 뉴스 기사 등을 통해 비정형 데이터가 유통되는 양이 급증함에 따라 많은 산업 분야에서 비정형 데이터를 분석하고 활용하기 위한 연구가 매우 활발하게 진행되고 있다. 주로 텍스트 분석은 특정 주제 또는 특정 도메인에 대해 수행되기 때문에 도메인에 따른 용어 사전 구축 및 적용에 대한 중요성이 강조되고 있다. 용어 사전의 품질은 분석 시 비정형 데이터의 결과 품질에 직접적인 영향을 주게 되며, 분석 과정에서 정제의 역할을 수행하여 분석의 관점을 정의하기 때문에 그 중요성이 더욱 강조된다. 이렇듯 기존의 많은 연구에서도 용어 사전의 중요성이 강조되어 왔으나, 용어 사전이 문서의 분석 결과 품질에 어떠한 방식으로 어떠한 영향을 주는지에 대한 엄밀한 분석은 충분하게 이루어지지 않았다. 이에 본 연구에서는 전체 문서에서 용어를 구성하는 빈도수에 기반을 두어 사전을 생성하는 방식, 분야별로 주요 용어를 도출하여 통합하는 방식, 그리고 분야별 주요 특질(Feature)을 산출하여 통합하는 세 가지 방식으로 사전을 형성하고 각 사전의 품질을 비교한다. 사전의 품질을 간접적으로 평가하기 위해 각각의 사전을 적용한 문서의 분류 정확도를 산출 및 비교하고, 고유율의 개념을 도입하여 사전별 정확도의 차이가 나타나는 원인을 심층적으로 분석한다. 본 연구의 실험에서는 5개 분야의 뉴스 기사 총 39,800건을 사용하여 분석하였다. 실험 결과 고유율이 높은 사전에서 문서 분류의 정확도가 전체적으로 높게 나타나는 것을 확인하였으며, 이를 통해 사전 구성 시 고유율을 높임으로써 문서 분류의 정확도를 전체적으로 향상시킬 수 있는 가능성을 발견하였다.

Abstract ▼ AI-Helper

As the volume of unstructured data increases through various social media, blogs, and Internet news articles, the importance of text analysis and the studies are increasing in various domains. In the business field, of course, attempts are made to utilize text analysis in various decision making. Typical examples include predicting customer churn using VOC analysis and understanding customers’ response of newly launched products or services using SNS analysis. Most text analysis applications use a kind of dictionary. The importance of applying and constructing a domain-specific dictionary has been increased since text analysis is mostly performed on a specific topic or domain. The quality of dictionary has a crucial impact on the results of the unstructured data analysis and it is much more important as it present a perspective of analysis. In the literature, most studies on text analysis has emphasized the importance of dictionaries to acquire clean and high quality results. However, unfortunately, a rigorous verification of the effects of dictionaries has not been studied, even though it is already known as the most essential factor of text analysis. In this paper, we generate three dictionaries in various ways from 39,800 news articles and analyze and verify the effect each dictionary on the accuracy of document classification by defining the concept of Intrinsic Rate. 1) A batch construction method which is building a dictionary based on the frequency of terms in the entire documents 2) A method of extracting the terms by category and integrating the terms 3) A method of extracting the features according to each category and integrating them. We compared accuracy of three artificial neural network-based document classifiers to evaluate the quality of dictionaries. As a result of the experiment, when the “Intrinsic Rate” is high, the accuracy tend to increase and we found the possibility to improve accuracy of document classification by increasing the intrinsic rate of the dictionary.

학위논문 정보

저자	정해강
학위수여기관	국민대학교 비즈니스IT전문대학원
학위구분	국내석사
학과	비즈니스IT전공
지도교수	김남규
발행연도	2019
총페이지	iii, 44 p.
언어	kor
원문 URL	http://www.riss.kr/link?id=T15070602&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트 분석을 위한 용어 사전의 품질 평가에 대한 연구 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트 분석을 위한 용어 사전의 품질 평가에 대한 연구 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper