$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

감성분석과 Word2vec을 이용한 비정형 품질 데이터 분석
Informal Quality Data Analysis via Sentimental analysis and Word2vec method 원문보기

品質經營學會誌 = Journal of Korean society for quality management, v.45 no.1, 2017년, pp.117 - 128  

이진욱 (한양대학교 산업공학과) ,  유국현 (한양대학교 수학과) ,  문병민 (한양대학교 산업공학과) ,  배석주 (한양대학교 산업공학과)

Abstract AI-Helper 아이콘AI-Helper

Purpose: This study analyzes automobile quality review data to develop alternative analytical method of informal data. Existing methods to analyze informal data are based mainly on the frequency of informal data, however, this research tries to use correlation information of each informal data. Meth...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이러한 단점을 보완하기 위하여 Word2vec 방법에는 좀 더 많은 단위의 비정형 데이터를 학습시키고자 하며, 데이터 확보 방안이나 다른 데이터와의 혼합을 통한 응용방안을 고려하고자 한다. 또한 부정적 데이터 분석만이 아니라 긍정적 데이터 분석을 동시 진행하여 단어 간의 연관성에 대한 자세한 분석을 실행하고자 한다.
  • 본 연구에서는 단순히 단어의 빈도수를 사용하여 비정형 데이터를 분석하는 방안의 대안으로써 감성분석을 적용하여 분석을 실행하고자 하였다. 차량의 고객 서비스 데이터를 적용, 계산의 용이함을 위해 긍정 및 부정적인 감정으로만 데이터를 분류, 분석한 결과 높은 정확도를 보였다.
  • 이러한 대다수의 연구 방법이 키워드의 빈도수에 집중, 비정형 데이터에 대한 소비자의 감성을 발취하기 힘든 단점이 있다. 본 연구에서는 단어의 빈도수 분석이 아닌 소비자의 감성을 기반으로 비정형 데이터인 차량의 서비스에 대한 소비자 리뷰 데이터 분석을 시도하였다. 현재 주목받고 있는 방법인 감성분석은 비정형 데이터에 적용되고 있는 방법 중 하나로써 고객의 욕구 및 감성을 진단하여 다양한 분석을 가능하게 하며 여러 산업에 적용할 수 있다.

가설 설정

  • 순수 베이지안 분류기는 클래스 데이터 Y가 주어졌을 때, 각 속성이 조건부로 독립적이라고 가정하며 각 클래스 조건부 확률을 계산한다. 아래는 속성 집합 X에 대하여 d개의 속성으로 구성된 조건부 독립성 가정에 대한 수식에 해당한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
데이터의 빈도수를 고려하는 방식의 한계점은 무엇인가? 대표적인 예로 문서나 기사의 키워드를 시각적으로 보여주는 워드 클라우드(Word cloud), 문서나 지상에서 특정 단어의 빈도에 따라 가중치를 부여하는 TF-IDF(Term frequency-Inverse document frequency) 가중치 적용 방법 등이 있다. 이러한 방법은 단어의 빈도수를 사용하여 직관적으로 주제 및 관심 분야를 찾을 수 있지만, 데이터에 존재하는 소비자들의 심리 등을 심층적으로 발취하는데 한계점이 존재한다.
대다수의 비정형 데이터, 텍스트 마이닝은 데이터의 빈도수를 고려하는 방식을 사용하는데, 그 예시로 무엇이 있을까? 대다수의 방식이 데이터가 가진 의미 및 뜻을 사용하는 대신, 얼마나 자주 사용되는 지, 혹은 다른 데이터와 얼마나 자주 연관이 되는지 등의 빈도를 주로 고려한다. 대표적인 예로 문서나 기사의 키워드를 시각적으로 보여주는 워드 클라우드(Word cloud), 문서나 지상에서 특정 단어의 빈도에 따라 가중치를 부여하는 TF-IDF(Term frequency-Inverse document frequency) 가중치 적용 방법 등이 있다. 이러한 방법은 단어의 빈도수를 사용하여 직관적으로 주제 및 관심 분야를 찾을 수 있지만, 데이터에 존재하는 소비자들의 심리 등을 심층적으로 발취하는데 한계점이 존재한다.
업의 서비스에 따른 소비자의 평가방법이 다양하게 증가한 이유는 무엇인가? 소셜 네트워크 서비스, 블로그 등의 개인과 개인 간의 간접적인 상호작용 서비스가 증가함에 따라 기업의 서비스에 따른 소비자의 평가방법도 다양하게 증가하였다. SNS나 블로그등의 인터넷 활동에서 소비자의 제품 평이나 서비스에 대한 평가를 쉽게 찾을 수 있는 가운데, 비정형화된 데이터의 분석방안 또한 발전해가고 있는 추세이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. Eun Ji Yu, Yoo Sin Kim, Nam Gyu Kim, and Seung Ryul Jeong. 2013. "Predicting the direction of the stock index by using a domain-specific sentiment dictionary." Journal of Intelligence and Information Systems 19(1):95-110. 

  2. Pang Ning Tang, Michael Stenbach, and Vipin Kumar. 2006. Introduction To Data Mining. Addison-Wesley Longman Publishing Co., Inc. 

  3. Quoc Le, Tomas Mikolov. 2014. "Distributed representations of Sentences and Documents." Proceedings of the 31st international conference on machine learning, 1188-1136. 

  4. Sung-Jick Lee, and Han-Joon Kim. 2009. "Keyword extraction from news corpus using modified TF-IDF." The Journal of Society for e-Business Studies 14(4):59-73. 

  5. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2003. "Efficient estimation of word representations in vector space." Proceedings in International Conference on learning representations 2013. 

  6. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. "Distributed representation of words and phrases and their compositionality." Proceedings in International conference on neural information processing systems, 3111-3119. 

  7. Yoo Sin Kim, Nam Gyu Kim, and Seung Ryul Jeong. 2011. "Stock-index invest model using news big data opinion mining." Journal of Intelligence and Information Systems. Volume 18(2):143-156. 

  8. Yuen-Hsien Tseng, Chi-Jen Lin, and Yu-I Lin. 2007. "Text mining techniques for patent analysis." Information processing and management 43(5):1216-1247. 

  9. Yean Ran Lee, Eun Ju Yoon, Jung Ah Im, Young Hwan Lim, and Jung Hwan Sung. 2013. "Emotional tree using sensitivity image analysis algorithm." Journal of the Korea Contents Association 13(11):562-570. 

  10. Zhou Yong, Li Youwen, and Xia Shixiong. 2009. "An improved KNN text classification algorithm based on clustering." The Journal of Computers 4(3):230-237. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로