김유신
(BigData Analytics Dept., Univ. of Seoul)
,
홍성관
(Graduate School of Business IT, Kookmin Univ.)
,
강희주
(DataScience Center, Funnywork Corp.)
,
정승렬
(Graduate School of Business IT, Kookmin Univ.)
인터넷, 소셜미디어, 모바일 등의 등장이후 소비자들은 개인의 의견을 온라인을 통해 적극적으로 표명하기 시작했고 이의 확산 또한 실시간으로 이루어지고 있다. 인터넷 기반의 다양한 커뮤니케이션 활동들을 통해 생산되는 텍스트는 인터넷을 사용하는 사용자들이 공유하고 공감하는 자원으로서 단순한 소통의 도구를 넘어 분석의 가치가 있는 새로운 정보의 창고가 되고 있다. 세계 각국의 정부와 기업은 인터넷과 소셜미디어를 통해 생산되는 소셜 빅데이터를 활용하여 사회/경제적 문제의 해결과 정부의 정책을 효과적으로 추진하는데 적극 활용하고 있다. 특히 경제와 관련해서는 경기현황에 대한 경제주체들의 움직임을 보다 빠르고 정확하게 분석하고 예측하여 이에 알맞은 정책을 적기에 실시할 수 있도록 다각적인 활동을 펼치고 있다. 본 연구에서는 소셜 미디어에 내재된 소비자의 직적접이고 즉시성 있는 의견을 경제적 측면에서 활용할 수 있는 온라인 소비자감성지수 모형을 제시하고 구현하였다. 이를 위해 한국은행의 소비자동향조사(CSI)와 소비자심리지수(CCSI)를 온라인으로 수행할 수 있는 어휘분류체계(온톨로지)와 감성사전을 구축하고 감성분석을 실시하여 생활형편, 경제상황, 소비와 수입 4가지 영역의 소셜감성지수를 도출하였다. 또한 이들을 결합한 온라인 소비자감성지수(e-CCSI)를 개발하고 소비자심리지수와 비교를 통해 유용성을 확인하였다.
인터넷, 소셜미디어, 모바일 등의 등장이후 소비자들은 개인의 의견을 온라인을 통해 적극적으로 표명하기 시작했고 이의 확산 또한 실시간으로 이루어지고 있다. 인터넷 기반의 다양한 커뮤니케이션 활동들을 통해 생산되는 텍스트는 인터넷을 사용하는 사용자들이 공유하고 공감하는 자원으로서 단순한 소통의 도구를 넘어 분석의 가치가 있는 새로운 정보의 창고가 되고 있다. 세계 각국의 정부와 기업은 인터넷과 소셜미디어를 통해 생산되는 소셜 빅데이터를 활용하여 사회/경제적 문제의 해결과 정부의 정책을 효과적으로 추진하는데 적극 활용하고 있다. 특히 경제와 관련해서는 경기현황에 대한 경제주체들의 움직임을 보다 빠르고 정확하게 분석하고 예측하여 이에 알맞은 정책을 적기에 실시할 수 있도록 다각적인 활동을 펼치고 있다. 본 연구에서는 소셜 미디어에 내재된 소비자의 직적접이고 즉시성 있는 의견을 경제적 측면에서 활용할 수 있는 온라인 소비자감성지수 모형을 제시하고 구현하였다. 이를 위해 한국은행의 소비자동향조사(CSI)와 소비자심리지수(CCSI)를 온라인으로 수행할 수 있는 어휘분류체계(온톨로지)와 감성사전을 구축하고 감성분석을 실시하여 생활형편, 경제상황, 소비와 수입 4가지 영역의 소셜감성지수를 도출하였다. 또한 이들을 결합한 온라인 소비자감성지수(e-CCSI)를 개발하고 소비자심리지수와 비교를 통해 유용성을 확인하였다.
With emergence of Internet, social media, and mobile service, the consumers have actively presented their opinions and sentiment, and then it is spreading out real time as well. The user-generated text data on the Internet and social media is not only the communication text among the users but also ...
With emergence of Internet, social media, and mobile service, the consumers have actively presented their opinions and sentiment, and then it is spreading out real time as well. The user-generated text data on the Internet and social media is not only the communication text among the users but also the valuable resource to be analyzed for knowing the users' intent and sentiment. In special, economic participants have strongly asked that the social big data and its' analytics supports to recognize and forecast the economic trend in future. In this regard, the governments and the businesses are trying to apply the social big data into making the social and economic solutions. Therefore, this study aims to reveal the capability of social big data analysis for the economic use. The research proposed a social big data analysis model and an online consumer sentiment index. To test the model and index, the researchers developed an economic survey ontology, defined a sentiment dictionary for sentiment analysis, conducted classification and sentiment analysis, and calculated the online consumer sentiment index. In addition, the online consumer sentiment index was compared and validated with the composite consumer survey index of the Bank of Korea.
With emergence of Internet, social media, and mobile service, the consumers have actively presented their opinions and sentiment, and then it is spreading out real time as well. The user-generated text data on the Internet and social media is not only the communication text among the users but also the valuable resource to be analyzed for knowing the users' intent and sentiment. In special, economic participants have strongly asked that the social big data and its' analytics supports to recognize and forecast the economic trend in future. In this regard, the governments and the businesses are trying to apply the social big data into making the social and economic solutions. Therefore, this study aims to reveal the capability of social big data analysis for the economic use. The research proposed a social big data analysis model and an online consumer sentiment index. To test the model and index, the researchers developed an economic survey ontology, defined a sentiment dictionary for sentiment analysis, conducted classification and sentiment analysis, and calculated the online consumer sentiment index. In addition, the online consumer sentiment index was compared and validated with the composite consumer survey index of the Bank of Korea.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
감성사전을 개발하기 위해 먼저 기존연구에서 재사용이 가능한지를 검토하였다. 선행연구[5]와 [6]에서 경기와 관련된 감성 어휘 149개(긍정어휘 40개, 부정어휘 109개)를 확인하고, 이를 기준어휘로 활용하였다.
또 다른 연구에서는 네이버에서 검색된 조회건수를 이용한 연구가 있다[6]. 본 연구는 국내 포털 점유율이 가장 높은 네이버의 네이버 트렌드를 이용하여 네이버 검색 경기지수를 만들고 경제 심리지수, 경기 실사지수와 같은 경기판단 지표들과의 분석을 진행하였다. 네이버 트렌드는 네이버에서 제공하고 있는 통합검색에서 발생하는 검색어 통계를 제공하는 서비스로써 PC와 모바일을 이용하여 네이버에서 검색한 검색어들의 통계를 검색어의 빈도의 합이 아니라 검색키워드가 검색에서 가장 많이 검색된 주간 평균값을 100으로 보고 나머지 기간의 평균 검색 횟수를 상대적으로 표현하여 0~100사이의 상대값으로 환산하여 그래프로 보여주게 된다.
본 연구는 온라인상의 경기 주제에 대해 수집된 빅데이터 자료를 식별하고 활용하기 위한 분석틀로서, 경기관련 주제를 분류하고, 온톨로지와 용어체계를 개발하였다. 온톨로지는 Ontology Development 101 방법론[13]에 근거하여 개발하였으며 온톨로지를 구성하는 용어는 선행연구 조사에 따른 관련 문헌 및 한국은행에서 조사하는 지표를 기반으로 수집하였다.
위와 유사한 연구가 한국 통계청에서도 실시되었다[5]. 본 연구에서는 소셜미디어에서 발생하는 경제상황 메시지를 이용하여 산출한 소셜미디어 감성지수와 한국은행에서 발표하고 있는 소비자 심리지수와의 비교분석을 진행 하였다. 소셜미디어 감성지수를 산출하기 위하여 국내 포털사이트(네이버/다음)의 블로그, 게시판, 뉴스, 카페에서 소비자 심리지수에 대응하는 검색어 경제, 가계, 수입, 소비, 지출, 살림살이, 생활형편의 키워드를 이용하여 데이터를 수집하고 이를 이용하여 감성분석을 진행하여 소셜미디어 감성지수를 도출하였다.
SNS를 비롯하여 블로그, 카페, 인터넷 쇼핑 등에서 생성되는 텍스트 데이터에는 소비자의 생각, 관심사, 라이프스타일, 선호 등 개인의 특정 기록들이 담겨 있으므로, 이를 실시간으로 수집하고 분석한다면 설문조사에서 드러나지 않는 개인의 직접적인 의견과 감정, 선호도 등을 알 수 있을 뿐만 아니라 조사와 분석에 소요되는 시간 또한 획기적으로 단축시킬 수 있을 것이다. 이에 본 연구는 기존의 설문조사 방식으로 이루어지던 소비자심리지수를 소셜미디어 빅데이터 분석을 통해 온라인 소비자감성지수를 개발하고자 하였다.
이에 본 연구는 기존의 설문조사 방식으로 이루어지던 소비자심리지수를 소셜미디어 빅데이터 분석을 통해 온라인 소비자감성지수를 개발하고자 한다. 소셜미디어 속에서 표출되는 소비자의 의견은 비정형 텍스트 데이터로 이들 가운데 의미있는 정보를 추출하고 수집하기 위해서는 분석 주제와 목표에 부합하는 텍스트분류체계와 어휘자원이 필요하다.
제안 방법
감성사전은 4개 구성지수 영역인 생활형편, 경제상황, 가계수입, 소비지출 부문으로 작성되었다. 각 영역별로 생활형편 425개, 경제상황 534개, 가계수입 371개, 소비지출 410개로 구축하였으며 이후 매뉴얼 점검을 통해 중복어휘와 주제 영역에 합당하지 않은 어휘를 제거하는 등의 최종 선별을 거쳐, 긍정 어휘 537개 부정어휘 1,161개로 구성된 경기관련 감성사전을 정의하였다.
확장형 감성어휘를 얻는 기본적은 방법은 사전의 해설 부분을 이용하여 기본형 감성어휘의 유의어를 찾는 것으로, 사전은 오랜 시간에 걸쳐 단어의 의미를 쉽고 자세하게 기술해 놓은 것이므로 내용의 정확도에 신뢰도를 줄 수 있다. 감성사전을 개발하기 위해 감성분석 주제영역을 정의하고 선행연구에서의 재사용가능한 어휘들을 살펴보고, 이를 기준어휘로 자연어처리를 통한 빈도분석과 연관분석, 연구자 교차 검증 등을 거쳐 최종 감성사전을 개발하였다.
경기 감성분석을 위해서는 첫째 경기와 관련된 영역으로 수집 대상과 수집 범위를 설정한 후 대상 채널(네이버 뉴스, 블로그 등)에서 수집엔진을 이용하여 수집한다. 경기와 관련 연관 키워드 그룹을 지정·분류하기 위하여 해당 토픽에 대한 이론적 배경을 분석하여 온톨로지를 개발한 후 온톨로지 키워드를 적용한다.
경기 관련 감성지수를 산출하기위해 수집된 문서 각각에 감성어휘 사전을 매칭하여 문서별 감성극성을 태깅한다. 이후 일자별로 감성이 태깅된 긍정, 부정문서의 수를 집계하여 개별 감성지수를 산출한다.
본 연구에서는 7개의 선행연구를 참고하여 생활형편, 경제상황, 소득 및 소비관련 대응 어휘자원 45개를 추출하고 소득 및 소비와 관련한 전반적인 경제 용어 45개중 중복어휘2개를 선정하여 메타어휘로서의 재사용 여부를 고려하였다. 경기 상황을 대변할 추가적인 키워드를 도출하기 위해 소셜 데이터인 네이버의 지식인과 뉴스를 수집하여 분석하였다.
온톨로지는 기존에 사용하고 있는 개념들을 재사용하여 적용하는 방법을 사용한다. 경기관련 온톨로지를 사전에 조사하여 경기 관련 영역과 일치하면 재사용할 수 있는지를 고려하여 추가적인 정보와 분류를 얻을 수 있는지 검토하여 적용한다. 본 연구에서는 7개의 선행연구를 참고하여 생활형편, 경제상황, 소득 및 소비관련 대응 어휘자원 45개를 추출하고 소득 및 소비와 관련한 전반적인 경제 용어 45개중 중복어휘2개를 선정하여 메타어휘로서의 재사용 여부를 고려하였다.
데이터 수집을 위하여 소셜 데이터인 네이버에서 경제 상황, 경기, 생활형편 등의 키워드를 선정하여 네이버 지식인에서 2,700건을 수집하였으며 약 23,000건의 키워드들의 빈도수를 기준하여 추출하였다. 경기관련 주요 어휘 선정방법은 주제별 수집 어휘 중에서 빈도분석, 연관성분석을 통해 상위 200개 어휘를 선정하여 각 주제에 맞는 어휘를 연구자들이 상호 점검을 통해 최종 어휘를 선정하였다.
경기와 관련 연관 키워드 그룹을 지정·분류하기 위하여 해당 토픽에 대한 이론적 배경을 분석하여 온톨로지를 개발한 후 온톨로지 키워드를 적용한다.
용어를 설명하기 위해 필요한 것을 열거하여 클래스들을 선별하고 개념 정의하는데 커뮤니티 및 그 구성원은 물론 용어의 의미에 대해 합의를 이루는 것이다. 경기와 관련된 클래스들은 생활형편, 주거환경, 근로환경, 사회계층, 경제상황, 경기상황, 체감경기, 고용상황, 금리수준, 소비지출, 생활비, 공공요금, 내구재, 의류비, 외식비, 여행비, 교육비, 의료ㆍ보건비, 교양ㆍ오락ㆍ문화생활비, 교통ㆍ통신비, 주거비, 가계수입 및 부채, 가계소득, 가계저축, 가계부채로 선정하여 각 어휘에 대한 개념을 정의하였다. 클래스 계층 정의는 클래스간의 존재하는 관계(포함관계, 상하관계, 부분관계 등)들을 정리하여 관계가 있는 클래스들은 taxonomic hierarch에 구조화하였다.
온라인 소비자감성지수(e-CCSI)는 한국은행의 소비자 심리지수(CCSI)와 대응하는 소셜경기지수이다. 그러므로 e-CCSI 역시 CCSI와 동일하게 생활형편, 경제상황, 소비지출 및 부채, 가계수입 4가지 구성영역으로 정의되었으며, 개별 구성지수를 산출 후 4개의 영역의 합성지수인 e-CCSI로 산출하였다. 각 구성지수를 산출하는 방식은 선행연구 [13]에서 제시된 빅데이터를 이용한 경기판단지표개발의 감성지수를 산출식을 참고로 하였다.
이를 위해 사용되는 것이 온톨로지인데, 온토롤지는 해당 개념을 명시적으로 정의하고, 컴퓨터가 처리할 수 있는 형태로 표현하는 용어의 논리적인 집합이면서 개념 간 관계를 명시한 사전의 역할을 의미한다. 그러므로 본 연구를 위해서 소비자들이 경제현황에 대해 언급하고 의견을 표출하는 데이터를 수집/분류/분석하기 위해 경기관련 온톨로지와 감성사전을 개발하고 이를 이용하여 소셜데이터의 분류와 감성분석을 실시하였다.
소셜감성지수는 소비자심리지수와 동일하게 생활형편, 경제상황, 소비지출 및 부채, 가계수입 4가지 구성지수로 개발하였으며 이 4개의 영역의 구성지수를 합성하여 합성지수인 온라인소 비자감성지수를 산출하였다. 그리고 마지막으로 온라인 소비자감성지수와 한국은행의 소비자심리지수를 비교분석하였다.
데이터 수집을 위하여 소셜 데이터인 네이버에서 경제 상황, 경기, 생활형편 등의 키워드를 선정하여 네이버 지식인에서 2,700건을 수집하였으며 약 23,000건의 키워드들의 빈도수를 기준하여 추출하였다. 경기관련 주요 어휘 선정방법은 주제별 수집 어휘 중에서 빈도분석, 연관성분석을 통해 상위 200개 어휘를 선정하여 각 주제에 맞는 어휘를 연구자들이 상호 점검을 통해 최종 어휘를 선정하였다.
경기관련 온톨로지의 클래스는 대분류-중분류-소분류로 구분하고 각 클래스별 개념에 해당하는 용어를 영역 수준별로 정의하였다. 또한 각 용어별 동의어와 유사어는 인터넷 검색과 선행 문헌 검색 등의 방법을 이용하여 추가하였다.
소비지출전망 조사는 가계수입과 소비지출이 현재와 비교하여 어떻게 변화할지를 조사하며, 가계저축 및 부채에 대한 조사는 6개월 전과 비교하여 현재의 상황, 그리고 6개월 후의 예상치를 질의한다. 마지막으로 물가전망에 대한 조사는 현재와 비교하여 1년 후의 소비자물가 수준, 주택가격 수준, 근로임금 수준 전망과 물가상승의 1년 전후 상황을 조사한다.
소비자동향조사에서 조사되는 항목은 크게는 다섯 가지 영역의 20여 가지 항목으로 구성되어있다. 먼저 경제 인식에 대한 조사에서는 현재 가계의 생활형편과 국내 경기에 대한 판단을 6개월 전과 비교한다. 다음으로 경제 전망은 향후 6개월 후의 생활형편과 국내경기, 취업기회, 금리수준을 묻는다.
경기관련 온톨로지를 사전에 조사하여 경기 관련 영역과 일치하면 재사용할 수 있는지를 고려하여 추가적인 정보와 분류를 얻을 수 있는지 검토하여 적용한다. 본 연구에서는 7개의 선행연구를 참고하여 생활형편, 경제상황, 소득 및 소비관련 대응 어휘자원 45개를 추출하고 소득 및 소비와 관련한 전반적인 경제 용어 45개중 중복어휘2개를 선정하여 메타어휘로서의 재사용 여부를 고려하였다. 경기 상황을 대변할 추가적인 키워드를 도출하기 위해 소셜 데이터인 네이버의 지식인과 뉴스를 수집하여 분석하였다.
감성분석에 사용되는 감성사전이 잘 개발되어있을수록 감성분석의 정확도와 신뢰도는 향상될 수 있다. 본 연구에서는 경기관련 신뢰도가 높은 감성사전을 만들기 위해서 기존의 경기관련 연구에서 기본어휘를 찾고, 이를 활용하여 감성어휘를 확장하는 방식을 이용하였다. 확장형 감성어휘를 얻는 기본적은 방법은 사전의 해설 부분을 이용하여 기본형 감성어휘의 유의어를 찾는 것으로, 사전은 오랜 시간에 걸쳐 단어의 의미를 쉽고 자세하게 기술해 놓은 것이므로 내용의 정확도에 신뢰도를 줄 수 있다.
다음으로 경제 전망은 향후 6개월 후의 생활형편과 국내경기, 취업기회, 금리수준을 묻는다. 소비지출전망 조사는 가계수입과 소비지출이 현재와 비교하여 어떻게 변화할지를 조사하며, 가계저축 및 부채에 대한 조사는 6개월 전과 비교하여 현재의 상황, 그리고 6개월 후의 예상치를 질의한다. 마지막으로 물가전망에 대한 조사는 현재와 비교하여 1년 후의 소비자물가 수준, 주택가격 수준, 근로임금 수준 전망과 물가상승의 1년 전후 상황을 조사한다.
소셜미디어 속에서 표출되는 소비자의 의견이 비정형 텍스트 데이터에 담겨있으므로, 이를 추출하고 수집하기 위한 텍스트분류체계로서 경기관련 온톨로지와 감성사전을 개발하였고, 이를 이용하여 소셜미디어 감성분석을 실시하였다. 소셜감성지수는 소비자심리지수와 동일하게 생활형편, 경제상황, 소비지출 및 부채, 가계수입 4가지 구성지수로 개발하였으며 이 4개의 영역의 구성지수를 합성하여 합성지수인 온라인소 비자감성지수를 산출하였다. 그리고 마지막으로 온라인 소비자감성지수와 한국은행의 소비자심리지수를 비교분석하였다.
본 연구에서는 소셜미디어에서 발생하는 경제상황 메시지를 이용하여 산출한 소셜미디어 감성지수와 한국은행에서 발표하고 있는 소비자 심리지수와의 비교분석을 진행 하였다. 소셜미디어 감성지수를 산출하기 위하여 국내 포털사이트(네이버/다음)의 블로그, 게시판, 뉴스, 카페에서 소비자 심리지수에 대응하는 검색어 경제, 가계, 수입, 소비, 지출, 살림살이, 생활형편의 키워드를 이용하여 데이터를 수집하고 이를 이용하여 감성분석을 진행하여 소셜미디어 감성지수를 도출하였다. 분석결과에서는 소셜미디어 감성지수와 소비자심리지수의 비교결과 역시 상관계수가 0.
소셜미디어 속에서 표출되는 소비자의 의견이 비정형 텍스트 데이터에 담겨있으므로, 이를 추출하고 수집하기 위한 텍스트분류체계로서 경기관련 온톨로지와 감성사전을 개발하였고, 이를 이용하여 소셜미디어 감성분석을 실시하였다. 소셜감성지수는 소비자심리지수와 동일하게 생활형편, 경제상황, 소비지출 및 부채, 가계수입 4가지 구성지수로 개발하였으며 이 4개의 영역의 구성지수를 합성하여 합성지수인 온라인소 비자감성지수를 산출하였다.
앞서 빈도분석과 연관성분석은 R 프로그래밍의 자연어처리 KoNLP 패키지의 내장함수인 extractNoun을 이용하여 선별된 어휘를 이용하였기에 명사형태가 주를 이루었다. 한국어의 언어적 속성상 하나의 어휘라도 어미ㆍ접두사ㆍ접미사ㆍ품사변형 등을 통해 다양한 형태로 변형됨으로 이를 감성사전에 반영하기 위한 추가적으로 형태소 분석을 통한 동사ㆍ형용사 어휘 추출 작업을 실시하였다.
개별 구성지수는 기본적으로 일별지수이지만, 필요에 따라 주별지수나 월별지수로 변환하여 사용될 수 있다. 여기서는 CCSI와 비교를 위해서 일별지수를 월평균으로 변환작업을 실시하였다. 월평균으로 변환할 때 비교대상인 소비자심리지수와 동일하게 표준화를 하기위해서는 전년동월의 평균과 표준편차를 이용하여 표준화를 진행해야하지만 본 연구에서 사용한 수집 데이터가 2011년 1년간 데이터에 한정되므로, 표준화구간을 2011년 1월부터 12월까지로 한정하였다.
네덜랜드의 소비자컨피던스는 한국의 소비자심리지수와 매우 유사한 경제심리지표로서 매월 1000가구를 대상으로 경제현황과 재무상황에 대한 5가지의 설문에 대해 긍정-부정-중립으로 응답하는 설문조사 방식의 소비자동향조사결과이다. 연구자들은 트위터, 페이스북, 링크드인과 같은 SNS와 웹사이트, 포럼, 블로그 등에서 생성되는 네덜란드 메시지들을 모두 포함한 소셜미디어 빅데이터를 수집하고 감성분석을 통해 지수를 도출하였다. 분석결과에서는 네덜란드 소비자컨피던스와 소셜미디어 감성지수사이에 분명한 연관성이 있음이 확인되었으며, 특히 페이스북 메시지는 0.
네이버 트렌드는 네이버에서 제공하고 있는 통합검색에서 발생하는 검색어 통계를 제공하는 서비스로써 PC와 모바일을 이용하여 네이버에서 검색한 검색어들의 통계를 검색어의 빈도의 합이 아니라 검색키워드가 검색에서 가장 많이 검색된 주간 평균값을 100으로 보고 나머지 기간의 평균 검색 횟수를 상대적으로 표현하여 0~100사이의 상대값으로 환산하여 그래프로 보여주게 된다. 이를 이용하여 호황과 불황관련 검색어군을 이용하여 네이버 트렌드의 검색통계를 수집하고 이를 이용하여 네이버 검색 경기지수를 도출 하였다. 분석결과에서는 네이버 검색 경기지수와 기존의 경제지표들과의 상관관계 분석을 진행하였으며 이때 네이버 검색 경기지수는 경기 실사지수와 상관관계가 높게 나타났으며 경기실사지수와 소비자심리지수를 혼합한 경제심리지수와 상관관계가 가장 높게 나온 것을 알 수 있었다.
경기 관련 감성지수를 산출하기위해 수집된 문서 각각에 감성어휘 사전을 매칭하여 문서별 감성극성을 태깅한다. 이후 일자별로 감성이 태깅된 긍정, 부정문서의 수를 집계하여 개별 감성지수를 산출한다.
둘째 수집된 데이터들은 바로 사용할 수 없기 때문에 비정형데이터는 텍스트 마이닝, 오피니언 마이닝을 통하여 분류하고 정제하는 작업이 필요하다. 정제된 비정형 데이터 분석은 버즈 분석, 키워드 분석, 감성분석 등을 진행한다.
개별 표준화 지수를 산출하기 위하여 해당 지수 값에 평균지수 값을 뺀 후 표준편차로 나눈다. 표준화된 합성지수를 0~200범위를 가지는 지수값으로 바꾸기 위하여 장기평균이 100, 표준편차가 0이 되도록 재조정하여 소셜 경기지수를 산출한다. 이렇게 산출된 소셜 경기지수는 100보다 작은값이 나오면 부정, 100보다 큰 값을 가지면 긍정을 의미한다.
앞서 빈도분석과 연관성분석은 R 프로그래밍의 자연어처리 KoNLP 패키지의 내장함수인 extractNoun을 이용하여 선별된 어휘를 이용하였기에 명사형태가 주를 이루었다. 한국어의 언어적 속성상 하나의 어휘라도 어미ㆍ접두사ㆍ접미사ㆍ품사변형 등을 통해 다양한 형태로 변형됨으로 이를 감성사전에 반영하기 위한 추가적으로 형태소 분석을 통한 동사ㆍ형용사 어휘 추출 작업을 실시하였다. 형태소 분석은 SimplePos09를 이용하여 9개 품사를 태그하여 동사나 형용사 어휘를 선별한 후 선행연구에서 동사, 형용사 어휘들을 비교하여 감성어휘를 선정하였다.
한국어의 언어적 속성상 하나의 어휘라도 어미ㆍ접두사ㆍ접미사ㆍ품사변형 등을 통해 다양한 형태로 변형됨으로 이를 감성사전에 반영하기 위한 추가적으로 형태소 분석을 통한 동사ㆍ형용사 어휘 추출 작업을 실시하였다. 형태소 분석은 SimplePos09를 이용하여 9개 품사를 태그하여 동사나 형용사 어휘를 선별한 후 선행연구에서 동사, 형용사 어휘들을 비교하여 감성어휘를 선정하였다.
대상 데이터
여기서는 CCSI와 비교를 위해서 일별지수를 월평균으로 변환작업을 실시하였다. 월평균으로 변환할 때 비교대상인 소비자심리지수와 동일하게 표준화를 하기위해서는 전년동월의 평균과 표준편차를 이용하여 표준화를 진행해야하지만 본 연구에서 사용한 수집 데이터가 2011년 1년간 데이터에 한정되므로, 표준화구간을 2011년 1월부터 12월까지로 한정하였다.
데이터처리
표준화식은 합성지수 산식에 의하여 계산되며 표준화 기간은 1년을 단위로 한다. 개별 표준화 지수를 산출하기 위하여 해당 지수 값에 평균지수 값을 뺀 후 표준편차로 나눈다. 표준화된 합성지수를 0~200범위를 가지는 지수값으로 바꾸기 위하여 장기평균이 100, 표준편차가 0이 되도록 재조정하여 소셜 경기지수를 산출한다.
추가적인 감성어휘 선정을 위해 수집데이터의 빈도분석, 연관성 분석 및 형태소 분석을 실시하였다. 빈도분석은 어휘별 출현 빈도를 계산하여 상위 노출어휘를 감성 분석어휘로 활용하는 것인데, 실제 출현빈도가 높더라도 감성어휘로서 활용되지 못하는 것들이 많기 때문에 1차적인 어휘군 선별로서만 활용되었다.
이론/모형
그러므로 e-CCSI 역시 CCSI와 동일하게 생활형편, 경제상황, 소비지출 및 부채, 가계수입 4가지 구성영역으로 정의되었으며, 개별 구성지수를 산출 후 4개의 영역의 합성지수인 e-CCSI로 산출하였다. 각 구성지수를 산출하는 방식은 선행연구 [13]에서 제시된 빅데이터를 이용한 경기판단지표개발의 감성지수를 산출식을 참고로 하였다.
본 연구는 온라인상의 경기 주제에 대해 수집된 빅데이터 자료를 식별하고 활용하기 위한 분석틀로서, 경기관련 주제를 분류하고, 온톨로지와 용어체계를 개발하였다. 온톨로지는 Ontology Development 101 방법론[13]에 근거하여 개발하였으며 온톨로지를 구성하는 용어는 선행연구 조사에 따른 관련 문헌 및 한국은행에서 조사하는 지표를 기반으로 수집하였다. 선행연구 결과를 통하여 경기지수 개발을 위해서는 생활형편, 경제상황, 소득 및 소비에 대한 내용을 포함하고 있음을 확인하였으며 이를 포함하는 개념의 온톨로지를 개발하였다.
성능/효과
결과적으로 온라인 소비자감성지수는 소셜데이터의 실시간 수집과 분석을 통해 즉시성있는 경제심리지표를 생성하고 공표할 수 있다는 장점을 가지고 있었으며, 비록 1년으로 한정된 비교였지만, 소비자심리지수와의 높은 상관관계를 보임으로서, 소비자심리지수를 보완할 수 있는 지표로 활용될 수 있음을 확인하였다.
734로 강한 상관관계를 나타냈다. 그리고 특정 기간 월별 집계된 소셜미디어 감성지수와 소비자 심리지수는 추세가 유사하게 나타났으며 주별 소셜미디어 감성지수에서 세월호 사건 발생, 메르스 사망자 발생 주를 기점으로 감성지수의 하락이 크게 나타나는 것을 볼 수 있었다. 본 연구 결과 주 단위 소셜미디어 감성지수는 월 단위로 발표되는 소비자심리지수에 비해 소비자심리지수가 포함하는 경제상황, 생활형편, 수입 및 소비지출에 대하여 더 빠른 정보를 제공할 수 있을 것으로 보고 있다.
2011년 1월부터 12월까지의 월별 집계된 e-CCSI와 CCSI의 추세가 유사한 것을 발견할 수 있다. 따라서 일별, 주별, 월별 등 즉시성있게 분석되고 공표될 수 있는 e-CCSI가 설문조사를 통해 발표하는 소비자심리지수를 보완하여 신속한 경기판단에 도움을 줄 수 있는 지표로서 유용성이 있음을 확인할 수 있다.
분석결과에서는 네이버 검색 경기지수와 기존의 경제지표들과의 상관관계 분석을 진행하였으며 이때 네이버 검색 경기지수는 경기 실사지수와 상관관계가 높게 나타났으며 경기실사지수와 소비자심리지수를 혼합한 경제심리지수와 상관관계가 가장 높게 나온 것을 알 수 있었다. 또한 교차상관분석을 진행한 결과 네이버 검색 경기지수는 경제심리지수와 동행하면서 상관계수가 0.96으로 매우 높게 나타나 경제심리지수를 대체할 수 있을 것으로 보이고 있으며 예측력 분석에서는 경제성장률과 민간소비증감률이 네이버 검색 경기지수와 어느 정도 밀접한 관계를 보이고 있어 네이버 검색 경기지수가 경제성장률과 민간소비의 당기 예측에 유용하게 이용 될 수 있음을 알 수 있다. 본 연구 결과 경제심리지수와 매우 밀접하게 움직이는 네이버 검색 경기지수는 주별로 작성되며 빠르게 데이터를 구할 수 있어 경제심리지수를 보완할 수 있는 지표로 활용될 수 있는 것으로 판단된다.
그리고 특정 기간 월별 집계된 소셜미디어 감성지수와 소비자 심리지수는 추세가 유사하게 나타났으며 주별 소셜미디어 감성지수에서 세월호 사건 발생, 메르스 사망자 발생 주를 기점으로 감성지수의 하락이 크게 나타나는 것을 볼 수 있었다. 본 연구 결과 주 단위 소셜미디어 감성지수는 월 단위로 발표되는 소비자심리지수에 비해 소비자심리지수가 포함하는 경제상황, 생활형편, 수입 및 소비지출에 대하여 더 빠른 정보를 제공할 수 있을 것으로 보고 있다.
연구자들은 트위터, 페이스북, 링크드인과 같은 SNS와 웹사이트, 포럼, 블로그 등에서 생성되는 네덜란드 메시지들을 모두 포함한 소셜미디어 빅데이터를 수집하고 감성분석을 통해 지수를 도출하였다. 분석결과에서는 네덜란드 소비자컨피던스와 소셜미디어 감성지수사이에 분명한 연관성이 있음이 확인되었으며, 특히 페이스북 메시지는 0.85의 상관계수로 가장 통찰력있는 소셜미디어였으며, 트위터가 그 뒤를 있고 있음을 보여주었다. 그 외의 다양한 실험결과와 함께 결과적으로 소셜미디어 감성분석결과가 매월 공식 발표되는 소비자컨피던스보다 소비자의 심리변화를 선행하여 보여줄 수 있으며 즉시성 측면에서도 더욱 유용함을 주장하고 있다.
이를 이용하여 호황과 불황관련 검색어군을 이용하여 네이버 트렌드의 검색통계를 수집하고 이를 이용하여 네이버 검색 경기지수를 도출 하였다. 분석결과에서는 네이버 검색 경기지수와 기존의 경제지표들과의 상관관계 분석을 진행하였으며 이때 네이버 검색 경기지수는 경기 실사지수와 상관관계가 높게 나타났으며 경기실사지수와 소비자심리지수를 혼합한 경제심리지수와 상관관계가 가장 높게 나온 것을 알 수 있었다. 또한 교차상관분석을 진행한 결과 네이버 검색 경기지수는 경제심리지수와 동행하면서 상관계수가 0.
소셜미디어 감성지수를 산출하기 위하여 국내 포털사이트(네이버/다음)의 블로그, 게시판, 뉴스, 카페에서 소비자 심리지수에 대응하는 검색어 경제, 가계, 수입, 소비, 지출, 살림살이, 생활형편의 키워드를 이용하여 데이터를 수집하고 이를 이용하여 감성분석을 진행하여 소셜미디어 감성지수를 도출하였다. 분석결과에서는 소셜미디어 감성지수와 소비자심리지수의 비교결과 역시 상관계수가 0.734로 강한 상관관계를 나타냈다. 그리고 특정 기간 월별 집계된 소셜미디어 감성지수와 소비자 심리지수는 추세가 유사하게 나타났으며 주별 소셜미디어 감성지수에서 세월호 사건 발생, 메르스 사망자 발생 주를 기점으로 감성지수의 하락이 크게 나타나는 것을 볼 수 있었다.
소비자심리지수(CCSI)에 합성되는 6개 개별 CSI는 경제지표와 상관성이 높고 선행성이 우수한 항목들로서 경제상황(현재경기판단지수, 향후경기전망지수), 생활형편(현재생활형편지수, 생활형편전망지수), 소득 및 소비(가계수입전망지수, 소비지출전망지수)에서 선별되었다. 각 개별지수는 어느 하나의 지수가 과도한 영향을 미치지 않도록 표준화 과정을 거친 후 단순 합산하여 장기표준화구간 내에서 평균이 100, 표준편차 10이 되도록 재 표준화 후 최종적으로 100을 기준으로 지수화 된다.
1 이상의 모든 어휘를 도출하고, 각 어휘들이 감성어휘로 적절한지 연구자들이 크로스 체크 방식으로 선별한다. 이러한 감성어휘 추출 과정을 거쳐, 생활형편 감성어휘는 선행조사에는 긍정3개, 부정 19개가 도출되고 수집데이터의 빈도분석과 연관성분석을 이용해 추가로 선별한 결과 긍정 73개, 부정 211개가 정의되었다.
후속연구
SNS를 비롯하여 블로그, 카페, 인터넷 쇼핑 등에서 생성되는 텍스트 데이터에는 소비자의 생각, 관심사, 라이프스타일, 선호 등 개인의 특정 기록들이 담겨 있으므로, 이를 실시간으로 수집하고 분석한다면 설문조사에서 드러나지 않는 개인의 직접적인 의견과 감정, 선호도 등을 알 수 있을 뿐만 아니라 조사와 분석에 소요되는 시간 또한 획기적으로 단축시킬 수 있을 것이다. 이에 본 연구는 기존의 설문조사 방식으로 이루어지던 소비자심리지수를 소셜미디어 빅데이터 분석을 통해 온라인 소비자감성지수를 개발하고자 하였다.
설문조사 항목에 대한 응답은 의식적인 판단이 개입되며, 무의식적인 마음에 대해서는 파악하기 어려운 면이 있으며,조사에 소요되는 시간과 비용 문제도 간과할 수가 없다. 때문에 인터넷과 소셜미디어에서 소비자들이 직접 표출하는 개인의 의견은 소비자의 생각과 마음을 파악하는데 매우 유용한 데이터가 될 수 있으며, 이를 실시간으로 수집하고 분석한다면 설문조사와 분석에 소요되는 시간 또한 획기적으로 단축시킬 수 있을 것이다.
96으로 매우 높게 나타나 경제심리지수를 대체할 수 있을 것으로 보이고 있으며 예측력 분석에서는 경제성장률과 민간소비증감률이 네이버 검색 경기지수와 어느 정도 밀접한 관계를 보이고 있어 네이버 검색 경기지수가 경제성장률과 민간소비의 당기 예측에 유용하게 이용 될 수 있음을 알 수 있다. 본 연구 결과 경제심리지수와 매우 밀접하게 움직이는 네이버 검색 경기지수는 주별로 작성되며 빠르게 데이터를 구할 수 있어 경제심리지수를 보완할 수 있는 지표로 활용될 수 있는 것으로 판단된다.
이러한 긍정적 결과와 함께 향후 연구에서는 보다 향상된 온라인 소비자감성지수의 개발이 요구되는데, 이를 위해서 적어도 수년 이상의 데이터를 분석하고 지수화하여 소비자심리지수 뿐만 아니라 다른 경제지표들과도 통계적인 비교 검증을 거칠 필요가 있다. 다른 한편으로는 감성사전을 개발함에 있어서 유니그램을 중심으로한 빈도분석, 연관성분석, 매뉴얼 검증을 보완할 수 있는 기술적 접근과 멀티그램 어휘자원의 검토도 이루어질 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
소비자동향조사의 장점은 무엇인가?
소비자동향지수(CSI:Consumer Survey Index) 역시 이러한 경제심리지표의 하나로서 소비자의 경제에 대한 현재 인식과 향후 전망 내용 등을 설문조사하는 소비자동향조사 결과를 지수화한 것이다[3]. 소비자동향조사는 소비지출규모 등 소비관련 양적 통계를 보완하는 경기판단 및 전망지표로 폭넓게 활용되고 있는데, 고정된 조사 대상자에게 정기적으로 설문조사를 실시함으로 응답거부율이 낮고 신속하게 조사가 이루어진다는 장점을 가지고 있다. 또한 기존의 계수 통계보다 넓은 범위의 정보를 제공하고 경기순환적인 측면을 쉽게 발견할 수 있어 경기순환에 대한 판단 및 예측에 적합한 지표로 활용되고 있다.
소비자동향지수란 무엇인가?
소비자동향지수(CSI:Consumer Survey Index) 역시 이러한 경제심리지표의 하나로서 소비자의 경제에 대한 현재 인식과 향후 전망 내용 등을 설문조사하는 소비자동향조사 결과를 지수화한 것이다[3]. 소비자동향조사는 소비지출규모 등 소비관련 양적 통계를 보완하는 경기판단 및 전망지표로 폭넓게 활용되고 있는데, 고정된 조사 대상자에게 정기적으로 설문조사를 실시함으로 응답거부율이 낮고 신속하게 조사가 이루어진다는 장점을 가지고 있다.
소비자동향조사에서 조사되는 항목에는 어떤것들이 있는가?
소비자동향조사에서 조사되는 항목은 크게는 다섯 가지 영역의 20여 가지 항목으로 구성되어있다. 먼저 경제 인식에 대한 조사에서는 현재 가계의 생활형편과 국내 경기에 대한 판단을 6개월 전과 비교한다. 다음으로 경제 전망은 향후 6개월 후의 생활형편과 국내경기, 취업기회, 금리수준을 묻는다. 소비지출전망 조사는 가계수입과 소비지출이 현재와 비교하여 어떻게 변화할지를 조사하며, 가계저축 및 부채에 대한 조사는 6개월 전과 비교하여 현재의 상황, 그리고 6개월 후의 예상치를 질의한다. 마지막으로 물가전망에 대한 조사는 현재와 비교하여 1년 후의 소비자물가 수준, 주택가격 수준, 근로임금 수준 전망과 물가상승의 1년 전후 상황을 조사한다.
참고문헌 (13)
K. Lerman, "Social Information Processing in News Aggregation," Internet Computing, IEEE, Vol. 11, No. 6, pp.16-28, 2007. http://dx.doi.org/10.1109/MIC.2007.136
H. S. Ryu, "A Study on Risk Perception and Communication via Social Media," The Korea Institute of Public Administration, Research Report Vol. 25, No. 3, 2013. https://www.kipa.re.kr
"Comprehension of Consumer Survey Index ", The Bank of Korea, 2014. http://www.bok.or.kr
P. J. H. Daas and M. J. H. Puts, "Social Media Sentiment and Consumer Confidence," European Central Bank, Statistics Paper Series No 5, 2014. https://www.ecb.europa.eu
Y. J. Hwang, "Consumer Survey using SNS Data", Statistics Korea, 2015 Research Paper, 2015. http://kostat.go.kr
G. H. Lee and S. P. Hwang, "Business Cycle Indicator Using Big Data: Compilation of the Naver Search Business Index", Economy Analysis of The Bank of Korea, Vol. 20, No. 4, 2014. 12, http://kiss.kstudy.com/journal
S. W. Kim and N. G. Kim, "A Study on the Effect of Using Sentiment Lexicon in Opinion Classification," Journal of Intelligent Information Systems, Vol. 20, No.1, pp.133-148, 2014. http://dx.doi.org/10.13088/jiis.2014.20.1.133
S. G. No. "Framework about ontology development," Korea Intell Inf Syst Soc, Vol. 11, No. 1, pp.141-148, 2009. https://www.dbpia.co.kr/Journal/
J. K. An and H. W. Kim, "Building a Korean Sentiment Lexicon Using Collective Intelligence," Journal of Intelligent Information Systems, Vol. 21, No. 2, pp.49-67, 2015. http://dx.doi.org/10.13088/jiis.2015.21.2.49
E. J. Yu, Y. Kim, N. Y. Kim and S. R. Jeong, "Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary," Journal of Intelligent Information Systems, Vol. 19, No.1,pp.95-10,2013. http://dx.doi.org/10.13088/jiis.2013.19.1.095
H. J. Jo, J. H. Seo and J. T. CHoi, "OAR Algorithm Technology Based on Opinion Mining Utilizing Stock News Contents," Journal of Korean Institute of Information Technology, Vol. 13, No. 2, pp. 111-119, 2015. https://www.kci.go.kr/
J. H. Kim, Y. J. Oh and S. H. Chae, "The Construction of a Domain-Specific Sentiment Dictionary Using Graph-based Semi-supervised Learning Method," Korean Journal of the Science of Emotion and Sensibility, Vol. 18, No. 4, pp.97-104, 2015. http://kiss.kstudy.com/journal
"Ontology Development 101: A Guide to Creating Your First Ontology," Stanford Knowledge Systems Laboratory Technical Report KSL-01-05, March 2001. http://www.ksl.stanford.edu/
※ AI-Helper는 부적절한 답변을 할 수 있습니다.