대중들의 소통의 창구로 자리매김 하고 있는 소셜 네트워크 서비스(SNS)에 작성된 글은 감성을 많이 포함하고 있다는 특징을 갖고 있다. 그 중 트위터는 공개 Application Programming Interface(API)를 통한 데이터의 수집이 편리하다는 장점을 지니고 있다. 본 논문에서는 트위터 상에 표현된 사용자들의 감성 정보를 통해 사회적 이슈를 분석하고 마케팅 분야 활용 가능성을 제시한다. 이는 국민 또는 소비자의 의견과 반응을 필요로 하는 정부, 기업 등에 도움이 될 수 있다. 본 논문에서는 최근 사회적 이슈에 대한 트위터 텍스트 데이터를 긍정 또는 부정으로 분류하여 질적 분석을 제공하였고, 각 트윗의 좋아요 수, 리트윗 수 등에 대한 상관관계 분석을 통해 양적분석을 제공하였다. 질적 분석의 결과로 국민의 지지를 얻기 위해 관세정책을 홍보하고, 버즈 사용자에게는 기술적 편의를 제공할 것을 제안하였다. 양적 분석의 결과, 트위터 사용자들의 관심을 끌기 위해서는 긍정적인 트윗을 짧고 간단하게 작성해야 함을 밝혔다. 데이터의 수집 기간이 짧고, 단 두 가지의 키워드만을 분석하여 일반화 가능성이 떨어지는 한계를 가져 향후, 보다 긴 기간의 다양한 사회적 이슈를 분석할 예정이다.
대중들의 소통의 창구로 자리매김 하고 있는 소셜 네트워크 서비스(SNS)에 작성된 글은 감성을 많이 포함하고 있다는 특징을 갖고 있다. 그 중 트위터는 공개 Application Programming Interface(API)를 통한 데이터의 수집이 편리하다는 장점을 지니고 있다. 본 논문에서는 트위터 상에 표현된 사용자들의 감성 정보를 통해 사회적 이슈를 분석하고 마케팅 분야 활용 가능성을 제시한다. 이는 국민 또는 소비자의 의견과 반응을 필요로 하는 정부, 기업 등에 도움이 될 수 있다. 본 논문에서는 최근 사회적 이슈에 대한 트위터 텍스트 데이터를 긍정 또는 부정으로 분류하여 질적 분석을 제공하였고, 각 트윗의 좋아요 수, 리트윗 수 등에 대한 상관관계 분석을 통해 양적분석을 제공하였다. 질적 분석의 결과로 국민의 지지를 얻기 위해 관세정책을 홍보하고, 버즈 사용자에게는 기술적 편의를 제공할 것을 제안하였다. 양적 분석의 결과, 트위터 사용자들의 관심을 끌기 위해서는 긍정적인 트윗을 짧고 간단하게 작성해야 함을 밝혔다. 데이터의 수집 기간이 짧고, 단 두 가지의 키워드만을 분석하여 일반화 가능성이 떨어지는 한계를 가져 향후, 보다 긴 기간의 다양한 사회적 이슈를 분석할 예정이다.
Recently, social network service (SNS) is actively used by public. Among them, Twitter has a lot of tweets including sentiment and it is convenient to collect data through open Aplication Programming Interface (API). In this paper, we analyze social issues and suggest the possibility of using them i...
Recently, social network service (SNS) is actively used by public. Among them, Twitter has a lot of tweets including sentiment and it is convenient to collect data through open Aplication Programming Interface (API). In this paper, we analyze social issues and suggest the possibility of using them in marketing through sentimental information of users. In this paper, we collect twitter text about social issues and classify as positive or negative by sentiment classifier to provide qualitative analysis. We provide a quantitative analysis by analyzing the correlation between the number of like and retweet of each tweet. As a result of the qualitative analysis, we suggest solutions to attract the interest of the public or consumers. As a result of the quantitative analysis, we conclude that the positive tweet should be brief to attract the users' attention on the Twitter. As future work, we will continue to analyze various social issues.
Recently, social network service (SNS) is actively used by public. Among them, Twitter has a lot of tweets including sentiment and it is convenient to collect data through open Aplication Programming Interface (API). In this paper, we analyze social issues and suggest the possibility of using them in marketing through sentimental information of users. In this paper, we collect twitter text about social issues and classify as positive or negative by sentiment classifier to provide qualitative analysis. We provide a quantitative analysis by analyzing the correlation between the number of like and retweet of each tweet. As a result of the qualitative analysis, we suggest solutions to attract the interest of the public or consumers. As a result of the quantitative analysis, we conclude that the positive tweet should be brief to attract the users' attention on the Twitter. As future work, we will continue to analyze various social issues.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
텍스트의 유사성을 근거로 인지적 반응, 정서적 반응, 상호작용, 구매의도, 제품애착도의 5가지로 범주화하였다. 각 트윗에 대한 질적 분석을 수행하고 마케팅에 활용할 수 있는 방안을 제시하였다. Lee 등[4]은 전자제품 갤럭시 기어 S2를 키워드로 하여 출시 전 트윗 1,377개, 출시 후 트윗 3,426개를 수집하였다.
Lee 등[4]은 전자제품 갤럭시 기어 S2를 키워드로 하여 출시 전 트윗 1,377개, 출시 후 트윗 3,426개를 수집하였다. 감성단어(좋다, 나쁘다)와 속성단어(배터리, 디자인)로 사람이 직접 구분하여 출현빈도가 높은 단어를 시각적으로 표현하였으며 제품에 대한 마케팅 전략을 제시하는데 도움을 주고자 하였다. Ahn 등[5]은 26,000여개의 트윗을 수집하고 167명의 성격정보를 설문으로 수집하였다.
감성분류를 통해 사용자들의 의견을 식별할 수 있다면 사용자들의 정치적, 사회적 선호도를 파악[3, 9]할 수 있을 뿐 아니라 사용자 맞춤형 서비스를 제공[4-6, 10]하거나 특정 SNS 계정의 활성화[7, 8] 등에도 사용될 수 있다. 따라서 본 논문에서는 감성분류기로 트위터 데이터를 감성(긍정 또는 부정) 분류하고 각 데이터가 갖는 특성을 분석하여 사회적 이슈를 고찰한다.
감성 외에도 좋아요, 리트윗 수에 영향을 미치는 요인을 알아보기 위해 트윗 길이, 특수문자 개수 등과 상관관계를 분석한 결과 트윗의 길이가 길수록 리트윗의 수가 적어진다는 결과를 얻었다. 또한 트럼프 정부 입장에서 국민들의 지지를 얻기 위해 어떤 태도를 취해야 하는지, 갤럭시 측에서 사용자들의 구매를 이끌기 위해 어떤 점을 개선해야 하는지에 대해 시사한다. 본 논문의 양적 분석 결과를 홍보 및 마케팅에 적용할 수 있는 방안은 다음과 같다.
본 논문에서는 SNS의 최근 게시글로부터 사용자들의 감성을 파악해 사회적 이슈를 분석한다. 또한 트윗과 사용자들의 관심 정도(좋아요, 리트윗)의 상관관계를 분석하여 홍보 및 마케팅에 활용될 수 있는 가능성을 제시한다.
이상의 선행연구들은 하나의 키워드를 분석 주제로 삼아 다양한 유형(감성, 정보 유형, 성격 유형)으로 분류하는 질적 분석을 수행하였으나 본 논문에서는 질적 분석과 양적 분석을 모두 제공한다. 본 논문은 두 가지의 다른 키워드를 분석 주제로 삼아 긍정 또는 부정으로 감성분류하고 그 결과에서 보이는 사회적 이슈를 질적 분석하여 사용자들의 의사결정에 도움을 주는 결과를 도출한다. 또한 트윗의 특성(길이, 특수문자 유무 등)과 트윗의 관심도(좋아요, 리트윗)의 상관관계를 수치적으로 해석하여 그 결과를 홍보 및 마케팅에 적용시킬 수 있는 가능성을 제시한다.
이미 외국에서는 국가 차원에서 ‘이슈 스캐닝’을 활용하여 현재 사회가 당면한 여러 이슈들에 대한 과학적인 파악을 수행하고 있다[16]. 이와 같이 사회 이슈를 분석하는 일은 현대 사회에서 매우 중요하기 때문에 본 논문에서는 트위터 데이터를 감성 분류하여 분석함으로써 사회 이슈 분석에 대한 가능성이 있음을 제시하였다.
제안 방법
또한 트윗의 특성(길이, 특수문자 유무 등)과 트윗의 관심도(좋아요, 리트윗)의 상관관계를 수치적으로 해석하여 그 결과를 홍보 및 마케팅에 적용시킬 수 있는 가능성을 제시한다. Hong 등[6]의 연구와 같이 감성 분류 모델을 훈련시키는데 사용한 데이터와는 유사한 성격을 가지는 다른 종류의 데이터를 적용시켜 분석하였다.
영화리뷰 데이터로 학습된 CNN 감성 분류기를 수집된 트위터 데이터에 적용하여 긍정 또는 부정으로 감성 분류를 수행하였다. 감성 별로 빈번하게 등장하는 단어를 워드클라우드를 통해 시각화하였고, 빈도가 높은 단어들을 포함하는 트윗 중 사회 이슈를 포함하는 트윗을 분석하였다. 즉, 긍정 트윗을 통해 추구해야하는 점을, 부정 트윗을 통해 개선해야 하는 점을 시사한다.
감성분석에서 not의 중요성이 크기 때문에 isn't를 is not으로, can’t를 can not으로 변환하였다. 공백 기준으로 단어를 구분하고 불용어를 삭제하였다. 본 논문에서는 1-gram 사전을 사용하였으며, 사전을 구축하기 위해 영화리뷰 데이터의 모든 단어와 각 키워드에 해당하는 트위터 데이터의 모든 단어를 합하였다.
81%의 매칭률을 얻었다. 구축한 감성사전을 트윗에 적용하였고,긍정, 부정 트윗의 감성 키워드를 출현빈도를 기준으로 하여 시각적으로 제공하여 유의미한 결과를 도출하였다. 비정형 교통데이터를 교통정보 전달 매체 및 사용자 감성 모니터링 매체로서 활용할 것을 제안하였다.
본 논문에서는 여러 딥러닝 분류기 중 텍스트 감성 분류에 적합한 CNN을 사용하여 트위터 데이터를 감성 분류하였다. 긍정, 부정 트윗에 대하여 각각 단어의 출현빈도순으로 시각적 정보를 제공하고, 좋아요(like) 수와 리트윗(retweet) 수에 대한 수치적 해석을 제공하여 사회적 이슈를 분석하는 질적 분석과 양적분석 모두를 제공한다.
긍정으로 분류된 트윗과 부정으로 분류된 트윗에 대하여 워드클라우드로 나타낸 후, 빈도가 높은 단어를 포함하는 트윗을 골라내어 긍정 혹은 부정 트윗인지에 대한 질적 분석을 수행하였다. 또한 긍정 트윗과 부정 트윗의 좋아요 수, 리트윗 수 평균 값과 표준편차 값을 분석하여 부정 트윗의 경우 좋아요 수가 높은 반면 긍정 트윗의 경우 리트윗 수가 더 크다는 결과를 도출하였고, 이를 기반으로 SNS상에서 많은 관심을 얻기 위해서는 긍정적인 트윗을 작성해야 한다는 양적 분석 결과를 제공하였다.
미국의 국가기록관인 NARA와 영국의 TNA, 호주의 NAA, 우리나라의 국립기록원을 비교하였다. 뉴스 및 업데이트, 외부 정보 제공, 채용공고 등 6가지 정보 유형으로 분류하여 분석하였다. 또한 시간의 흐름에 따른 트위터 운용 현황 및 이용자의 반응 추이를 살펴보고자 시계열 분석을 진행하였다.
Kill, devil과 같이 부정적인 단어도 존재하지만, 부정적인 성격을 띄지 않는 단어, 즉 break, remark와 같은 단어도 존재한다. 따라서 각 단어가 포함된 트윗이 실제로 부정적인 트윗인지 알아보기 위해 Table 3와 같이 빈도순으로 상위 10개의 부정단어를 포함한 트윗 중 사회 이슈를 포함하는 트윗들을 직접 감성 분석해보았다 . 트럼프에 대한 지지율을 높이기 위한 부정적인 여론조사에 불만을 가지는 경우도 있고, 수백만 명의 미등록 이민자의 대량 추방에 대한 언급도 존재했다.
Suck, shit과 같이 부정적인 단어도 존재하지만, stay, issue와 같이 단어 자체가 부정적인 성격을 지니지 않는 단어도 존재한다. 따라서 각 단어가 포함된 트윗이 실제로 부정적인 트윗인지 알아보기 위해 Table 5와 같이 빈도순으로 상위 10개의 부정단어를 포함한 트윗 중 사회 이슈를 포함하는 트윗들을 직접 감성 분석해보았다 . 갤럭시의 보상 프로그램에 불만을 가지기도 했으며, 품절되어 구매 할 수 없다는 의견도 있었다.
따라서 갤럭시 버즈에 대한 소비자들의 평판을 알아보기 위해 "Galaxy Buds" 또는 "GalaxyBuds"를 키워드로 사용하였다.
따라서 정치 분야에서는 트럼프 정부에 대한 대중들의 감성을 파악하기 위해 "Trump"를 키워드로 사용하였다.
뉴스 및 업데이트, 외부 정보 제공, 채용공고 등 6가지 정보 유형으로 분류하여 분석하였다. 또한 시간의 흐름에 따른 트위터 운용 현황 및 이용자의 반응 추이를 살펴보고자 시계열 분석을 진행하였다. 이미지 및 해시태그의 사용으로 국가기록원 계정이 활성화될 수 있다는 결론을 제공하였다.
즉, 영화리뷰 데이터에 포함된 모든 단어 9,396개와 Trump를 키워드로 하는 데이터에 포함된 모든 단어 16,246개를 결합하고 중복된 단어는 하나만 남기도록 하여 총 20,166개의 단어로 사전을 구축하였다. 또한, 영화리뷰 데이터에 포함된 모든 단어 9,396개와 Galaxy Buds 또는 GalaxyBuds를 키워드로 하는 데이터에 포함된 모든 단어 6,368개를 결합하고 중복된 단어는 하나만 남기도록 하여 총 13,474개의 단어로 사전을 구축하였다.
Gang 등[7]은 4개국의 국가기록관에서 작성한 트윗과 트윗 수, 리트윗 수, 좋아요 수를 수집하여 정보유형 분석 및 시계열 분석을 수행하였다. 미국의 국가기록관인 NARA와 영국의 TNA, 호주의 NAA, 우리나라의 국립기록원을 비교하였다. 뉴스 및 업데이트, 외부 정보 제공, 채용공고 등 6가지 정보 유형으로 분류하여 분석하였다.
공백 기준으로 단어를 구분하고 불용어를 삭제하였다. 본 논문에서는 1-gram 사전을 사용하였으며, 사전을 구축하기 위해 영화리뷰 데이터의 모든 단어와 각 키워드에 해당하는 트위터 데이터의 모든 단어를 합하였다. Hong 등[6]은 한국도로공사의 Voice of Customer(VOC)와 트위터 데이터를 결합하여 감성사전을 구축하였으며, 이를 트위터 데이터에 적용시켜 유의미한 결과를 보였다.
딥러닝의 경우 자동으로 임의의 자질을 추출하며 머신러닝과 비교했을 때 더 높은 성능을 보인다. 본 논문에서는 딥러닝을 사용하여 트위터 데이터를 감성(긍정, 부정)으로 분류하고, 질적 분석을 수행하여 사회적 이슈를 다룬다.
본 논문에서는 여러 딥러닝 분류기 중 텍스트 감성 분류에 적합한 CNN을 사용하여 트위터 데이터를 감성 분류하였다. 긍정, 부정 트윗에 대하여 각각 단어의 출현빈도순으로 시각적 정보를 제공하고, 좋아요(like) 수와 리트윗(retweet) 수에 대한 수치적 해석을 제공하여 사회적 이슈를 분석하는 질적 분석과 양적분석 모두를 제공한다.
대부분의 트위터 데이터 분석 연구는 사람이 직접 감성 혹은 성별, 정보 유형(정보적, 교육적, 오락적 등), 성격 유형(성실성, 외향성, 친화성 등)에 따라 분류하여 질적 분석을 수행하거나, 분류기를 사용하여 높은 성능을 내는 양적분석을 수행한다. 본 논문에서는 트위터 데이터에 분류기를 적용하여 긍정 또는 부정으로 분류하는 질적 분석을 수행하였고, 트윗의 특성(트윗 길이, 특수문자 유무 등)과 트윗의 관심도(좋아요, 리트윗)의 상관관계를 수치적으로 해석하는 양적분석을 모두 수행했다.
본 논문에서는 트위터에서 제공하는 공개 API를 통해 정치 및 최신 기술 분야에서 이슈가 되고 있는 두 가지 키워드 (Trump, Galaxy buds)를 포함한 트위터 데이터를 수집하여 사용자들의 의견을 식별하였다. 영화리뷰 데이터로 학습된 CNN 감성 분류기를 수집된 트위터 데이터에 적용하여 긍정 또는 부정으로 감성 분류를 수행하였다.
Jung 등[3]은 ‘세월호 사건’을 키워드로 한 트윗 560만 건의 본문, 리트윗 수, 사용자 계정을 수집하였다. 사용자 계정 정보를 사용하여 이용자 집단을 식별하고 집단 간 공통 단어를 추출하였다. Word2vec[17]을 사용하여 분석하고 동일 단어에 대한 집단 간 의미론적 차이를 분석하였다.
수집 및 전처리를 수행한 데이터를 분류기에 적용하여 감성 분류를 하였다. Kim 등[28]이 사용한 CNN모델은 영화리뷰 데이터로 학습되었으며, 다음과 같이 구성된다.
Gang 등[8]은 우리나라의 국가기록원과 대통력 기록관의 트윗과 트윗 수, 리트윗 수, 좋아요 수, 작성 일자를 수집하여 데이터로 사용하였다. 시기별 사회적 이슈와 트윗의 상관관계를 분석하여 이용자의 관심도를 밝혔다. 사회적 이슈를 포함한 게시글을 활발하게 업로드한다면 사용자들의 관심을 끌 수 있다는 결론을 제시하였다.
본 논문에서는 트위터에서 제공하는 공개 API를 통해 정치 및 최신 기술 분야에서 이슈가 되고 있는 두 가지 키워드 (Trump, Galaxy buds)를 포함한 트위터 데이터를 수집하여 사용자들의 의견을 식별하였다. 영화리뷰 데이터로 학습된 CNN 감성 분류기를 수집된 트위터 데이터에 적용하여 긍정 또는 부정으로 감성 분류를 수행하였다. 감성 별로 빈번하게 등장하는 단어를 워드클라우드를 통해 시각화하였고, 빈도가 높은 단어들을 포함하는 트윗 중 사회 이슈를 포함하는 트윗을 분석하였다.
트위터 데이터에는 사용자들의 감성표현이 많이 포함되어 있으므로 감성을 분석한 결과는 맞춤형 서비스 제공과 같은 마케팅이나 SNS 계정 활성화 등 다양한 분야에 활용될 수 있다. 이상의 선행연구들은 하나의 키워드를 분석 주제로 삼아 다양한 유형(감성, 정보 유형, 성격 유형)으로 분류하는 질적 분석을 수행하였으나 본 논문에서는 질적 분석과 양적 분석을 모두 제공한다. 본 논문은 두 가지의 다른 키워드를 분석 주제로 삼아 긍정 또는 부정으로 감성분류하고 그 결과에서 보이는 사회적 이슈를 질적 분석하여 사용자들의 의사결정에 도움을 주는 결과를 도출한다.
Hong 등[6]은 한국도로공사의 Voice of Customer(VOC)와 트위터 데이터를 결합하여 감성사전을 구축하였으며, 이를 트위터 데이터에 적용시켜 유의미한 결과를 보였다. 이처럼 본 논문에서도 영화리뷰 데이터와 트위터 데이터를 결합하여 감성사전을 구축하였고, 영화리뷰 데이터로 훈련시킨 감성 분류기를 트위터 데이터에 적용하여 유의미한 결과를 도출하였다. 영화리뷰 데이터는 본 논문에서 감성 분류를 위해 사용한 CNN 모델을 학습시키는데 사용되었으며, Hong 등[6]에서 사용한 VOC 데이터와 트위터 데이터의 공통점과 같이, 작성자의 개인적인 의견 및 감성을 담고 있다는 점에서 트위터 데이터의 특성과 일치한다.
Ahn 등[5]은 26,000여개의 트윗을 수집하고 167명의 성격정보를 설문으로 수집하였다. 주성분분석[18]을 통해 트윗을 10개의 요인으로 분류하였고, 사용자 성격을 경험개방성, 성실성, 신경증, 외향성, 친화성으로 분류하여 트윗과의 상관관계를 분석하였다. 사용자 성격에 따른 맞춤형 서비스나 정보를 제공하여 가치를 창출할 수 있다는 점에서 의의가 있는 연구이다.
따라서 영화리뷰 데이터 사전에도 감성단어가 다수 포함되어 있으므로 트위터 데이터 사전과 결합하여 사용하였다. 즉, 영화리뷰 데이터에 포함된 모든 단어 9,396개와 Trump를 키워드로 하는 데이터에 포함된 모든 단어 16,246개를 결합하고 중복된 단어는 하나만 남기도록 하여 총 20,166개의 단어로 사전을 구축하였다. 또한, 영화리뷰 데이터에 포함된 모든 단어 9,396개와 Galaxy Buds 또는 GalaxyBuds를 키워드로 하는 데이터에 포함된 모든 단어 6,368개를 결합하고 중복된 단어는 하나만 남기도록 하여 총 13,474개의 단어로 사전을 구축하였다.
Hong 등[10]은 나이키 신제품 신발을 키워드로 한 78개의 트윗을 수집하였다. 텍스트의 유사성을 근거로 인지적 반응, 정서적 반응, 상호작용, 구매의도, 제품애착도의 5가지로 범주화하였다. 각 트윗에 대한 질적 분석을 수행하고 마케팅에 활용할 수 있는 방안을 제시하였다.
Lee 등[9]은 약 100만개의 트윗을 수집하여 명사만을 추출해 분석에 사용하였다. 토픽모델링의 한 종류인 잠재 디리클레 할당(LDA)을 사용하여 15개의 토픽으로 군집화하였다. 추출된 토픽과 사회현상을 비교한 결과 트위터 메시지에는 사회적 이슈를 나타내는 주제가 들어있음을 확인하였다.
모든 단어를 소문자와 했으며, http로 시작하는 구문은 [URL]로,숫자는 [NUM], @로 시작하는 구문은 [NAME]으로 변환하였다. 특수문자는 [SPE]로 변환하였고 두 번이상의 공백 및 탭은 삭제하였다. 감성분석에서 not의 중요성이 크기 때문에 isn't를 is not으로, can’t를 can not으로 변환하였다.
파이썬 모듈 tweepy[30]를 사용하여 6월 17일 ~ 6월 24일, 8월 23일 ~ 9월 6일 기간 내의 트윗 중에 특정 키워드를 포함하는 트윗을 크롤링하였다. 정치 분야 및 기술 분야에 대한 대중들의 의견을 알아보고 사회이슈를 분석하기 위해 특정 키워드를 대상으로 실험을 수행하였다.
대상 데이터
“Galaxy Buds”를 포함한 트윗 13,775개의 본문, 좋아요 수, 리트윗 수를 수집하였고, 중복 트윗을 제외했을 때, 4,142개의 데이터를 얻었다.
“Trump”를 포함한 트윗 20,689개의 본문, 좋아요수, 리트윗 수를 수집하였고, 중복트윗을 제외했을 때, 9,437개의 데이터를 얻었다.
영화리뷰 데이터는 본 논문에서 감성 분류를 위해 사용한 CNN 모델을 학습시키는데 사용되었으며, Hong 등[6]에서 사용한 VOC 데이터와 트위터 데이터의 공통점과 같이, 작성자의 개인적인 의견 및 감성을 담고 있다는 점에서 트위터 데이터의 특성과 일치한다. 따라서 영화리뷰 데이터 사전에도 감성단어가 다수 포함되어 있으므로 트위터 데이터 사전과 결합하여 사용하였다. 즉, 영화리뷰 데이터에 포함된 모든 단어 9,396개와 Trump를 키워드로 하는 데이터에 포함된 모든 단어 16,246개를 결합하고 중복된 단어는 하나만 남기도록 하여 총 20,166개의 단어로 사전을 구축하였다.
따라서 정치 분야에서는 트럼프 정부에 대한 대중들의 감성을 파악하기 위해 "Trump"를 키워드로 사용하였다. 또한, 최신 기술 분야에서는 출시 전부터 인기검색어에 오르며 큰 관심을 얻고 있는 삼성의 블루투스기기 갤럭시 버즈를 키워드로 삼았다. 갤럭시 버즈는출시 5일만에 품절현상을 겪고, 미국 유력 소비자 전문매체 컨슈머리포트(CR)의 무선이어폰 평가에서 1위를 달성하는 등 하나의 큰 이슈가 되었다2).
파이썬 모듈 tweepy[30]를 사용하여 6월 17일 ~ 6월 24일, 8월 23일 ~ 9월 6일 기간 내의 트윗 중에 특정 키워드를 포함하는 트윗을 크롤링하였다. 정치 분야 및 기술 분야에 대한 대중들의 의견을 알아보고 사회이슈를 분석하기 위해 특정 키워드를 대상으로 실험을 수행하였다. 미국의 트럼프 대통령은 6천 만 명의 팔로워를 갖고 있고, 월 평균 153건의 트윗을 게시하는 등 트위터를 활발하게 사용하고 있다1).
데이터처리
사용자 계정 정보를 사용하여 이용자 집단을 식별하고 집단 간 공통 단어를 추출하였다. Word2vec[17]을 사용하여 분석하고 동일 단어에 대한 집단 간 의미론적 차이를 분석하였다. 진보성향을 가진 사용자가 트위터에서 활발히 활동하고 더 큰 영향력을 가진다는 분석 결과를 보였다.
Table 9과 Table 10는 “Trump”와 “Galaxy Buds”를 키워드로 하는 트윗의 좋아요 수(like)와 리트윗 수(retweet), 트윗의 알파벳 개수(alphabet), 단어 개수(word), 특수문자 개수(special)의 상관관계를 분석한 결과이다. 먼저 트윗의 좋아요 수와 리트윗 수, 트윗의 알파벳 개수, 단어 개수,특수문자 개수를 0에서 1 사이의 값으로 정규화하고,각 변수들 간의 상관 정도를 -1에서 1 사이의 값으로 표현하는 피어슨 상관계수를 사용하여 상관관계를 분석하였다. 예를 들어, Table 9에서 트윗의 알파벳 개수(alphabet)와 리트윗 수(retweet)의 상관계수는 –0.
이론/모형
출력층을 제외한 모든 층의 활성화 함수로 Rectified Linear Unit (Relu)[31]를 채택하였고, 출력층의 활성화 함수는 Softmax를 사용하였다. 0.001의 초기 학습률을 가지는 Adam optimizer[32]를 사용하였고, 완전 연결층의 가중치 행렬에 0.001을 곱하여 전체 손실에 더하는 L2-regularization을 사용하였다. 위와 같은 모델로 트위터 데이터를 긍정, 부정으로 분류하였다.
따라서 단어 하나하나가 아닌 몇 가지 주요 키워드 조합으로 표현되는 감성분류에 활용되기 적합하다[28, 29]. 또한 CNN은 RNN에 비해 적은 양의 데이터로 학습이 가능하므로 본 논문에서는 최근에 수행된 Kim 등[28]의 CNN을 트위터 데이터를 분류하는데 사용하였다.
풀링 크기는 2, 필터 간격은 1로 지정하였다. 출력층을 제외한 모든 층의 활성화 함수로 Rectified Linear Unit (Relu)[31]를 채택하였고, 출력층의 활성화 함수는 Softmax를 사용하였다. 0.
성능/효과
또한, 감성 별 트윗의 좋아요 수와 리트윗 수의 관계를 분석한 결과 긍정 트윗이 리트윗 수가 높으며, 부정 트윗이 좋아요 수가 높다는 결과를 보였다. 감성 외에도 좋아요, 리트윗 수에 영향을 미치는 요인을 알아보기 위해 트윗 길이, 특수문자 개수 등과 상관관계를 분석한 결과 트윗의 길이가 길수록 리트윗의 수가 적어진다는 결과를 얻었다. 또한 트럼프 정부 입장에서 국민들의 지지를 얻기 위해 어떤 태도를 취해야 하는지, 갤럭시 측에서 사용자들의 구매를 이끌기 위해 어떤 점을 개선해야 하는지에 대해 시사한다.
긍정으로 분류된 트윗과 부정으로 분류된 트윗에 대하여 워드클라우드로 나타낸 후, 빈도가 높은 단어를 포함하는 트윗을 골라내어 긍정 혹은 부정 트윗인지에 대한 질적 분석을 수행하였다. 또한 긍정 트윗과 부정 트윗의 좋아요 수, 리트윗 수 평균 값과 표준편차 값을 분석하여 부정 트윗의 경우 좋아요 수가 높은 반면 긍정 트윗의 경우 리트윗 수가 더 크다는 결과를 도출하였고, 이를 기반으로 SNS상에서 많은 관심을 얻기 위해서는 긍정적인 트윗을 작성해야 한다는 양적 분석 결과를 제공하였다.
즉, 긍정 트윗을 통해 추구해야하는 점을, 부정 트윗을 통해 개선해야 하는 점을 시사한다. 또한, 감성 별 트윗의 좋아요 수와 리트윗 수의 관계를 분석한 결과 긍정 트윗이 리트윗 수가 높으며, 부정 트윗이 좋아요 수가 높다는 결과를 보였다. 감성 외에도 좋아요, 리트윗 수에 영향을 미치는 요인을 알아보기 위해 트윗 길이, 특수문자 개수 등과 상관관계를 분석한 결과 트윗의 길이가 길수록 리트윗의 수가 적어진다는 결과를 얻었다.
특히, 갤럭시 버즈가 잘 작동하지 않는 일에 대해 불만을 가지는 목소리가 많았다. 분석 결과 단어 자체로는 부정적인 의미를 갖지 않는 단어라도, 이 단어를 포함하는 트윗들이 부정적인 성격을 띄는 경향이 있음을 알 수 있었다.
대통령직을 잃을 위험 또는 이슬람 혐오증을 언급하며 비난하는 트윗도 존재했다. 분석 결과단어 자체로는 부정적인 의미를 지니지 않는 단어들도,이 단어를 포함하는 트윗들이 부정적인 성격을 띠는 경향이 있음을 알 수 있었다.
시기별 사회적 이슈와 트윗의 상관관계를 분석하여 이용자의 관심도를 밝혔다. 사회적 이슈를 포함한 게시글을 활발하게 업로드한다면 사용자들의 관심을 끌 수 있다는 결론을 제시하였다.
Hong 등[6]은 한국도로공사의 Voice of Customer (VOC) 데이터 1,031건과 트위터 데이터 138건을 수집하여 사용하였다. 수집한 데이터로 감성사전을 구축하고 사전을 활용하여 각 데이터의 감성을 판단하였고, 76.81%의 매칭률을 얻었다. 구축한 감성사전을 트윗에 적용하였고,긍정, 부정 트윗의 감성 키워드를 출현빈도를 기준으로 하여 시각적으로 제공하여 유의미한 결과를 도출하였다.
또한 시간의 흐름에 따른 트위터 운용 현황 및 이용자의 반응 추이를 살펴보고자 시계열 분석을 진행하였다. 이미지 및 해시태그의 사용으로 국가기록원 계정이 활성화될 수 있다는 결론을 제공하였다. Gang 등[8]은 우리나라의 국가기록원과 대통력 기록관의 트윗과 트윗 수, 리트윗 수, 좋아요 수, 작성 일자를 수집하여 데이터로 사용하였다.
본 논문의 양적 분석 결과를 홍보 및 마케팅에 적용할 수 있는 방안은 다음과 같다. 좋아요에 비해 더 많은 사용자들에게 노출될 수 있는 리트윗의 수를 높게 하기 위해서는 긍정적인 의미를 담은 트윗을 짧고 간단하게 작성해야한다는 결론을 제공한다.
또한 트럼프의 관세정책에 대해 칭찬하는 트윗도 존재했다. 즉, 긍정 트윗에 자주 등장하는 단어를 포함하는 대부분의 트윗은 긍정적인 트윗임을 알 수 있었다.
Word2vec[17]을 사용하여 분석하고 동일 단어에 대한 집단 간 의미론적 차이를 분석하였다. 진보성향을 가진 사용자가 트위터에서 활발히 활동하고 더 큰 영향력을 가진다는 분석 결과를 보였다.
토픽모델링의 한 종류인 잠재 디리클레 할당(LDA)을 사용하여 15개의 토픽으로 군집화하였다. 추출된 토픽과 사회현상을 비교한 결과 트위터 메시지에는 사회적 이슈를 나타내는 주제가 들어있음을 확인하였다. Jung 등[3]은 ‘세월호 사건’을 키워드로 한 트윗 560만 건의 본문, 리트윗 수, 사용자 계정을 수집하였다.
후속연구
그러나 데이터의 수집 기간이 짧은 점과 단 두 가지의 키워드만을 분석했다는 점에서 제시된 결과가 일반화 될 수 없다는 한계점을 가지고 있다. 따라서 향후 연구로는 한 달 또는 그 이상의 기간 동안 쓰인 트윗을 데이터로 사용하며, 더 많은 키워드를 기준으로 데이터를 수집하여 폭넓은 연구를 수행할 예정이다.
그러나 데이터의 수집 기간이 짧은 점과 단 두 가지의 키워드만을 분석했다는 점에서 제시된 결과가 일반화 될 수 없다는 한계점을 가지고 있다. 따라서 향후 연구로는 한 달 또는 그 이상의 기간 동안 쓰인 트윗을 데이터로 사용하며, 더 많은 키워드를 기준으로 데이터를 수집하여 폭넓은 연구를 수행할 예정이다.
본 논문에서는 SNS의 최근 게시글로부터 사용자들의 감성을 파악해 사회적 이슈를 분석한다. 또한 트윗과 사용자들의 관심 정도(좋아요, 리트윗)의 상관관계를 분석하여 홍보 및 마케팅에 활용될 수 있는 가능성을 제시한다. (1) 데이터 수집 및 전처리 단계, (2) 감성 분류 단계, (3) 시각화 및 수치적 해석 단계로 구성된다.
본 논문은 두 가지의 다른 키워드를 분석 주제로 삼아 긍정 또는 부정으로 감성분류하고 그 결과에서 보이는 사회적 이슈를 질적 분석하여 사용자들의 의사결정에 도움을 주는 결과를 도출한다. 또한 트윗의 특성(길이, 특수문자 유무 등)과 트윗의 관심도(좋아요, 리트윗)의 상관관계를 수치적으로 해석하여 그 결과를 홍보 및 마케팅에 적용시킬 수 있는 가능성을 제시한다. Hong 등[6]의 연구와 같이 감성 분류 모델을 훈련시키는데 사용한 데이터와는 유사한 성격을 가지는 다른 종류의 데이터를 적용시켜 분석하였다.
구축한 감성사전을 트윗에 적용하였고,긍정, 부정 트윗의 감성 키워드를 출현빈도를 기준으로 하여 시각적으로 제공하여 유의미한 결과를 도출하였다. 비정형 교통데이터를 교통정보 전달 매체 및 사용자 감성 모니터링 매체로서 활용할 것을 제안하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
트위터의 장점은?
대중들의 소통의 창구로 자리매김 하고 있는 소셜 네트워크 서비스(SNS)에 작성된 글은 감성을 많이 포함하고 있다는 특징을 갖고 있다. 그 중 트위터는 공개 Application Programming Interface(API)를 통한 데이터의 수집이 편리하다는 장점을 지니고 있다. 본 논문에서는 트위터 상에 표현된 사용자들의 감성 정보를 통해 사회적 이슈를 분석하고 마케팅 분야 활용 가능성을 제시한다.
사회적 이슈에 대한 트위터 텍스트 데이터 분석 결과는?
질적 분석의 결과로 국민의 지지를 얻기 위해 관세정책을 홍보하고, 버즈 사용자에게는 기술적 편의를 제공할 것을 제안하였다. 양적 분석의 결과, 트위터 사용자들의 관심을 끌기 위해서는 긍정적인 트윗을 짧고 간단하게 작성해야 함을 밝혔다. 데이터의 수집 기간이 짧고, 단 두 가지의 키워드만을 분석하여 일반화 가능성이 떨어지는 한계를 가져 향후, 보다 긴 기간의 다양한 사회적 이슈를 분석할 예정이다.
SNS 사용자의 특징은?
SNS 사용자들은 프로슈머(prosumer)로써 정보의 생산과 소비의 중심에 서 있다. 즉, 생산과 소비를 동시에 주도하고 있으며, 모바일의 발달로 인해 그 정보들은 실시간으로 생산 및 공유가 가능해지고 있다[11].
참고문헌 (32)
C. W. Choi. (2011). Development Process and Major Cases of SNS. Industrial Engineering Magazine, 18(1), 20-23.
Wikipedia Contributors. (2019, July 11). Social networking service. Retrieved July 16, 2019, from Wikipedia website: https://en.wikipedia.org/wiki/Social_networking_service
H. Jung, J. Bae, S. Hong, C. Park, & M. Song. (2016). Analysis of Twitter Public Opinion in Different Political Views. Korean Journal of Journalism and Communication Studies, 60(2), 269-302.
J. Lee & H. Park. (2016). Comparing Customer Reactions Before and After of a Smart Watch Release through Opinion Mining. The Korean journal of bigdata, 1(1), 1-7.
H. J. Ahn. (2016). The Relationship between Personality and the Behavior of Using Twitter of Korean Users. Journal of Korean Institute of Information Technology, 14(1), 171-177.
D. Hong, H. Jeong, S. Park, E. Han, H. Kim & I. Yun. (2017). Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis. Journal of The Korea Institute of Intelligent Transport Systems, 16(6), 141-155.
J. Y. Gang, T. Y. Kim, J. W. Choi & H. J. Oh. (2016). A Study on the Vitalization Strategy Based on Current Status Analysis of National Archives. Journal of the Korean society for information management, 33(3), 263-285.
J. Y. Gang, T. Y. Kim, J. W. Choi & H. J. Oh. (2016). A Study on Social Media Usage of Government Archival Services and Users' Interestedness: Focused on "National Archives of Korea" and "Presidential Archives". Journal of the Korean society for information management, 33(2), 135-156.
R. D. Lee, J. M. Kim & J. S. Lim. (2016). Analysis of Twitter Topic using LDA. The Journal of Korean Institute of Communications and Information Sciences, 1010-1011.
J. Hong & S. Choi. (2016). Consumers' Responses toward New Nike Product in Twitter Messages. Journal Korea Society of Visual Design Forum, 50, 73-84.
J. H. Bae, J. E. Son & M. Song. (2013). Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques. Journal of Intelligence and Information Systems, 19(3), 141-156. DOI : 10.13088/jiis.2013.19.3.141
C. H. Lee, J. Hur, H. J. Oh, H. J. Kim, P. M. Ryu & H. K. Kim. (2013). Technology trends of issue detection and predictive analysis on social big data. Electronics and Telecommunications Trends, 28(1), 62-71.
M. Y. Chong. (2015). Selecting a key issue through association analysis of realtime search words. Journal of Digital Convergence, 13(12), 161-169. DOI : 10.14400/jdc.2015.13.12.161
Y. J. Ham, C. W. Ahn, K. H. Kim, G. B. Park, K. J. Kim, D. Y. Lee & S. M. Park. (2014). A Study on Policy Priorities for Implementing Big Data Analytics in the Social Security Sector : Adopting AHP Methodology. Journal of Digital Convergence, 12(8), 49-60. DOI : 10.14400/jdc.2014.12.8.49
M. Y. Chong. (2016). Extracting week key issues and analyzing differences from realtime search keywords of portal sites. Journal of Digital Convergence, 14(12), 237-243. DOI : 10.14400/jdc.2016.14.12.237
T. Y. Kim, Y. Kim & H. J. Oh. (2017). An Analysis of the Relationship between Public Opinion on Social Bigdata and Results after Implementation of Public Policies: A Case Study in "Welfare" Policy. Journal of Digital Convergence, 15(3), 17-25. DOI : 10.14400/jdc.2017.15.3.17
Google Code Archive - Long-term storage for Google Code Project Hosting. (2019). word2vec. Retrieved July 16, 2019, from Google.com website: https://code.google.com/p/word2vec/
H. Abdi & L. Williams. (2010). Principal Component Analysis. Wiley Interdisciplinary Reviews: Computational Statistics, 2(4), 433-459.
S. Lai, L. Xiu, K. Liu & J. Zhao. (2015). Recurrent Convolutional Neural Networks for Text Classification. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence (pp. 2267-2273). Austin, Texas : Association for the Advancement of Artificial Intelligence.
Y. Kim. (2014). Convolutional Neural Networks for Sentence Classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (pp. 1746-1751). Doha, Qatar : Association for Computational Linguistics.
K. Nal, E. Grefenstette & P. Blunsom. (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pp. 655-665). Baltimore, Maryland, USA : Association for Computational Linguistics.
T. Lei, R. Barzilay & T. Jaakkola. (2015). Molding CNNs for text: non-linear, non-consecutive convolutions. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 1565-1575). Lisbon, Portugal : Association for Computational Linguistics.
D. Tang, B. Qin & T. Liu. (2016). Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 1422-1432). Lisbon, Portugal : Association for Computational Linguistics.
Q. Qian, M. Huang, J. Lei & X. Zhu. (2016). Linguistically Regularized LSTM for Sentiment Classification. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 1679-1689). Vancouver, Canada. : Association for Computational Linguistics.
J. Chung, C. Gulcehre, K. Cho & Y. Bengio. (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. Retrieved from https://arxiv.org/pdf/1412.3555.pdf
M. Huang, Y. Cao & C. Dong. (2016). Modeling Rich Contexts for Sentiment Classification with LSTM. Retrieved from https://arxiv.org/pdf/1605.01478.pdf
Y. Zhang, Z. Zhang, D. Miao & J. Wang. (2019). Three-way enhanced convolutional neural networks for sentence-level sentiment classification. Information Sciences, 477, 55-64. DOI : 10.1016/j.ins.2018.10.030
M. K. Kwon & H. S. Yang. (2017). Performance Improvement of Object Recognition System in Broadcast Media Using Hierarchical CNN. Journal of Digital Convergence, 15(3), 201-209. DOI : 10.14400/jdc.2017.15.3.201
Tweepy. (2019). Retrieved July 16, 2019, from Tweepy.org website: https://www.tweepy.org/
A. F. M. Agarap. (2019). Deep Learning using Rectified Linear Units (ReLU). Retrieved from https://arxiv.org/pdf/1803.08375.pdf
D. P. Kingma. & J. L. Ba. (2015). ADAM: A Method for Stochastic Optimization. 3rd International Conference on Learning Representations (pp.1-15), San Diego, CA, USA.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.