[국내논문]텍스트마이닝 기법을 활용한 허위·과장광고 관련 기사의 트렌드 분석(1990-2019) Analyzing the Trend of False·Exaggerated Advertisement Keywords Using Text-mining Methodology (1990-2019)원문보기
본 연구는 텍스트마이닝 기법을 사용하여 1990년부터 2019년까지 5,141건의 신문기사에서 '허위·과장광고' 용어의 트렌드를 분석하였다. 우선 전체 신문기사를 대상으로 빈도 분석을 통해 허위·과장광고의 최빈 키워드와 추출된 키워드 간의 맥락을 확인하고자 하였다. 다음으로 허위·과장광고가 어떻게 변화해왔는지에 대해 고찰하기 위해 10년 단위로 기사를 분리하여 빈도 분석을 수행하였고, 연도별 최빈 키워드를 주제로 한학술논문 수와 비교하여 해당 시기에 이슈가 된 키워드가 연구로까지 이어진 경향성을 파악하였다. 마지막으로 토픽모델링 분석을 통해 토픽 내 세부 키워드를 바탕으로 허위·과장광고의 동향을 제시하였다. 연구 결과, 특정 시점에 이슈가 되었던 주제가 최빈 키워드로 추출되었고 시대별 키워드 트렌드는 사회적, 환경적 요인과 연관되어 변화함을 확인하였다. 본 연구는 소비자들이 부당광고에 대한 배경지식을 함양함으로써 현명한 소비를 이어 나갈 수 있도록 도움을 주는 데 의의가 있다. 더욱이 핵심 키워드 추출을 통해 위법행위를 저지른 기업 및 관련 종사자들에게 광고의 참된 목적을 제시하고, 시사점을 전달할 수 있을 것이라 기대한다.
본 연구는 텍스트마이닝 기법을 사용하여 1990년부터 2019년까지 5,141건의 신문기사에서 '허위·과장광고' 용어의 트렌드를 분석하였다. 우선 전체 신문기사를 대상으로 빈도 분석을 통해 허위·과장광고의 최빈 키워드와 추출된 키워드 간의 맥락을 확인하고자 하였다. 다음으로 허위·과장광고가 어떻게 변화해왔는지에 대해 고찰하기 위해 10년 단위로 기사를 분리하여 빈도 분석을 수행하였고, 연도별 최빈 키워드를 주제로 한학술논문 수와 비교하여 해당 시기에 이슈가 된 키워드가 연구로까지 이어진 경향성을 파악하였다. 마지막으로 토픽모델링 분석을 통해 토픽 내 세부 키워드를 바탕으로 허위·과장광고의 동향을 제시하였다. 연구 결과, 특정 시점에 이슈가 되었던 주제가 최빈 키워드로 추출되었고 시대별 키워드 트렌드는 사회적, 환경적 요인과 연관되어 변화함을 확인하였다. 본 연구는 소비자들이 부당광고에 대한 배경지식을 함양함으로써 현명한 소비를 이어 나갈 수 있도록 도움을 주는 데 의의가 있다. 더욱이 핵심 키워드 추출을 통해 위법행위를 저지른 기업 및 관련 종사자들에게 광고의 참된 목적을 제시하고, 시사점을 전달할 수 있을 것이라 기대한다.
This study analyzed the trend of the term 'false and exaggerated advertisement' in 5,141 newspaper articles from 1990 to 2019 using text mining methodology. First of all, we identified the most frequent keywords of false and exaggerated advertisements through frequency analysis for all newspaper art...
This study analyzed the trend of the term 'false and exaggerated advertisement' in 5,141 newspaper articles from 1990 to 2019 using text mining methodology. First of all, we identified the most frequent keywords of false and exaggerated advertisements through frequency analysis for all newspaper articles, and understood the context between the extracted keywords. Next, to examine how false and exaggerated advertisements have changed, the frequency analysis was performed by separating articles by 10 years, and the tendency of the keyword that became an issue was identified by comparing the number of academic papers on the subject of the highest keywords of each year. Finally, we identified trends in false and exaggerated advertisements based on the detailed keywords in the topic using the topic modeling. In our results, it was confirmed that the topic that became an issue at a specific time was extracted as the frequent keywords, and the keyword trends by period changed in connection with social and environmental factors. This study is meaningful in helping consumers spend wisely by cultivating background knowledge about unfair advertising. Furthermore, it is expected that the core keyword extraction will provide the true purpose of advertising and deliver its implications to companies and related employees who commit misconduct.
This study analyzed the trend of the term 'false and exaggerated advertisement' in 5,141 newspaper articles from 1990 to 2019 using text mining methodology. First of all, we identified the most frequent keywords of false and exaggerated advertisements through frequency analysis for all newspaper articles, and understood the context between the extracted keywords. Next, to examine how false and exaggerated advertisements have changed, the frequency analysis was performed by separating articles by 10 years, and the tendency of the keyword that became an issue was identified by comparing the number of academic papers on the subject of the highest keywords of each year. Finally, we identified trends in false and exaggerated advertisements based on the detailed keywords in the topic using the topic modeling. In our results, it was confirmed that the topic that became an issue at a specific time was extracted as the frequent keywords, and the keyword trends by period changed in connection with social and environmental factors. This study is meaningful in helping consumers spend wisely by cultivating background knowledge about unfair advertising. Furthermore, it is expected that the core keyword extraction will provide the true purpose of advertising and deliver its implications to companies and related employees who commit misconduct.
따라서 본 연구는 텍스트마이닝 기법을 통한 최빈 키워드 추출로 1990년부터 2019년까지 종합한 결과를 알아보고, 키워드 사이의 관계를 파악하고자 한다. 또한 1990년대, 2000년대, 2010년대로 분류하여 시대별 분석을 통해 키워드의 트렌드를 파악하고, 토픽모델링을 기반으로 허위·과장광고의 주요 동향을 확인하려 한다.
본 연구는 1990년부터 2019년까지 30년간 보도된 5, 141건의 기사를 바탕으로 허위·과장광고 관련 핵심키워드를 추출하여 트렌드를 파악하고자 하였다
제안 방법
또한 1990년대, 2000년대, 2010년대로 분류하여 시대별 분석을 통해 키워드의 트렌드를 파악하고, 토픽모델링을 기반으로 허위·과장광고의 주요 동향을 확인하려 한다.
한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다. 형태소 분석을 수행하기 위한 레퍼런스 사전으로는 세종(sejong) 사전을 선택하였으며, 토픽모델링의 경우 topicmodels와 lda (Latent Dirichlet allocation) 패키지 설치를 통해 분석에 활용하였다. 또한 분석한 결과값을 시각화하기 위해 wordcloud2 패키지를 인스톨하여 사용하였다.
두 번째, 수집된 기사 5, 141건에 대해서 전처리 과정을 진행하였는데 숫자 및 공백을 제거하는 말뭉치 수정작업을 우선적으로 수행하였다. 다음으로 빈도수가 높은 순서대로 키워드를 추출하였으나 연구에 불필요한 단어가 발견되어 이를 제거하는 작업을 진행하였다.
본 연구에서는 허위·과장광고 관련 뉴스를 대상으로 토픽모델링 분석을 수행하여 소비자들이 실질적으로 마주한 허위·과장광고 피해의 주요 토픽과 변화 과정을 알아보고자 하였다
먼저, 5,141건의 전체 기사에서 최빈 키워드 100개를 추출하여 허위·과장광고 관련 핵심 키워드를 확인하고, 추출된 키워드 간의 맥락을 파악하였다
다음으로 1990년부터 2019년까지 10년 단위로 데이터를 구분하여 시간의 흐름에 따라 변화하는 키워드 동향을 분석하였다. 조사기관과 함께 ‘적발’, ‘부당’, ‘불법’과 같은 피해 키워드가 상위권에 동일하게 랭크된 것을 통해 과거부터 현재까지 허위·과장광고로 인한 피해는 꾸준하게 지속되어 왔다는 것을 유추할 수 있다.
앞선 빈도 분석으로 추출된 키워드 중 연도별 특징이 확실하게 나타나는 키워드 10개를 선정하여 해당 키워드를 주제로 게재된 학술논문을 연대별로 분류 및 분석하였다. 특정 시기에 이슈가 되었던 주제의 경우, 허위· 과장광고 관련 기사에서 최빈 키워드로 추출되었을 뿐만 아니라 전반적인 연구 동향과도 직결된다는 사실을 발견하였다.
대상 데이터
1990년 1월 1일부터 2019년 12월 31일까지 30년간 허위·과장광고 관련 기사를 수집하기 위해 한국언론진흥재단이 운영하는 뉴스 빅데이터 분석 서비스 빅카인즈 (BIG KINDS)를 활용하였다
첫 번째, 허위광고(1, 474건), 과장광고(1, 875건), 과대광고(2, 215건) 키워드가 1개 이상 포함되어 있는 중앙지(경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨례, 한국일보) 기사를 수집하였다. 이 중 중복되는 기사 및 포토 뉴스를 제외하고 최종적으로 5, 141건의 기사만을 분석에 활용하였다.
첫 번째, 허위광고(1, 474건), 과장광고(1, 875건), 과대광고(2, 215건) 키워드가 1개 이상 포함되어 있는 중앙지(경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨례, 한국일보) 기사를 수집하였다. 이 중 중복되는 기사 및 포토 뉴스를 제외하고 최종적으로 5, 141건의 기사만을 분석에 활용하였다. 본 연구의 분석 대상을 연도별로 나누어 요약하면 [그림 1]로 표현되며, 허위·과장 광고 관련 기사가 2017년에 감소했지만 지속적으로 증가하는 추세인 점을 확인하였다.
데이터처리
세 번째, 전처리 과정이 끝난 후, 100회 이상 출현한고빈도어 100개를 내림차순으로 선정하여 키워드 빈도 분석을 수행하였다. 이때 허위·과장광고 관련 기사에서 나타난 최빈 키워드를 업종, 단어의 의미, 단속 기관, 피해 대상 등 4가지 기준을 세워 분석한 결과 허위·과장 광고 기사의 전반적인 구조를 파악할 수 있었다.
빠르게 변화하는 미디어 환경과 발전하는 기술 속에서 허위·과장광고 관련 기사에도 변화가 있는지 파악하고자 10년 단위로 최빈 키워드 비교 분석을 하였다
이론/모형
본 연구에서는 텍스트마이닝을 위해 오픈소스 프로그램인 R 3.6.3 버전을 사용하였다. 한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다.
3 버전을 사용하였다. 한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다. 형태소 분석을 수행하기 위한 레퍼런스 사전으로는 세종(sejong) 사전을 선택하였으며, 토픽모델링의 경우 topicmodels와 lda (Latent Dirichlet allocation) 패키지 설치를 통해 분석에 활용하였다.
성능/효과
조사기관과 함께 ‘적발’, ‘부당’, ‘불법’과 같은 피해 키워드가 상위권에 동일하게 랭크된 것을 통해 과거부터 현재까지 허위·과장광고로 인한 피해는 꾸준하게 지속되어 왔다는 것을 유추할 수 있다
그러나 정부 부처의 이름이 변경되고 신설됨에 따라 추출되는 기관 관련 키워드들에 변화가 발생하게 되었다. 또한 연대별로 피해 업종과 피해 대상이 다르게 나타나는 것을 확인할 수 있었다.
마지막으로 토픽모델링 분석을 통해 허위·과장 광고 기사에서 언급되는 키워드들이 사회적 또는 환경적 요인에 의해 영향을 받는다는 시사점을 발견하였다
이번 연구를 통해 허위·과장광고가 현대사회와 밀접하게 연관되어 있다는 점을 파악하였다
본 연구는 허위·과장광고가 변화하는 과정을 텍스트마이닝 분석 기법을 적용하여 새로운 연구 방법을 시도했다는 것에 의의가 있다
더욱이 2010년대에는 통신업계의 허위·과장광고 실태와 가습기살균제 사건이 주요 토픽으로 추출되며 해당 시기에 이슈가 되었던 토픽들과 강한 연관성을 가졌다는 점을 확인할 수 있었다.
특정 시기에 이슈가 되었던 주제의 경우, 허위· 과장광고 관련 기사에서 최빈 키워드로 추출되었을 뿐만 아니라 전반적인 연구 동향과도 직결된다는 사실을 발견하였다.
후속연구
이번 연구를 통해 허위·과장광고가 현대사회와 밀접하게 연관되어 있다는 점을 파악하였다. 따라서 대용량의 비정형 데이터 분석을 진행한 본 연구의 결과를 활용하여 부당광고를 심의하고 단속하는 정부 부처에서는 빅데이터, AI 등 4차 산업 고도화에 따라 함께 발전하는 온라인 광고 관련 소비자 보호 정책을 구체화하는데 적용할 수 있다. 추가적으로 뉴스 빅데이터를 통해 추출된 키워드는 광고 산업 관련 종사자 및 기업의 임원진에게 광고 윤리 의식을 재조명하게 하여, 소비자기만 광고 관련 교육에 대한 기초 자료로 활용될 수 있을 것이다.
따라서 대용량의 비정형 데이터 분석을 진행한 본 연구의 결과를 활용하여 부당광고를 심의하고 단속하는 정부 부처에서는 빅데이터, AI 등 4차 산업 고도화에 따라 함께 발전하는 온라인 광고 관련 소비자 보호 정책을 구체화하는데 적용할 수 있다. 추가적으로 뉴스 빅데이터를 통해 추출된 키워드는 광고 산업 관련 종사자 및 기업의 임원진에게 광고 윤리 의식을 재조명하게 하여, 소비자기만 광고 관련 교육에 대한 기초 자료로 활용될 수 있을 것이다.
그러나 본 연구의 한계점으로는 연구논문과의 교차분석을 진행했으나 신문기사를 기반으로 텍스트마이닝을 수행했기 때문에 허위·과장광고를 직접적으로 마주하는 소비자의 의견 파악이 어렵다는 점이다. 따라서 후속 연구에서는 소셜네트워크서비스 및 블로그 데이터를 추가하여 미디어 기반 데이터와 함께 소비자 기반 데이터를 함께 분석하여 균형적이고 다각적인 시각을 제공하는 것이 필요하다.
그러나 본 연구의 한계점으로는 연구논문과의 교차분석을 진행했으나 신문기사를 기반으로 텍스트마이닝을 수행했기 때문에 허위·과장광고를 직접적으로 마주하는 소비자의 의견 파악이 어렵다는 점이다. 따라서 후속 연구에서는 소셜네트워크서비스 및 블로그 데이터를 추가하여 미디어 기반 데이터와 함께 소비자 기반 데이터를 함께 분석하여 균형적이고 다각적인 시각을 제공하는 것이 필요하다.
참고문헌 (40)
서주연, 박민정, "SNS 텍스트마이닝을 중심으로 한 브랜드 목표 이미지와 브랜드 광고모델의 대중적 이미지 일치에 관한 연구," 브랜드디자인학연구, 제16권, 제3호, pp.219-234, 2018.
김은재, 황상재, "인플루언서 마케팅에서 정보원 유형과 경제적 대가 표시에 따른 광고 효과 연구," 한국디지털콘텐츠학회 논문지, 제20권, 제2호, pp.297-306, 2019.
나윤빈, "SNS 광고속성이 구매의도 및 브랜드 태도에 미치는 영향 - 설득지식의 조절효과를 중심으로-," 한국콘텐츠학회논문지, 제19권, 제8호, pp.58-68, 2019.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.