[논문]텍스트마이닝 기법을 활용한 허위·과장광고 관련 기사의 트렌드 분석(1990-2019)

김도희; 김민정

doi:10.5392/jkca.2021.21.04.038

[국내논문] 텍스트마이닝 기법을 활용한 허위·과장광고 관련 기사의 트렌드 분석(1990-2019)
Analyzing the Trend of False·Exaggerated Advertisement Keywords Using Text-mining Methodology (1990-2019) 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.21 no.4, 2021년, pp.38 - 49

김도희 (숙명여자대학교 빅데이터분석융합학) , 김민정 (숙명여자대학교 소비자경제학과)

초록
AI-Helper

본 연구는 텍스트마이닝 기법을 사용하여 1990년부터 2019년까지 5,141건의 신문기사에서 '허위·과장광고' 용어의 트렌드를 분석하였다. 우선 전체 신문기사를 대상으로 빈도 분석을 통해 허위·과장광고의 최빈 키워드와 추출된 키워드 간의 맥락을 확인하고자 하였다. 다음으로 허위·과장광고가 어떻게 변화해왔는지에 대해 고찰하기 위해 10년 단위로 기사를 분리하여 빈도 분석을 수행하였고, 연도별 최빈 키워드를 주제로 한학술논문 수와 비교하여 해당 시기에 이슈가 된 키워드가 연구로까지 이어진 경향성을 파악하였다. 마지막으로 토픽모델링 분석을 통해 토픽 내 세부 키워드를 바탕으로 허위·과장광고의 동향을 제시하였다. 연구 결과, 특정 시점에 이슈가 되었던 주제가 최빈 키워드로 추출되었고 시대별 키워드 트렌드는 사회적, 환경적 요인과 연관되어 변화함을 확인하였다. 본 연구는 소비자들이 부당광고에 대한 배경지식을 함양함으로써 현명한 소비를 이어 나갈 수 있도록 도움을 주는 데 의의가 있다. 더욱이 핵심 키워드 추출을 통해 위법행위를 저지른 기업 및 관련 종사자들에게 광고의 참된 목적을 제시하고, 시사점을 전달할 수 있을 것이라 기대한다.

Abstract ▼ AI-Helper

This study analyzed the trend of the term 'false and exaggerated advertisement' in 5,141 newspaper articles from 1990 to 2019 using text mining methodology. First of all, we identified the most frequent keywords of false and exaggerated advertisements through frequency analysis for all newspaper articles, and understood the context between the extracted keywords. Next, to examine how false and exaggerated advertisements have changed, the frequency analysis was performed by separating articles by 10 years, and the tendency of the keyword that became an issue was identified by comparing the number of academic papers on the subject of the highest keywords of each year. Finally, we identified trends in false and exaggerated advertisements based on the detailed keywords in the topic using the topic modeling. In our results, it was confirmed that the topic that became an issue at a specific time was extracted as the frequent keywords, and the keyword trends by period changed in connection with social and environmental factors. This study is meaningful in helping consumers spend wisely by cultivating background knowledge about unfair advertising. Furthermore, it is expected that the core keyword extraction will provide the true purpose of advertising and deliver its implications to companies and related employees who commit misconduct.

Keyword

AI 본문요약
AI-Helper

문제 정의

따라서 본 연구는 텍스트마이닝 기법을 통한 최빈 키워드 추출로 1990년부터 2019년까지 종합한 결과를 알아보고, 키워드 사이의 관계를 파악하고자 한다. 또한 1990년대, 2000년대, 2010년대로 분류하여 시대별 분석을 통해 키워드의 트렌드를 파악하고, 토픽모델링을 기반으로 허위·과장광고의 주요 동향을 확인하려 한다.
본 연구는 1990년부터 2019년까지 30년간 보도된 5, 141건의 기사를 바탕으로 허위·과장광고 관련 핵심키워드를 추출하여 트렌드를 파악하고자 하였다

제안 방법

또한 1990년대, 2000년대, 2010년대로 분류하여 시대별 분석을 통해 키워드의 트렌드를 파악하고, 토픽모델링을 기반으로 허위·과장광고의 주요 동향을 확인하려 한다.
한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다. 형태소 분석을 수행하기 위한 레퍼런스 사전으로는 세종(sejong) 사전을 선택하였으며, 토픽모델링의 경우 topicmodels와 lda (Latent Dirichlet allocation) 패키지 설치를 통해 분석에 활용하였다. 또한 분석한 결과값을 시각화하기 위해 wordcloud2 패키지를 인스톨하여 사용하였다.
두 번째, 수집된 기사 5, 141건에 대해서 전처리 과정을 진행하였는데 숫자 및 공백을 제거하는 말뭉치 수정작업을 우선적으로 수행하였다. 다음으로 빈도수가 높은 순서대로 키워드를 추출하였으나 연구에 불필요한 단어가 발견되어 이를 제거하는 작업을 진행하였다.
본 연구에서는 허위·과장광고 관련 뉴스를 대상으로 토픽모델링 분석을 수행하여 소비자들이 실질적으로 마주한 허위·과장광고 피해의 주요 토픽과 변화 과정을 알아보고자 하였다
먼저, 5,141건의 전체 기사에서 최빈 키워드 100개를 추출하여 허위·과장광고 관련 핵심 키워드를 확인하고, 추출된 키워드 간의 맥락을 파악하였다
다음으로 1990년부터 2019년까지 10년 단위로 데이터를 구분하여 시간의 흐름에 따라 변화하는 키워드 동향을 분석하였다. 조사기관과 함께 ‘적발’, ‘부당’, ‘불법’과 같은 피해 키워드가 상위권에 동일하게 랭크된 것을 통해 과거부터 현재까지 허위·과장광고로 인한 피해는 꾸준하게 지속되어 왔다는 것을 유추할 수 있다.
앞선 빈도 분석으로 추출된 키워드 중 연도별 특징이 확실하게 나타나는 키워드 10개를 선정하여 해당 키워드를 주제로 게재된 학술논문을 연대별로 분류 및 분석하였다. 특정 시기에 이슈가 되었던 주제의 경우, 허위· 과장광고 관련 기사에서 최빈 키워드로 추출되었을 뿐만 아니라 전반적인 연구 동향과도 직결된다는 사실을 발견하였다.

대상 데이터

1990년 1월 1일부터 2019년 12월 31일까지 30년간 허위·과장광고 관련 기사를 수집하기 위해 한국언론진흥재단이 운영하는 뉴스 빅데이터 분석 서비스 빅카인즈 (BIG KINDS)를 활용하였다
첫 번째, 허위광고(1, 474건), 과장광고(1, 875건), 과대광고(2, 215건) 키워드가 1개 이상 포함되어 있는 중앙지(경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨례, 한국일보) 기사를 수집하였다. 이 중 중복되는 기사 및 포토 뉴스를 제외하고 최종적으로 5, 141건의 기사만을 분석에 활용하였다.
첫 번째, 허위광고(1, 474건), 과장광고(1, 875건), 과대광고(2, 215건) 키워드가 1개 이상 포함되어 있는 중앙지(경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨례, 한국일보) 기사를 수집하였다. 이 중 중복되는 기사 및 포토 뉴스를 제외하고 최종적으로 5, 141건의 기사만을 분석에 활용하였다. 본 연구의 분석 대상을 연도별로 나누어 요약하면 [그림 1]로 표현되며, 허위·과장 광고 관련 기사가 2017년에 감소했지만 지속적으로 증가하는 추세인 점을 확인하였다.

데이터처리

세 번째, 전처리 과정이 끝난 후, 100회 이상 출현한고빈도어 100개를 내림차순으로 선정하여 키워드 빈도 분석을 수행하였다. 이때 허위·과장광고 관련 기사에서 나타난 최빈 키워드를 업종, 단어의 의미, 단속 기관, 피해 대상 등 4가지 기준을 세워 분석한 결과 허위·과장 광고 기사의 전반적인 구조를 파악할 수 있었다.
빠르게 변화하는 미디어 환경과 발전하는 기술 속에서 허위·과장광고 관련 기사에도 변화가 있는지 파악하고자 10년 단위로 최빈 키워드 비교 분석을 하였다

이론/모형

본 연구에서는 텍스트마이닝을 위해 오픈소스 프로그램인 R 3.6.3 버전을 사용하였다. 한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다.
3 버전을 사용하였다. 한글로 작성된 기사만을 수집하여 분석하였기에 한글 자연어 분석 패키지인 KoNLP (Korean Natural Language Processing)와 텍스트마이닝 수행에 필요한 tm (text mining) 패키지를 활용하였다. 형태소 분석을 수행하기 위한 레퍼런스 사전으로는 세종(sejong) 사전을 선택하였으며, 토픽모델링의 경우 topicmodels와 lda (Latent Dirichlet allocation) 패키지 설치를 통해 분석에 활용하였다.

성능/효과

조사기관과 함께 ‘적발’, ‘부당’, ‘불법’과 같은 피해 키워드가 상위권에 동일하게 랭크된 것을 통해 과거부터 현재까지 허위·과장광고로 인한 피해는 꾸준하게 지속되어 왔다는 것을 유추할 수 있다
그러나 정부 부처의 이름이 변경되고 신설됨에 따라 추출되는 기관 관련 키워드들에 변화가 발생하게 되었다. 또한 연대별로 피해 업종과 피해 대상이 다르게 나타나는 것을 확인할 수 있었다.
마지막으로 토픽모델링 분석을 통해 허위·과장 광고 기사에서 언급되는 키워드들이 사회적 또는 환경적 요인에 의해 영향을 받는다는 시사점을 발견하였다
이번 연구를 통해 허위·과장광고가 현대사회와 밀접하게 연관되어 있다는 점을 파악하였다
본 연구는 허위·과장광고가 변화하는 과정을 텍스트마이닝 분석 기법을 적용하여 새로운 연구 방법을 시도했다는 것에 의의가 있다
더욱이 2010년대에는 통신업계의 허위·과장광고 실태와 가습기살균제 사건이 주요 토픽으로 추출되며 해당 시기에 이슈가 되었던 토픽들과 강한 연관성을 가졌다는 점을 확인할 수 있었다.
특정 시기에 이슈가 되었던 주제의 경우, 허위· 과장광고 관련 기사에서 최빈 키워드로 추출되었을 뿐만 아니라 전반적인 연구 동향과도 직결된다는 사실을 발견하였다.

후속연구

이번 연구를 통해 허위·과장광고가 현대사회와 밀접하게 연관되어 있다는 점을 파악하였다. 따라서 대용량의 비정형 데이터 분석을 진행한 본 연구의 결과를 활용하여 부당광고를 심의하고 단속하는 정부 부처에서는 빅데이터, AI 등 4차 산업 고도화에 따라 함께 발전하는 온라인 광고 관련 소비자 보호 정책을 구체화하는데 적용할 수 있다. 추가적으로 뉴스 빅데이터를 통해 추출된 키워드는 광고 산업 관련 종사자 및 기업의 임원진에게 광고 윤리 의식을 재조명하게 하여, 소비자기만 광고 관련 교육에 대한 기초 자료로 활용될 수 있을 것이다.
따라서 대용량의 비정형 데이터 분석을 진행한 본 연구의 결과를 활용하여 부당광고를 심의하고 단속하는 정부 부처에서는 빅데이터, AI 등 4차 산업 고도화에 따라 함께 발전하는 온라인 광고 관련 소비자 보호 정책을 구체화하는데 적용할 수 있다. 추가적으로 뉴스 빅데이터를 통해 추출된 키워드는 광고 산업 관련 종사자 및 기업의 임원진에게 광고 윤리 의식을 재조명하게 하여, 소비자기만 광고 관련 교육에 대한 기초 자료로 활용될 수 있을 것이다.
그러나 본 연구의 한계점으로는 연구논문과의 교차분석을 진행했으나 신문기사를 기반으로 텍스트마이닝을 수행했기 때문에 허위·과장광고를 직접적으로 마주하는 소비자의 의견 파악이 어렵다는 점이다. 따라서 후속 연구에서는 소셜네트워크서비스 및 블로그 데이터를 추가하여 미디어 기반 데이터와 함께 소비자 기반 데이터를 함께 분석하여 균형적이고 다각적인 시각을 제공하는 것이 필요하다.
그러나 본 연구의 한계점으로는 연구논문과의 교차분석을 진행했으나 신문기사를 기반으로 텍스트마이닝을 수행했기 때문에 허위·과장광고를 직접적으로 마주하는 소비자의 의견 파악이 어렵다는 점이다. 따라서 후속 연구에서는 소셜네트워크서비스 및 블로그 데이터를 추가하여 미디어 기반 데이터와 함께 소비자 기반 데이터를 함께 분석하여 균형적이고 다각적인 시각을 제공하는 것이 필요하다.

참고문헌 (40)

서주연, 박민정, "SNS 텍스트마이닝을 중심으로 한 브랜드 목표 이미지와 브랜드 광고모델의 대중적 이미지 일치에 관한 연구," 브랜드디자인학연구, 제16권, 제3호, pp.219-234, 2018.
김은재, 황상재, "인플루언서 마케팅에서 정보원 유형과 경제적 대가 표시에 따른 광고 효과 연구," 한국디지털콘텐츠학회 논문지, 제20권, 제2호, pp.297-306, 2019.
나윤빈, "SNS 광고속성이 구매의도 및 브랜드 태도에 미치는 영향 - 설득지식의 조절효과를 중심으로-," 한국콘텐츠학회논문지, 제19권, 제8호, pp.58-68, 2019.

원문보기 상세보기
https://www.kca.go.kr/kca/sub.do?menukey5084&modeview&no1001891152&page34.
http://onlinead.or.kr/17/?idx3291169&bmodeview.
https://terms.naver.com/entry.nhn?docId3656521&cid42131&categoryId42131.
정수정, "허위광고의 표현양식과 브랜드애착에 따른 소비자 기만효과 연구," 광고학연구, 제22권, 제1호, pp.303-333, 2011.
정용수, 강창경, 부당광고 규제의 실효성 제고 방안 - 추천.보증에 관한 광고 및 광고실증제를 중심으로, 한국소비자원, 2011.
손수진, "부당광고의 규제에 관한 연구 - 독점규제 및 공정거래에 관한 법률을 중심으로," 광고연구, 제32호, pp.255-297, 1996.
마윤성, 황호영, "온라인 기사형 광고의 허위 및 과대.과장광고로써의 법률적 접근과 해석," 디지털융복합 연구, 제14권, 제5호, pp.391-402, 2016.

원문보기 상세보기
홍태석, "광고에서의 허위 과장광고의 판단기준 - 대법원 2008. 8. 21 선고 2007도7415 판결을 대상으로 -," 법이론실무연구, 제7권, 제3호, pp.239-257, 2019.
이현규, "표시광고법상 부당한 표시광고의 합헌적 판단 기준," 경쟁법연구, Vol.23, pp.381-407, 2011.
탁진영, "과장광고의 설득효과와 제3자 효과 - 규제에 대한 소비자의 태도를 중심으로," 언론과학연구, 제10권, 제1호, pp.398-441, 2010.

상세보기
김동규, "과장광고의 형성과 전개에 관한 역사적 연구 : 17세기 중엽-1910년대까지를 중심으로," 광고 PR실학연구, 제10권, 제3호, pp.9-40, 2017.
장재혁, 박승근, "모바일 트래픽 동향," 전자통신동향 분석, Vol.34, No.3, pp.106-113, 2019.

원문보기 상세보기
김정숙, "빅 데이터 활용과 관련기술 고찰," 한국콘텐츠학회지, 제10권, 제1호, pp.34-40, 2012.

원문보기 상세보기
김용회, 한창근, "'사회적 가치' 이슈를 다룬 언론기사의 의미연결망 분석 - 2006년부터 2019년까지 국내 중앙지 언론보도를 중심으로 -," 한국사회복지학, 제72권, 제2호, pp.201-229, 2020.
감미아, 송민, "텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석," 지능정보연구, 제18권, 제3호, pp.53-77, 2012.

원문보기 상세보기
강주연, 이이든, 김지수, "텍스트 마이닝을 활용한 'Z세대' 관련 뉴스데이터 의미연결망 분석," 미래청소년학회지, 제17권, 제2호, pp.25-48, 2020.
김태종, "뉴스 빅데이터를 활용한 코로나19 언론보도 분석 :토픽모델링 분석을 중심으로," 한국콘텐츠학회논문지, 제20권 제5호, pp.457-466, 2020.

원문보기 상세보기
김민정, 김철주, "키워드 분석 기반 '전통' 용어의 트렌드 분석 (1920~2017)," 한국콘텐츠학회논문지, 제18권, 제12호, pp.421-431, 2018.

원문보기 상세보기
노설현, "토픽모델링을 활용한 인공지능 관련 이슈 분석," 디지털융복합연구, 제18권, 제5호, pp.75-87, 2020.

원문보기 상세보기
우창우, 이종연, "LDA 토픽모델링을 통한 ICT분야 국가연구개발사업의 주요 연구토픽 및 동향 탐색," 한국융합학회논문지, 제11권, 제7호, pp.9-18, 2020.

원문보기 상세보기
서보순, "장애아동 권리에 관한 뉴스 기사의 토픽모델링 분석," 교육혁신연구, 제30권, 제2호, pp.31-50, 2020.
박상현, 문현실, 김재경, "토픽 모델링에 기반한 온라인 상품 평점 예측을 위한 온라인 사용 후기 분석," 한국IT서비스학회지, 제16권, 제3호, pp.113-125, 2017.

원문보기 상세보기
https://stdict.korean.go.kr/search/searchView.do?word_no497766&searchKeywordTo3.
https://dic.hankyung.com/economy/view/?seq2437.
http://news.naver.com/main/read.nhn?modeLSD&midsec&sid1001&oid001&aid0004137982.
https://www.doopedia.co.kr/doopedia/master/master.do?_methodview&MAS_IDX101013000868431.
https://terms.naver.com/entry.nhn?cid40942&docId1184530&categoryId34593.
https://www.seoul.co.kr/news/newsView.php?id20200916018003&wlog_tag3naver.
https://terms.naver.com/entry.nhn?cid42266&docId2274625&categoryId51094.
http://news.naver.com/main/read.nhn?modeLSD&midsec&sid1001&oid014&aid0000203142.
https://news.mt.co.kr/mtview.php?no2009052010243171939&outlink1&refhttps%3A%2F%2Fsearch.naver.com.
http://www.korea.kr/news/reporterView.do?newsId148807811.
https://www.fnnews.com/news/202001090915078772.
https://terms.naver.com/entry.nhn?cid43667&docId1847190&categoryId43667.
http://news.khan.co.kr/kh_news/khan_art_view.html?art_id201903061006001.
http://news.kbs.co.kr/news/view.do?ncd5000597&refA.
https://www.mfds.go.kr/brd/m_629/view.do?seq16.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증