[논문]실시간 검색어 연관 분석을 통한 핵심 이슈 선정

정민영

doi:10.14400/jdc.2015.13.12.161

실시간 검색어 연관 분석을 통한 핵심 이슈 선정
Selecting a key issue through association analysis of realtime search words 원문보기

디지털융복합연구 = Journal of digital convergence, v.13 no.12, 2015년, pp.161 - 169

초록
AI-Helper

포털 사이트의 실시간 검색어는 현재 관심이 급상승하고 있는 이슈를 보여주기 위해 주로 검색횟수가 많은 순서에 따라 몇 초 간격으로 제공되고 있다. 그렇지만 너무 짧은 시간 내에 순위가 바뀌는 실시간 검색어의 특성 때문에 하루의 핵심 이슈를 비켜가는 문제가 발생한다. 본 논문에서 이러한 문제를 보완하기 위해 검색어들 사이의 연관 분석을 통하여 검색어들이 관련된 핵심 이슈를 도출하는 방법을 제안하고자 한다. 이를 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계를 통해 최상위 10개의 검색어를 도출한다. 그 다음으로 지지도와 신뢰도를 기반으로 연관 규칙을 추출하고 이를 가시화하는 그래프 결과를 바탕으로 핵심 이슈를 선정한다. 실험 결과는 단일 최상위 실시간 검색어보다 연관분석을 통해 높은 점수로 선정된 핵심 이슈가 더 큰 의미를 갖는다는 것을 보여준다.

Abstract ▼ AI-Helper

Realtime search words of typical portal sites appear every few seconds in descending order by search frequency in order to show issues increasing rapidly in interest. However, the characteristics of realtime search words reordering within too short a time cause problems that they go over the key issues of the day. This paper proposes a method for deriving a key issue through association analysis of realtime search words. The proposed method first makes scores of realtime search words depending on the ranking and the relative interest, and derives the top 10 search words through descriptive statistics for groups. Then, it extracts association rules depending on 'support' and 'confidence', and chooses the key issue based on the results as a graph visualizing them. The results of experiments show that the key issue through association rules is more meaningful than the first realtime search word.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

이 단계에서는 1시간 단위로 실시간 급상승 검색어를 기준으로 집계하고 그 결과로 나온 점수합계의 내림차순으로 정렬한 다음, Top 10을 뽑아 24회(0～23시) 누적시킨다. 그런 다음 일일(24시간)동안 누적된 Top 10들을 대상으로 하여 오늘의 이슈 검색어(Top 20) 추출 단계와 시간별 이슈 검색어의 연관 분석 단계를 수행하고, 오늘의 이슈 검색어 및 연관 규칙가시화 단계를 거쳐 오늘의 핵심 이슈를 선정한다.
그리고 이를 토대로 하루 동안 점수를 가장 높게 받은 이른바 ‘오늘의 이슈 검색어’와 하루 동안 수집된 시간별 실시간 검색어 사이의 연관 분석을 통하여 실시간 검색어들이 수렴하고 있는 이른바 ‘오늘의 핵심 이슈’를 도출하는 방법을 제안한다.
따라서 본 논문에서는 너무 짧은 시간 내에 변화하는 실시간 검색어들로 인해 그날의 핵심 이슈를 향하는 집중도가 떨어지는 문제를 보완하기 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계 분석을 통해 실시간 검색어별 점수를 집계하고 합산된 점수의 내림차순으로 정렬하여 시간별 상위 실시간 검색어를 하루 동안 수집한다. 그리고 이를 토대로 하루 동안 점수를 가장 높게 받은 이른바 ‘오늘의 이슈 검색어’와 하루 동안 수집된 시간별 실시간 검색어 사이의 연관 분석을 통하여 실시간 검색어들이 수렴하고 있는 이른바 ‘오늘의 핵심 이슈’를 도출하는 방법을 제안한다.
네이버의 경우, 실시간 급상승 검색어의 순위를 선정할 때 몇 가지 기준에 입각하여 자동으로 선정하는 방식을 사용하는 것을 원칙으로 한다. 먼저 일정기간을 기준으로 사용자가 입력한 검색어가 과거 시점이나 다른 검색어에 비해 상대적으로 급격하게 상승한 비율을 기준으로 순위를 선정한다. 따라서 일상적으로 많이 입력되어 일정기간 동안 검색횟수가 크지만 기준 시간 당 검색 횟수 비율에 큰 변화가 없는 검색어는 상위 순위에 오르지 못한다.
본 논문에서 제안하는 방법은 단순한 개별 단어로만 이슈를 파악해야 하는 한계를 넘어서 연관된 특정 단어들을 한 덩어리의 이슈로 파악하게 함으로써 보다 실제적인 핵심 이슈로 활용할 수 있게 했다는 측면에서 의미가 있다. 특히 개별 단어의 일시성을 보완하여 연관 단어 들의 덩어리로서의 얼마간의 지속성을 확보할 수 있고 이를 기반으로 일자별 핵심 이슈를 예측하는 모델을 형성하는데 도움을 줄 수 있으며, SNS를 통하여 보다 심도 있는 토론과 논의를 제공하는 이슈로도 사용될 수 있다.
본 논문에서는 실시간 검색어가 검색횟수의 크기 순서에 따라 몇 십초 간격으로 제공됨으로써 인기 검색어만을 알 수 있는 한계를 극복하기 위해 1분 간격으로 검색어를 수집하고 1시간 단위로 상위 10개의 이슈 검색어를 추출하여 24시간 동안 누적한 다음, 이를 사용하여 집단별 기술 통계 분석을 통해 ‘오늘의 이슈 검색어’를 선정함과 동시에 이슈 검색어들 사이의 연관 분석을 실시하여 연관성 있는 검색어 집단을 추출하여 가장 주목받는 이슈인 ‘오늘의 핵심 이슈’를 선정하고 이에 대한 실제적인 예를 제시하였다.
실시간 급상승 검색어는 1분 단위로 네이버 홈페이지 원시코드를 읽어서 네이버의 실시간 급상승 검색어 순위 선정 기준을 토대로 게시된 10개의 실시간 급상승 검색어를 비롯하여 그와 관련된 순위, 상승상태, 상대적 관심도를 파싱(parsing)하여 추출한다. 파싱은 먼저 동적으로 얻는 홈페이지 원시코드에 대해 R언어의 문자열과 정규식 처리 함수를 이용하여 불필요한 태그를 뛰어 넘어 실시간 이슈 검색어 제목이 있는 위치를 찾은 다음, 이 후에 일정한 패턴으로 나타나는 검색어와 상승상태, 그리고 상대적 관심도를 추출하고 차례대로 순위를 획득하는 것을 10회 반복하는 것을 말한다.

대상 데이터

본 논문에서는 네이버의 실시간 급상승 검색어를 기반으로 하여 [Fig. 1]과 같은 과정을 통해서 오늘의 핵심이슈를 선정한다. 먼저 실시간 급상승 검색어 수집 단계에서는 실시간 급상승 검색어를 파싱하여 중요도 점수를 계산하고 이를 검색어와 함께 저장하는 것을 1분 간격으로 24시간 반복한다.
분석 대상은 ‘네이버’의 실시간 급상승 검색어로 하며 분석도구는 R 언어를 사용한다.

성능/효과

그 다음으로 ‘바르셀로나 바이에르뮌헨’은 비교적 넓은 시간대와 높은 점수를 유지하고 있으면서 특이하게 그 안에 ‘챔피언스리그’를 완전히 내포하고 있는 것으로 나타났다.
그리고 결과 검색어 중심 연관 규칙 그래프를 통해서 결과 검색어 중심으로 묶어진 검색어 그룹을 일차적인 핵심 이슈 대상으로 선정하고, 지지도와 향상도 중심 연관 규칙 그래프를 통해서 향상도가 높아 양의 상관관계가 강하게 나타나는 것을 이차적인 핵심 이슈 대상으로 선정한다. 마지막으로 이차 핵심 이슈 대상의 각 검색어의 중요도 점수의 합을 구하여 가장 큰 검색어 그룹을 ‘오늘의 핵심 이슈’로 선정한다.
따라서 독립적으로 급상승된 결과를 토대로 선정한 네이버의 실시간 급상승 검색어보다 실질적으로 관심도가 높은 이슈를 선정할 수 있다.
실험결과, ‘바르셀로나 바이에른뮌헨’(67437.701), ‘챔피언스리그’(17551.515), ‘바르셀로나’(14209.429)의 점수의 합(99198.645)이 오늘의 최상위 이슈 검색어인 ‘서현철’(84867.494)보다도 더 높은 것으로 나타났다.
집계 결과, 검색어의 케이스수가 많은 것은 적어도 하루 동안 지속적인 많은 관심을 받았다는 것을 의미하고, 평균이 높다는 것은 하루 중 어느 순간 그 만큼 강한 인상을 남겼다는 것을 의미한다. 그리고 합계가 높다는 것은 그 만큼 강한 인상을 적어도 하루 동안은 지속적으로 남겼다는 것을 의미하므로 ‘오늘의 이슈 검색어’로 선택하는 근거로서 역할을 한다.

후속연구

특히 개별 단어의 일시성을 보완하여 연관 단어 들의 덩어리로서의 얼마간의 지속성을 확보할 수 있고 이를 기반으로 일자별 핵심 이슈를 예측하는 모델을 형성하는데 도움을 줄 수 있으며, SNS를 통하여 보다 심도 있는 토론과 논의를 제공하는 이슈로도 사용될 수 있다. 또한 웹 마이닝을 통해 획득한 텍스트 데이터에 대한 메타 분석의 한 방법이라는 측면에서 차별성이 있으며 이를 바탕으로 일주일, 한달, 일년 단위로 확장시켜 나가는 씨앗 역할로서 관련 연구에 유용하게 활용될 수 있다.
하지만 주요 포털의 실시간 검색어는 포털별 검색어 선정기준, 점유율이나 사용자의 경향의 차이로 인해 다르게 나타날 가능성이 존재하고 네이버에 국한된 짧은 기간의 데이터를 기반으로 한 분석 결과라는 한계가 존재한다. 이를 극복하기 위한 노력의 일환으로 보다 긴 기간에 걸쳐 수집된 여러 포털의 실시간 검색어를 함께 비교분석하는 추가적인 연구가 필요하다.
본 논문에서 제안하는 방법은 단순한 개별 단어로만 이슈를 파악해야 하는 한계를 넘어서 연관된 특정 단어들을 한 덩어리의 이슈로 파악하게 함으로써 보다 실제적인 핵심 이슈로 활용할 수 있게 했다는 측면에서 의미가 있다. 특히 개별 단어의 일시성을 보완하여 연관 단어 들의 덩어리로서의 얼마간의 지속성을 확보할 수 있고 이를 기반으로 일자별 핵심 이슈를 예측하는 모델을 형성하는데 도움을 줄 수 있으며, SNS를 통하여 보다 심도 있는 토론과 논의를 제공하는 이슈로도 사용될 수 있다. 또한 웹 마이닝을 통해 획득한 텍스트 데이터에 대한 메타 분석의 한 방법이라는 측면에서 차별성이 있으며 이를 바탕으로 일주일, 한달, 일년 단위로 확장시켜 나가는 씨앗 역할로서 관련 연구에 유용하게 활용될 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	포털사이트의 실시간 검색어 서비스는 무엇인가?	포털 사이트의 실시간 검색어는 단위 시간 동안 입력 되는 검색어의 입력 횟수를 분석하여 그 증가 비율이 가장 큰 검색어부터 차례로 나타내는 서비스이다. 따라서 단순히 일정기간 동안 검색어의 입력 횟수가 많은 것을 보여주는 '종합 검색어'와 달리 현재 급증하는 비율을 보이는 사용자의 관심사에 대한 흐름을 살펴서 이슈와 트렌드를 파악할 수 있는 기초를 제공한다는 측면에서 포기할 수 없는 중요한 서비스로 인식하고 있다.
	포털의 실시간 검색어를 결정하는데 가장 중요한 역할을 하는 것은?	포털의 실시간 검색어를 결정하는데 가장 중요한 역할을 하는 것은 선정 기준이다. 사용자가 검색바에 입력한 검색어를 분석하여 가장 주목받는 검색어를 선정하여 다시 사용자에게 되돌려 주어 공감대를 형성함으로써 보다 많은 사용자들이 모이게 하는 것이므로 검색어 선정 기준은 보다 객관적이고 합리적이며 명확해야 한다.
	네이버의 실시간 급상승 검색어는 무슨 지표인가?	네이버의 실시간 급상승 검색어는 총 10개의 검색어를 1위에서 10위까지 현재 순위 바로 오른쪽 옆에 함께 표시하며 검색어 바로 오른쪽에는 상승 화살표와 함께 상대적 관심도에 해당되는 것을 표시한다. 이것은 해당 검색어 자체에 대한 상대적 관심도로서 검색어의 실시간 검색 횟수 및 순위를 과거의 것과 비교한 것을 보여주는 하나의 지표이다. 만약 검색어의 실시간 검색 횟수 및 순위와 비교할 과거 데이터가 없는 경우에는 숫자 대신 ‘NEW’라고 표시한다[13].

참고문헌 (18)

Guandong Xu, Lin Li, and Yanchun Zhang, Web Mining and Social Networking: Techniques and Applications. Springer, 2011
Han, Jiawei, and Chi Wang. "Mining latent entity structures from massive unstructured and interconnected data." Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014
Scott Spangler and Jeffrey Kreulen, "Mining the Talk: Unlocking the Business Value in Unstructured Information", IBM, 2007
Ronen Feldman and James Sanger, "The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data", Cambridge University, 2007
Kyoo-Sung Noh, "A Exploratory Study on Big-data based Election Campaign Strategy Model in South Korea ", Journal of Digital Convergence, v.11, no.12, 113-120, 2013

원문보기 상세보기
Miner G, Elder J, Hill T, Nisbet R, Delen D, and Fast A, "Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications", Elsevier Academic Press, 2012
Bing Liu, "Web Data Mining: Exploring Hyperlinks: Contents and Usage Data", Springer, 2011
Guandong Xu, Lin Li, and Yanchun Zhang, "Web Mining and Social Networking: Techniques and Applications". Springer, 2011
Su-Hyeon Namn, "Knowledge Creation Structure of Big Data Research Domain", Journal of Digital Convergence, v.13, no.9, 129-136, 2015

원문보기 상세보기
Bing Liu, "Sentiment Analysis and Subjectivity", Handbook of Natural Language Processing, 2010
Reis Pinheiro and Carlos Andre, "Social Network Analysis in Telecommunications". John Wiley & Sons, 2011
Golbandi, Nadav Golbandi, et al. "Expediting search trend detection via prediction of query counts." Proceedings of the sixth ACM international conference on Web search and data mining. ACM, 2013
Naver Search Help, "Realtime hot searches", https://help.naver.com/support/service/main.nhn?serviceNo606&categoryNo1989, 2015
Google Trends Help, Trends Searches, "https://support.google.com/trends/?hlen#topic6248107", 2015
KISO Validation Committee, "The third validation report about realtime hot searches of Naver", 2014
Lee, Changyong, Bomi Song, and Yongtae Park. "Design of convergent product concepts based on functionality: An association rule mining and decision tree approach." Expert Systems with Applications Vol. 39, No. 10, pp.9534-9542, 2012

상세보기
Hahsler, Michael, and Sudheer Chelluboina. "Visualizing Association Rules: Introduction to the R-extension Package arulesViz.", R project module, pp.223-238, 2011
KeunWon Kim, DongWoo Kim, Kyoo-Sung Noh, and Joo-Yeoun Lee, "An Exploratory Study on Improvement Method of the Subway Congestion Based Big Data Convergence", Journal of Digital Convergence, v.13, no.2, 35-42, 2015

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증