$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

실시간 검색어 연관 분석을 통한 핵심 이슈 선정
Selecting a key issue through association analysis of realtime search words 원문보기

디지털융복합연구 = Journal of digital convergence, v.13 no.12, 2015년, pp.161 - 169  

정민영 (광주여자대학교 실버케어학과)

초록
AI-Helper 아이콘AI-Helper

포털 사이트의 실시간 검색어는 현재 관심이 급상승하고 있는 이슈를 보여주기 위해 주로 검색횟수가 많은 순서에 따라 몇 초 간격으로 제공되고 있다. 그렇지만 너무 짧은 시간 내에 순위가 바뀌는 실시간 검색어의 특성 때문에 하루의 핵심 이슈를 비켜가는 문제가 발생한다. 본 논문에서 이러한 문제를 보완하기 위해 검색어들 사이의 연관 분석을 통하여 검색어들이 관련된 핵심 이슈를 도출하는 방법을 제안하고자 한다. 이를 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계를 통해 최상위 10개의 검색어를 도출한다. 그 다음으로 지지도와 신뢰도를 기반으로 연관 규칙을 추출하고 이를 가시화하는 그래프 결과를 바탕으로 핵심 이슈를 선정한다. 실험 결과는 단일 최상위 실시간 검색어보다 연관분석을 통해 높은 점수로 선정된 핵심 이슈가 더 큰 의미를 갖는다는 것을 보여준다.

Abstract AI-Helper 아이콘AI-Helper

Realtime search words of typical portal sites appear every few seconds in descending order by search frequency in order to show issues increasing rapidly in interest. However, the characteristics of realtime search words reordering within too short a time cause problems that they go over the key iss...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 이 단계에서는 1시간 단위로 실시간 급상승 검색어를 기준으로 집계하고 그 결과로 나온 점수합계의 내림차순으로 정렬한 다음, Top 10을 뽑아 24회(0~23시) 누적시킨다. 그런 다음 일일(24시간)동안 누적된 Top 10들을 대상으로 하여 오늘의 이슈 검색어(Top 20) 추출 단계와 시간별 이슈 검색어의 연관 분석 단계를 수행하고, 오늘의 이슈 검색어 및 연관 규칙가시화 단계를 거쳐 오늘의 핵심 이슈를 선정한다.
  • 그리고 이를 토대로 하루 동안 점수를 가장 높게 받은 이른바 ‘오늘의 이슈 검색어’와 하루 동안 수집된 시간별 실시간 검색어 사이의 연관 분석을 통하여 실시간 검색어들이 수렴하고 있는 이른바 ‘오늘의 핵심 이슈’를 도출하는 방법을 제안한다.
  • 따라서 본 논문에서는 너무 짧은 시간 내에 변화하는 실시간 검색어들로 인해 그날의 핵심 이슈를 향하는 집중도가 떨어지는 문제를 보완하기 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계 분석을 통해 실시간 검색어별 점수를 집계하고 합산된 점수의 내림차순으로 정렬하여 시간별 상위 실시간 검색어를 하루 동안 수집한다. 그리고 이를 토대로 하루 동안 점수를 가장 높게 받은 이른바 ‘오늘의 이슈 검색어’와 하루 동안 수집된 시간별 실시간 검색어 사이의 연관 분석을 통하여 실시간 검색어들이 수렴하고 있는 이른바 ‘오늘의 핵심 이슈’를 도출하는 방법을 제안한다.
  • 네이버의 경우, 실시간 급상승 검색어의 순위를 선정할 때 몇 가지 기준에 입각하여 자동으로 선정하는 방식을 사용하는 것을 원칙으로 한다. 먼저 일정기간을 기준으로 사용자가 입력한 검색어가 과거 시점이나 다른 검색어에 비해 상대적으로 급격하게 상승한 비율을 기준으로 순위를 선정한다. 따라서 일상적으로 많이 입력되어 일정기간 동안 검색횟수가 크지만 기준 시간 당 검색 횟수 비율에 큰 변화가 없는 검색어는 상위 순위에 오르지 못한다.
  • 본 논문에서 제안하는 방법은 단순한 개별 단어로만 이슈를 파악해야 하는 한계를 넘어서 연관된 특정 단어들을 한 덩어리의 이슈로 파악하게 함으로써 보다 실제적인 핵심 이슈로 활용할 수 있게 했다는 측면에서 의미가 있다. 특히 개별 단어의 일시성을 보완하여 연관 단어 들의 덩어리로서의 얼마간의 지속성을 확보할 수 있고 이를 기반으로 일자별 핵심 이슈를 예측하는 모델을 형성하는데 도움을 줄 수 있으며, SNS를 통하여 보다 심도 있는 토론과 논의를 제공하는 이슈로도 사용될 수 있다.
  • 본 논문에서는 실시간 검색어가 검색횟수의 크기 순서에 따라 몇 십초 간격으로 제공됨으로써 인기 검색어만을 알 수 있는 한계를 극복하기 위해 1분 간격으로 검색어를 수집하고 1시간 단위로 상위 10개의 이슈 검색어를 추출하여 24시간 동안 누적한 다음, 이를 사용하여 집단별 기술 통계 분석을 통해 ‘오늘의 이슈 검색어’를 선정함과 동시에 이슈 검색어들 사이의 연관 분석을 실시하여 연관성 있는 검색어 집단을 추출하여 가장 주목받는 이슈인 ‘오늘의 핵심 이슈’를 선정하고 이에 대한 실제적인 예를 제시하였다.
  • 실시간 급상승 검색어는 1분 단위로 네이버 홈페이지 원시코드를 읽어서 네이버의 실시간 급상승 검색어 순위 선정 기준을 토대로 게시된 10개의 실시간 급상승 검색어를 비롯하여 그와 관련된 순위, 상승상태, 상대적 관심도를 파싱(parsing)하여 추출한다. 파싱은 먼저 동적으로 얻는 홈페이지 원시코드에 대해 R언어의 문자열과 정규식 처리 함수를 이용하여 불필요한 태그를 뛰어 넘어 실시간 이슈 검색어 제목이 있는 위치를 찾은 다음, 이 후에 일정한 패턴으로 나타나는 검색어와 상승상태, 그리고 상대적 관심도를 추출하고 차례대로 순위를 획득하는 것을 10회 반복하는 것을 말한다.

대상 데이터

  • 본 논문에서는 네이버의 실시간 급상승 검색어를 기반으로 하여 [Fig. 1]과 같은 과정을 통해서 오늘의 핵심이슈를 선정한다. 먼저 실시간 급상승 검색어 수집 단계에서는 실시간 급상승 검색어를 파싱하여 중요도 점수를 계산하고 이를 검색어와 함께 저장하는 것을 1분 간격으로 24시간 반복한다.
  • 분석 대상은 ‘네이버’의 실시간 급상승 검색어로 하며 분석도구는 R 언어를 사용한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
포털사이트의 실시간 검색어 서비스는 무엇인가? 포털 사이트의 실시간 검색어는 단위 시간 동안 입력 되는 검색어의 입력 횟수를 분석하여 그 증가 비율이 가장 큰 검색어부터 차례로 나타내는 서비스이다. 따라서 단순히 일정기간 동안 검색어의 입력 횟수가 많은 것을 보여주는 '종합 검색어'와 달리 현재 급증하는 비율을 보이는 사용자의 관심사에 대한 흐름을 살펴서 이슈와 트렌드를 파악할 수 있는 기초를 제공한다는 측면에서 포기할 수 없는 중요한 서비스로 인식하고 있다.
포털의 실시간 검색어를 결정하는데 가장 중요한 역할을 하는 것은? 포털의 실시간 검색어를 결정하는데 가장 중요한 역할을 하는 것은 선정 기준이다. 사용자가 검색바에 입력한 검색어를 분석하여 가장 주목받는 검색어를 선정하여 다시 사용자에게 되돌려 주어 공감대를 형성함으로써 보다 많은 사용자들이 모이게 하는 것이므로 검색어 선정 기준은 보다 객관적이고 합리적이며 명확해야 한다.
네이버의 실시간 급상승 검색어는 무슨 지표인가? 네이버의 실시간 급상승 검색어는 총 10개의 검색어를 1위에서 10위까지 현재 순위 바로 오른쪽 옆에 함께 표시하며 검색어 바로 오른쪽에는 상승 화살표와 함께 상대적 관심도에 해당되는 것을 표시한다. 이것은 해당 검색어 자체에 대한 상대적 관심도로서 검색어의 실시간 검색 횟수 및 순위를 과거의 것과 비교한 것을 보여주는 하나의 지표이다. 만약 검색어의 실시간 검색 횟수 및 순위와 비교할 과거 데이터가 없는 경우에는 숫자 대신 ‘NEW’라고 표시한다[13].
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Guandong Xu, Lin Li, and Yanchun Zhang, Web Mining and Social Networking: Techniques and Applications. Springer, 2011 

  2. Han, Jiawei, and Chi Wang. "Mining latent entity structures from massive unstructured and interconnected data." Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014 

  3. Scott Spangler and Jeffrey Kreulen, "Mining the Talk: Unlocking the Business Value in Unstructured Information", IBM, 2007 

  4. Ronen Feldman and James Sanger, "The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data", Cambridge University, 2007 

  5. Kyoo-Sung Noh, "A Exploratory Study on Big-data based Election Campaign Strategy Model in South Korea ", Journal of Digital Convergence, v.11, no.12, 113-120, 2013 

  6. Miner G, Elder J, Hill T, Nisbet R, Delen D, and Fast A, "Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications", Elsevier Academic Press, 2012 

  7. Bing Liu, "Web Data Mining: Exploring Hyperlinks: Contents and Usage Data", Springer, 2011 

  8. Guandong Xu, Lin Li, and Yanchun Zhang, "Web Mining and Social Networking: Techniques and Applications". Springer, 2011 

  9. Su-Hyeon Namn, "Knowledge Creation Structure of Big Data Research Domain", Journal of Digital Convergence, v.13, no.9, 129-136, 2015 

  10. Bing Liu, "Sentiment Analysis and Subjectivity", Handbook of Natural Language Processing, 2010 

  11. Reis Pinheiro and Carlos Andre, "Social Network Analysis in Telecommunications". John Wiley & Sons, 2011 

  12. Golbandi, Nadav Golbandi, et al. "Expediting search trend detection via prediction of query counts." Proceedings of the sixth ACM international conference on Web search and data mining. ACM, 2013 

  13. Naver Search Help, "Realtime hot searches", https://help.naver.com/support/service/main.nhn?serviceNo606&categoryNo1989, 2015 

  14. Google Trends Help, Trends Searches, "https://support.google.com/trends/?hlen#topic6248107", 2015 

  15. KISO Validation Committee, "The third validation report about realtime hot searches of Naver", 2014 

  16. Lee, Changyong, Bomi Song, and Yongtae Park. "Design of convergent product concepts based on functionality: An association rule mining and decision tree approach." Expert Systems with Applications Vol. 39, No. 10, pp.9534-9542, 2012 

  17. Hahsler, Michael, and Sudheer Chelluboina. "Visualizing Association Rules: Introduction to the R-extension Package arulesViz.", R project module, pp.223-238, 2011 

  18. KeunWon Kim, DongWoo Kim, Kyoo-Sung Noh, and Joo-Yeoun Lee, "An Exploratory Study on Improvement Method of the Subway Congestion Based Big Data Convergence", Journal of Digital Convergence, v.13, no.2, 35-42, 2015 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로