[논문]시계열분석과 인공신경망을 이용한 실시간검색어 변화 예측

정민영

doi:10.14400/jdc.2017.15.12.333

시계열분석과 인공신경망을 이용한 실시간검색어 변화 예측
Predicting changes of realtime search words using time series analysis and artificial neural networks 원문보기

디지털융복합연구 = Journal of digital convergence, v.15 no.12, 2017년, pp.333 - 340

초록
AI-Helper

실시간검색어는 지금 바로 이슈가 되는 검색어의 검색 증가율이 단기간에 급상승하는 것을 중심으로 하기 때문에 일정기간 지속적으로 관심도를 유지하고 있는 이슈를 나타내지 못하고 이들이 가까운 미래에 어떤 변화를 보이는지에 대한 것도 알 수 없는 한계를 가지고 있다. 본 논문에서는 이러한 한계를 극복할 수 있도록 일정기간 동안 상위 10위 안에 속한 적이 있는 실시간검색어에 대해 일자별, 시간별 지속성을 평가하여 꾸준히 관심을 받는 검색어를 추출한다. 그런 다음, 이들 중 상위에 속하는 검색어의 관심도가 어떻게 변화하는지를 알 수 있게 하는 시계열 분석과 신경망을 이용하는 방법을 제시하고 이를 통해 도출한 실제 예를 통해 가까운 미래의 변화량을 예측한 결과를 보인다. 일자별로는 시계열 분석을, 시간별로는 인공신경망의 학습을 통해 예측하는 것이 좋은 결과를 보인다는 것을 알 수 있다.

Abstract ▼ AI-Helper

Since realtime search words are centered on the fact that the search growth rate of an issue is rapidly increasing in a short period of time, it is not possible to express an issue that maintains interest for a certain period of time. In order to overcome these limitations, this paper evaluates the daily and hourly persistence of the realtime words that belong to the top 10 for a certain period of time and extracts the search word that are constantly interested. Then, we present the method of using the time series analysis and the neural network to know how the interest of the upper search word changes, and show the result of forecasting the near future change through the actual example derived through the method. It can be seen that forecasting through time series analysis by date and artificial neural networks learning by time shows good results.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 이러한 한계를 극복할 수 있도록 일정기간 실시간검색어 상위 10에 속한 적이 있는 것에 대한 검색 지속성을 일자별, 시간별로 평가하여 일자별 지속성이 큰 상위 10개와 시간별 지속성이 큰 상위 10개를 구하고, 이를 바탕으로 일정기간 동안 변화량을 분석하여 가까운 미래의 변화를 예측하는 방법과 이 방법을 적용한 실제적인 사례를 제시하고자 한다.
본 논문에서는 [Table 1]과 같이 입력층의 노드수에 따라 다양한 은닉층, 출력층의 노드수를 정의하여 최적의 인공신경망 모델을 선정하고자 테스트하였고 그 결과 평균오차가 비교적 작고 12시간을 예측할 수 있는 모델 6을 최적의 모델로 선정하였다. 은닉층이 1개 층인 경우에 사용할 수 있는 R언어의 nnet 패키지에 있는 nnet()함수[19]를 사용하여 인공신경망 학습을 수행하고 최적의 인공신경망 모델에 의해 12시간까지의 미래를 예측한다.
본 논문에서는 실시간검색어가 단기간 급상승 검색증가율을 기준으로 상위 10개를 선정하는 미시적 관점때문에 일정기간 꾸준히 관심도를 유지하는 검색 지속성과 검색어가 가까운 미래에 어떤 변화를 보이는지에 대한 검색 방향성을 알 수 없는 한계를 극복할 수 있도록 하기 위하여 일정기간 실시간검색어의 검색 지속성을 일자별, 시간별로 변화량 중심으로 평가하여 일자 단위 변화량 기반의 '출현일자 상위 10 검색어'에 대한 일자별 시계열 분석과 시간 단위 변화량 기반의 '출현시간 상위 10 검색어'에 대한 인공신경망 학습에 의한 변화 예측을 하는 방법을 제시하였다.
본 논문에서는 이를 개선하여 실시간검색어의 지속성을 추출하기 위한 방법으로 제시한 것이 일자 단위 변화량을 기준으로 집계하는 방법과 시간 단위 변화량을 기준으로 집계하는 방법이다.
이 중에서 지수평활법은 단기간에 발생하는 불규칙데이터를 평활화 하되 최근의 시계열 자료에 더 가중치를 두어 예측하는 방법이므로 가까운 미래를 예측하는데 많이 사용한다[17]. 본 논문에서는 지수평활법에 의한 시계열 분석을 통해 가까운 미래를 예측하고자 한다.

제안 방법

여기서 검색어와 일자 그룹별건수는 검색어와 일자와 시간에 대한 건수이므로 검색어와 일자별 출현시수가 된다. 그리고 그 결과에 대해 한번 더 summarise() 함수를 적용하여 검색어 그룹별 건수, 일자별 출현시수의 합계, 일자별 건수의 합계, 점수 합계, 점수 평균을 구한다. 여기서도 검색어 그룹별 건수는 검색어별 일자에 대한 건수이므로 검색어별 출현일수가 된다.
테스트 단계에서는 정의된 인공신경망구조를 토대로 학습 입력 데이터와 학습 목표 데이터를 적용하여 학습을 반복적으로 수행함으로써 학습된 인공신경망 모델을 생성한다. 그리고 예측 입력 데이터를 새롭게 생성된 인공신경망 모델에 적용하여 예측 결과를 추출하고 이것이 예측 비교 실제 데이터와 일치하는지를 평가하여 오차를 구한다. 최적모형 선정 단계에서는 여러 가지 형태로 정의된 인공신경망구조에 따라 시험한 결과로 나온 학습된 인공신경망 모델 중에서 오차가 작은 것을 골라 최적의 모형으로 선정한다.
다음으로 시간 단위 변화량을 기준으로 집계하기 위해서는 일단 검색어와 일자와 시간별로 group_by() 함수에 의해 그룹핑하고 summarise() 함수에 의해 검색어와 일자와 시간 그룹별 건수, 점수 합계, 점수 평균을 구한 다음, 그 결과에 대해 다시 summarise() 함수를 적용하여 검색어와 일자 그룹별 건수, 일자별 건수의 합계, 점수합계, 점수 평균을 구한다. 여기서 검색어와 일자 그룹별건수는 검색어와 일자와 시간에 대한 건수이므로 검색어와 일자별 출현시수가 된다.
먼저 일자 단위 변화량을 기준으로 집계하기 위해서는 검색어와 일자별로 group_by() 함수에 의해 그룹핑하고 summarise() 함수에 의해 검색어와 일자 그룹별 건수, 점수 합계, 점수 평균을 구한 다음, 그 결과에 대해 다시 summarise() 함수를 적용하여 검색어 그룹별 건수, 일자별 건수의 합계, 점수 합계, 점수 평균을 구한다. 여기서 검색어 그룹별 건수는 검색어별 일자에 대한 건수이므로 검색어별 출현일수가 된다.
본 논문에서 이루어지는 데이터 수집과 저장, 집계 및 정렬, 그리고 이를 기반으로 하는 분석 및 예측은 R언어를 통해 수행한다[15].
본 논문에서는 '출현시간 상위 10 검색어' 중 특정 검색어에 대한 일자와 시간별 시간 단위 점수 변화량를 집계하고 이를 기초로 [Fig. 5]와 같은 시계열분석의 결과를 개선하여 의미 있는 예측결과를 도출하기 위하여, 학습을 통해 생성되는 인공신경망 모델을 적용하여 현재 이후의 12시간 동안 변화 추이를 예측한다.
테스트 단계에서는 최적 모델로 선정된 신경망 모델 6에 적용된 인공신경망구조의 정의를 토대로 학습 입력 데이터와 학습목표 데이터를 적용하여 학습을 반복적으로 수행함으로써 학습된 인공신경망 모델을 다시 새롭게 생성한다. 예측 단계에서는 예측 입력 데이터를 다시 새롭게 생성된 인공신경망 모델에 적용하여 12시간의 예측 결과를 추출한다.
본 논문에서는 [Table 1]과 같이 입력층의 노드수에 따라 다양한 은닉층, 출력층의 노드수를 정의하여 최적의 인공신경망 모델을 선정하고자 테스트하였고 그 결과 평균오차가 비교적 작고 12시간을 예측할 수 있는 모델 6을 최적의 모델로 선정하였다. 은닉층이 1개 층인 경우에 사용할 수 있는 R언어의 nnet 패키지에 있는 nnet()함수[19]를 사용하여 인공신경망 학습을 수행하고 최적의 인공신경망 모델에 의해 12시간까지의 미래를 예측한다.
입력층과 출력층, 그리고 1 단계의 은닉층을 갖는 다층 인공신경망의 지도학습 방식을 사용하여 최적의 인공신경망 모델을 선정하는 최적 모델 선정 과정과 선정된 모델을 사용하여 가까운 미래를 예측하는 미래 예측 과정을 수행한다.
학습데이터 준비 단계에서는 최적모형 선정을 위한 학습 입력 데이터, 학습 목표 데이터, 예측 입력 데이터, 예측 비교 실제 데이터 등을 준비한다. 테스트 단계에서는 정의된 인공신경망구조를 토대로 학습 입력 데이터와 학습 목표 데이터를 적용하여 학습을 반복적으로 수행함으로써 학습된 인공신경망 모델을 생성한다. 그리고 예측 입력 데이터를 새롭게 생성된 인공신경망 모델에 적용하여 예측 결과를 추출하고 이것이 예측 비교 실제 데이터와 일치하는지를 평가하여 오차를 구한다.
현재 포털 사이트에서 검색횟수 순간증가율을 근거로 제공하는 실시간검색어의 일시성을 개선하기 위해, 데이터 수집기간 동안 상위 10 검색어에 대해 순위별로 점수를 부여하여 일단 저장해둔다. 그리고 이것을 읽어서 검색어를 그룹으로 하여 점수를 집계하고 그 점수합계가 큰 것부터 순서대로 정렬해서 상위 10개를 추출해낸 것이 ‘관심도 상위 10 검색어’이며 '손연재', '슈퍼문', '추미애', '김연아', '천호식품', '불야성', '김제동', '박근혜계엄령', '장시호', '길가에버려지다' 순으로 나타났다.

대상 데이터

실시간검색어 자료는 2016. 11.
실시간검색어는 네이버(Naver)의 실시간급상승검색어와 다음(Daum)의 실시간이슈검색어를 대상으로 수집한다. 두 포털 사이트 모두 검색 요청된 검색어의 증가비율이 가장 높은 것부터 내림차순으로 상위 10개씩 보여주는 서비스로, 이전 시점에 비해 상대적으로 증가 비율이 급격하게 상승한 것을 기준으로 한다.

데이터처리

시계열 분석은 최근의 자료에 중점을 두고 가까운 미래를 예측하는 지수평활법을 적용하였고, 양과 음의 양쪽 방향 변화가능성을 나타내는 실례와 함께 2일간의 변화가능성을 예측한 결과를 보여주었다. 그리고 인공신경망은 입력층, 은닉층, 출력층을 갖는 다층신경망으로 구성하되 각 노드의 수를 변화시켜 정의한 인공신경망구조를 적용한 결과로 비교적 적은 오차를 갖는 것을 최적의 모델로 선택하고, 여기에 예측을 위한 데이터를 사용하여 반복 학습을 시켜서 새로운 인공신경망 모델을 만들고, 미리 준비한 예측 데이터를 적용하여 12시간의 예측치를 추출하여 그 결과를 보였다.

성능/효과

시계열 분석은 최근의 자료에 중점을 두고 가까운 미래를 예측하는 지수평활법을 적용하였고, 양과 음의 양쪽 방향 변화가능성을 나타내는 실례와 함께 2일간의 변화가능성을 예측한 결과를 보여주었다. 그리고 인공신경망은 입력층, 은닉층, 출력층을 갖는 다층신경망으로 구성하되 각 노드의 수를 변화시켜 정의한 인공신경망구조를 적용한 결과로 비교적 적은 오차를 갖는 것을 최적의 모델로 선택하고, 여기에 예측을 위한 데이터를 사용하여 반복 학습을 시켜서 새로운 인공신경망 모델을 만들고, 미리 준비한 예측 데이터를 적용하여 12시간의 예측치를 추출하여 그 결과를 보였다. 이는 실시간검색어에 내재된 미시적 관점을 확대하여 보다 거시적 관점에서 검색 지속성을 평가할 수 있는 기본틀을 제공하여 향후 누적되어가는 데이터의 크기만큼 기간별 범위를 넓혀서 유의미한 분석결과를 낳을 수 있는 가능성을 제공했다는 측면에서 의의가 있다.
여기서도 검색어 그룹별 건수는 검색어별 일자에 대한 건수이므로 검색어별 출현일수가 된다. 따라서 최종적으로 검색어별, 출현일자별, 출현시수별, 출현시간 건수별, 점수합계별, 점수평균별 분류가 가능하다.
본 논문에서 핵심이 되는 시간 단위 변화량은 근본적으로 검색 지속성을 평가하는 가장 기초적인 역할을 하며 이를 근간으로 시간별, 오전오후별, 일자별, 주간별, 월별, 년별로 변화량을 분석할 수 있다는 것을 의미한다.
시계열 분석에 의한 일자별 예측 실험 결과, ‘(1)박근혜’는 미세한 상승, ‘(2)장시호’는 높은 상승, ‘(3)정유라’는 하향, ‘(4)이재명’은 약간 상승의 추세를 보인 것으로 예측되었다.

후속연구

그러나 시간 단위 변화량 기반의 검색어에 대한 시계열 분석과 일자 단위의 변화량 기반의 인공신경망 학습에 의한 변화 예측은 비교적 연속성이 부족한 실시간검색어의 특성과 수집된 실험 데이터 크기의 한계 때문에 유의미한 결과를 갖지 못했다. 이를 위해서 데이터 수집을 보다 안정적으로 장기간 할 수 있는 틀을 갖추고 인공신경망의 은닉층을 확대하여 딥러닝[20]을 할 수 있는 심층신경망을 구성하는 방법과 SNS 분석[21]에 대한 추가적인 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	실시간검색어의 한계점은 무엇인가?	하지만, 주로 사용자의 관심도가 일시적으로 급상승하는 검색어를 제공하는 서비스를 중심으로 하기 때문에 일정기간 동안 지속적으로 관심을 받는 검색어에 관한 것은 알 수 없을 뿐 아니라 지속성이 높은 검색어가 가까운 미래에 어떻게 변화할지에 대한 흐름을 파악하는 정보를 제공하기는 힘들다[11,12]. 이러한 서비스와 유사하게 현재까지의 일정기간 동안 변화를 알려주는 것으로 구글 트랜드가 있지만 이 서비스는 특정 검색어의 최대 검색량에 대한 상대적 지표만을 알려주므로 다른 검색어들과의 비교할 수 있는 질적인 차이를 파악하기 힘들다.
	시계열 분석이란 무엇인가?	시계열 분석은 시간에 따른 변화량을 계열화한 시계열 데이터를 시간의 흐름에 따라 변화하는 함수로 표현하고 이를 통해 흐름을 분석하는 것으로, 과거에서 현재까지의 변화량을 분석함으로써 가까운 미래에 대한 예측하는데 활용되고 있다[16]. 대표적인 시계열 분석 방법에는 회귀법, 이동평균법, 지수평활법, 요소분할법 등이 있다.
	시계열 분석 방법에는 무엇이 있는가?	시계열 분석은 시간에 따른 변화량을 계열화한 시계열 데이터를 시간의 흐름에 따라 변화하는 함수로 표현하고 이를 통해 흐름을 분석하는 것으로, 과거에서 현재까지의 변화량을 분석함으로써 가까운 미래에 대한 예측하는데 활용되고 있다[16]. 대표적인 시계열 분석 방법에는 회귀법, 이동평균법, 지수평활법, 요소분할법 등이 있다. 이 중에서 지수평활법은 단기간에 발생하는 불규칙데이터를 평활화 하되 최근의 시계열 자료에 더 가중치를 두어 예측하는 방법이므로 가까운 미래를 예측하는데 많이 사용한다[17].

참고문헌 (21)

Min Chen, Shiwen Mao, and Yunhao Liu, "Big Data: A Survey", Mobile Netw Appl, Vol. 19, pp. 171-209, 2014.

상세보기
Ibrahim Abaker Targio Hashem, Ibrar Yaqoob, Nor Badrul Anuar, Salimah Mokhtar, Abdullah Gani, and Samee Ullah Khan, "The rise of big data on cloud computing:Review and open research issues", Information Systems, Vol. 47, pp. 98-115, 2015.

상세보기
Su-Hyeon Namn, "Knowledge Creation Structure of Big Data Research Domain", Journal of Digital Convergence, Vol. 13, No. 9, pp. 129-136, 2015.

원문보기 상세보기
Shinkon Kim, Sukjun Lee, and JeonggonA Kim, "Study on the Development of Phased Big Data Distribution Model Based on Big Data Distribution Ecology", Journal of Digital Convergence, Vol. 14, No. 5, pp. 95-106, 2016.
Naver Search Help, "Realtime hot searches", https://help.naver.com/support/service/main.nhn?serviceNo606&categoryNo1989, 2015.
Daum Search Help, "Realtime hot issues" http://cs.daum.net/faq/15/14957.html#28971, 2016.
Min-Yeong Chong, "Selecting a key issue through association analysis of realtime search words", Journal of Digital Convergence, Vol. 13, No. 12, pp. 161-169, 2015.
Min-Yeong Chong, "Extracting week key issues and analyzing differences from realtime search keywords of portal sites", Journal of Digital Convergence, Vol. 14, No. 12, pp. 237-243, 2016.
Kyoung-HoChoi,Jeong-Hye Park, "The Analysis of Public Awareness about Literary Therapy by Utilizing Big Data Analysis - The aspects of convergence literature and statistics", Journal of Digital Convergence, Vol. 13, No. 4, pp. 395-404, 2015.

원문보기 상세보기
Matthew A. Russell, "Mining the Social Web:Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub and More", p.411, O'Reilly Media, Inc., 2013.
Xiao Fang, and Olivia R. Liu Sheng, "Designing a better web portal for digital government: a web-mining based approach", Proceedings of the 2005 national conference on Digital government research. Digital Government Society of North America, pp. 277-278, 2005.
KISO Validation Committee, "The fourth validation report about realtime hot searches of Naver", 2015.
Simon Dennis, Peter Bruza and Robert McArthur, "Web Searching: A Process-Oriented Experimental Study of Three Interactive Search Paradigms", Journal of the American Society for Information Science and Technology, Vol. 53, No. 2, pp. 120-133, 2002.

상세보기
Seong-Hoon Lee and Dong-Woo Lee, "Current Status of Big Data Utilization", Journal of Digital Convergence, Vol. 11, No. 2, pp. 229-233, 2013.

원문보기 상세보기
Jon Starkweather, "Introduction to basic Text Mining in R", p.10, University of North Texas, 2014.
George E. P. Box,Gwilym M. Jenkins,Gregory C. Reinsel, and Greta M. Ljung, Time Series Analysis: Forecasting and Control, John Wiley & Sons, 2016.
Alysha M De Livera, Rob J Hyndman, and Ralph D Snyder, "Forecasting time series with complex seasonal patterns using exponential smoothing", Journal of the American Statistical Association, Vol. 106, pp. 1513-1527, 2011.

상세보기
Guoqiang Zhang, B. Eddy Patuwo, and Michael Y. Hu, "Forecasting with artificial neural networks: The state of the art", International Journal of Forecasting, Vol. 14, pp. 35-62, 1998.

상세보기
Frauke Gunther and Stefan Fritsch, "neuralnet: Training of Neural Networks", The R Journal Vol. 2, No. 11, pp. 30-38, 2010.
Yoon-Su Jeong, "Subnet Generation Scheme based on Deep Learning for Healthcare Information Gathering", Journal of Digital Convergence, Vol. 15, No. 3, pp. 221-228, 2017.

원문보기 상세보기
Eun-Jung Choi, Sea-Won Choi, Se-Yeon Lee, and Myhung-Joo Kim, "Analysis of the effect of the mention in SNS on the result of election", Journal of Digital Convergence, Vol. 15, No. 2, pp. 191-197, 2017.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증