[논문]주식 투자 추천 시스템을 위한 효율적인 저장 구조

하유민; 김상욱; 박상현; 임승환

doi:10.3745/kipstd.2009.16-d.2.169

주식 투자 추천 시스템을 위한 효율적인 저장 구조
Efficient Storage Structures for a Stock Investment Recommendation System 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.16D no.2, 2009년, pp.169 - 176

하유민 (연세대학교 컴퓨터과학) , 김상욱 (한양대학교 정보통신학부) , 박상현 (연세대학교 컴퓨터과학과) , 임승환 (한양대학교 전자통신컴퓨터공학과)

초록
AI-Helper

규칙 탐사는 주어진 데이터베이스로부터 빈번하게 발생하는 패턴들을 발견하는 연산이다. 규칙 탐사 연산을 이용하여 주식 데이터베이스로부터 유용한 규칙들을 발견하고 이를 토대로 주식 투자자들에게 주식의 매매를 적절한 시점에 추천할 수 있다. 본 논문에서는 이러한 주식 투자 시스템에서 질의를 효율적으로 처리하기 위한 저장 구조에 관하여 논의한다. 먼저, 주식 투자 추천을 지원하기 위한 다섯 가지 저장 구조들을 제안하고, 각 구조들의 특징과 장단점을 비교한다. 또한, 실제 주가 데이터를 이용한 실험을 통하여 제안된 저장 구조들의 성능을 검증한다. 실험 결과에 의하면, 히스토그램을 이용한 저장 구조의 경우, 기존의 기법에 비하여 질의 처리 성능이 약 170배 개선되는 것으로 나타났다.

Abstract ▼ AI-Helper

Rule discovery is an operation that discovers patterns frequently occurring in a given database. Rule discovery makes it possible to find useful rules from a stock database, thereby recommending buying or selling times to stock investors. In this paper, we discuss storage structures for efficient processing of queries in a system that recommends stock investments. First, we propose five storage structures for efficient recommending of stock investments. Next, we discuss their characteristics, advantages, and disadvantages. Then, we verify their performances by extensive experiments with real-life stock data. The results show that the histogram-based structure improves the query performance of the previous one up to about 170 times.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

특히, 시스템을 이용하는 많은 투자자들이 다수의 관심 종목에 대하여 질의 처리를 요청할 수 있으므로, 이를 보다 효과적으로 처리하기 위한 방안이 필요하다. 따라서 본 논문에서는 이러한 질의를 처리할 때 발생하는 디스크 액세스 수 및 CPU 계산을 줄일 수 있는 다양한 저장 구조를 제안하고, 이들의 성능을 평가한다.
본 논문에서는 과거의 주가 데이터베이스를 분석함으로써 지지도와 신뢰도가 사전에 지정된 값 이상인 규칙들을 탐사하고, 투자자의 관심 종목의 최근 주가 변화 패턴이 탐사된 어떤 규칙의 헤드 H와 매치됨이 발견되면, 해당 규칙의 바디 B를 참조하여 해당 종목에 대한 투자 유형을 투자자에게 추천하는 기법을 제안한다. 투자 유형은 ‘매수’, ‘매도’, ‘보유’, ‘무추천’ 등이 있을 수 있다.
본 연구에서는 주가를 예측하는 규칙 모델을 사용하는 실시간 규칙 추천 시스템에서 각 질의를 빠르게 처리하기 위하여, 다섯 가지 저장 구조들을 제안하였다. 제안된 데이터 저장 구조들은 선행 연구의 질의 처리 방법과 동일한 처리 결과를 얻으면서도 디스크 액세스 수를 감소시켜 질의 처리 시간을 줄이는 것을 목표로 고안되었으며, 정확도, 저장 공간, 처리 성능 측면에서 각각 다른 특징을 가진다.
본 장에서는 제 2장에서 설명한 규칙 모델과 질의 모델을 실제로 구현한 시스템에서 이러한 모델을 대상으로 효율적으로 질의 처리를 하기 위한 저장 구조들을 제안하고, 장단점을 논의한다.

가설 설정

2) 비례식을 사용하여 주가 변화율이 한 구간 안에 균일하게 분포되어 있다고 가정하고 계산하는 방법이 있다.

제안 방법

주가 데이터는 실수값을 가지므로 빈번한 패턴이 발생할 가능성은 매우 낮다. 따라서 주가 변화율의 도메인을 다수의 구간들로 나누어, 실수값인 각 주가 변화율을 구간과 대응되는 문자로 변환한 후, 이로부터 빈번 패턴을 탐색하는 방법을 사용한다. 탐색된 빈번 패턴들은 매번 주가가 갱신될 때마다 다수의 질의들에 대하여 빠르게 검색되어야 하므로, 이들에 대한 인덱스를 구성하여 저장한다.
본 논문에서는 세 가지 종류의 실험을 수행하였다. 실험 1에서는 각 저장 구조들이 필요로 하는 디스크 공간의 크기를 비교하였다.
본 실험에서 성능 평가의 대상으로 선정한 저장 구조들은 원본 데이터를 가공하지 않고 저장하는 OSM, 함께 요청될 데이터들을 밀집하여 저장하는 VSM, 주가 변화량의 누적값을 저장하는 ADSM, 예측 시점을 고정하여 주가의 변화량을 저장하는 RSM, 히스토그램을 사용하는 HSM의 다섯 가지이다.
원본 데이터와 비교하면 오차가 발생하나, 분할 구간의 크기가 질의의 보유 변동률 단위보다 클 경우에도 질의 처리가 가능하다는 장점을 가진다. 본 연구에서는 비례식을 사용하여 주가 변화율을 계산하고, 이를 이용하여 오차를 줄이는 방법을 채택한다.
본 논문에서는 세 가지 종류의 실험을 수행하였다. 실험 1에서는 각 저장 구조들이 필요로 하는 디스크 공간의 크기를 비교하였다. 실험 2에서는 각 저장 구조들을 이용하여 질의처리를 수행하였을 때에 걸린 시간을 비교하였다.
실험 1에서는 각 저장 구조들이 필요로 하는 디스크 공간의 크기를 비교하였다. 실험 2에서는 각 저장 구조들을 이용하여 질의처리를 수행하였을 때에 걸린 시간을 비교하였다. 실험 3에서는 원본 데이터의 크기를 변경하며 수행 시간을 비교함으로써 각 저장구조들의 확장성을 검증하였다.
실험 2에서는 각 저장 구조들을 이용하여 질의처리를 수행하였을 때에 걸린 시간을 비교하였다. 실험 3에서는 원본 데이터의 크기를 변경하며 수행 시간을 비교함으로써 각 저장구조들의 확장성을 검증하였다.
따라서 참고 문헌[6]에서는 규칙 탐사를 기반으로 하여 전술한 요건들을 만족하는 주식 투자에 특화된 시스템을 제안하였다. 이 시스템은 주가 데이터에서 빈번하게 발생하는 패턴들을 발견하고, 각 패턴을 지지하는 과거의 주가 데이터를 참조하여 해당 빈번 패턴 발생 이후의 변화 경향을 예측한다. 각 투자자는 자신이 원하는 투자 조건을 질의의 형태로 입력할 수 있으며, 예측 결과가 이러한 조건을 만족하면 해당 투자자에게 매수/매도를 추천한다.

대상 데이터

본 연구에서는 성능 분석을 위하여 3개월 분량의 실제 한국의 주가 데이터베이스 KOSPI[13]를 사용하였다. 빈번 패턴이 발생한 이후의 최대 주가 길이는 20으로 하였으며, 다음과 같은 조건으로 905개 종목에 대하여 종목당 각각 108개의 질의들을 생성하였다.
본 장에서는 제 3장에서 제안한 저장 구조들을 대상으로 질의 처리 성능을 평가한다. 제 4.
실험 3에서는 원본 데이터의 크기 증가에 따른 각 저장 구조들의 수행 시간을 비교하기 위하여 원본 데이터를 2배, 3배, 4배로 복사함으로써 크기를 증가시킨 데이터를 사용하였다. (그림 10)은 실험 3의 결과를 보인 것이다.
실험을 위한 환경으로는 2.4GHz Pentium IV 2.4GHz 프로세서에 1GB 메모리를 장착한 PC와 MS 윈도우 2003 서버 운영체제를 사용하였다.

데이터처리

제안된 데이터 저장 구조들은 선행 연구의 질의 처리 방법과 동일한 처리 결과를 얻으면서도 디스크 액세스 수를 감소시켜 질의 처리 시간을 줄이는 것을 목표로 고안되었으며, 정확도, 저장 공간, 처리 성능 측면에서 각각 다른 특징을 가진다. 실험을 통한 성능 평가를 수행함으로써 제안한 저장 구조들을 서로 비교 분석하였다. 실험 결과에 의하면, 히스토그램을 사용하는 HSM이 가장 좋은 질의 처리 성능을 보였으며, 원본 데이터의 크기가 증가하더라도 질의 처리 성능이 크게 변화하지 않는 것으로 나타났다.

성능/효과

반면에 HSM은 OSM 보다도 오히려 적은 디스크 공간을 사용하였다. 따라서 다양한 예측시점에 대하여 각각 HSM 저장 구조를 생성함으로써, HSM의 단점인 특정 예측 시점만을 지원한다는 문제점을 극복할 수 있다.
실험 결과, 각 저장 구조들이 사용한 디스크 공간은 OSM 은 0.11, VSM은 1.2, ADSM은 1.2, RSM은 1.1기가 바이트로 나타났다. VSM, ADSM, RSM은 원본 데이터를 가공하지 않고 저장한 OSM에 비해 약 12배 많은 디스크 공간을 사용하였다.
실험 결과, 원본 데이터의 크기가 증가함에 따라 HSM을 제외한 나머지 네 개의 저장 구조를 이용한 질의 처리 시간은 선형적으로 증가하였다. 이것은 원본 데이터의 크기가 증가할수록 저장 구조를 위한 저장 공간의 크기가 함께 증가하게 되어 질의 처리 시간의 증가를 초래하기 때문이다.
질의 Q를 결정하는 모든 변수값들은 투자자가 원하는 대로 등록할 수 있으므로, 이 질의 모델은 투자자들의 다양한 성향을 유연하게 수용할 수 있다는 장점을 가진다. 실험 결과, 이 주식 투자 추천 시스템은 70% 이상의 예측 정확도를 가지는 것으로 나타났다.
실험 결과, 질의 처리에 걸린 시간은 OSM은 3553.01, VSM은 3775.97, ADSM은 3391.83, RSM은 2763.12, HSM은 20.89초로 나타났다. VSM의 경우, 원본 데이터를 가공하지 않고 저장하는 OSM에 비하여 오히려 수행 시간이 약 1.
실험 결과를 종합하면, 히스토그램을 사용하는 HSM이 디스크 공간, 질의 처리 시간, 확장성 측면에서 가장 우수한 성능을 보이는 것으로 나타났다.
실험을 통한 성능 평가를 수행함으로써 제안한 저장 구조들을 서로 비교 분석하였다. 실험 결과에 의하면, 히스토그램을 사용하는 HSM이 가장 좋은 질의 처리 성능을 보였으며, 원본 데이터의 크기가 증가하더라도 질의 처리 성능이 크게 변화하지 않는 것으로 나타났다.
002→15] 로 계산할 수 있다. 원본 데이터와 비교하면 오차가 발생하나, 분할 구간의 크기가 질의의 보유 변동률 단위보다 클 경우에도 질의 처리가 가능하다는 장점을 가진다. 본 연구에서는 비례식을 사용하여 주가 변화율을 계산하고, 이를 이용하여 오차를 줄이는 방법을 채택한다.
이를 위하여 모든 빈번 패턴들에 대하여 각 패턴이 발생한 이후에 나타나는 일정 길이만큼의 주가들을 추출하여 함께 저장해 둔다. 이 결과, 질의 처리 시 이렇게 함께 저장된 데이터를 순차적으로 디스크로부터 액세스하게 되므로 랜덤 액세스를 하는 OSM과 비교하여 성능 향상을 기대할 수 있다. (그림 3)은 이 방법을 나타낸 것이다.
본 연구에서는 주가를 예측하는 규칙 모델을 사용하는 실시간 규칙 추천 시스템에서 각 질의를 빠르게 처리하기 위하여, 다섯 가지 저장 구조들을 제안하였다. 제안된 데이터 저장 구조들은 선행 연구의 질의 처리 방법과 동일한 처리 결과를 얻으면서도 디스크 액세스 수를 감소시켜 질의 처리 시간을 줄이는 것을 목표로 고안되었으며, 정확도, 저장 공간, 처리 성능 측면에서 각각 다른 특징을 가진다. 실험을 통한 성능 평가를 수행함으로써 제안한 저장 구조들을 서로 비교 분석하였다.

후속연구

따라서 시계열 데이터로부터 규칙을 발견하고, 이를 이용하여 미래에 출현할 값을 예측할 수 있다. 이를 주식 투자에 적용하여 주가 데이터의 분석을 통해서 지수의 흐름, 주가의 변화 시점, 거래 시세 등을 예측하여 주식의 매매를 적절한 시점에 추천한다면, 주식 투자자들의 성공적인 주식 투자를 기대할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	시계열 데이터는 무엇인가?	시계열 데이터(time-series data)는 시간의 흐름에 따라 객체의 변화를 관측하여 얻어진 값들의 리스트이다[1, 2, 3, 4, 9]. 시계열 데이터의 대표적인 예로서 주가의 변화를 기록한 주가 데이터(stock data)를 들 수 있다.
	시계열 데이터의 대표적인 예는 무엇인가?	시계열 데이터(time-series data)는 시간의 흐름에 따라 객체의 변화를 관측하여 얻어진 값들의 리스트이다[1, 2, 3, 4, 9]. 시계열 데이터의 대표적인 예로서 주가의 변화를 기록한 주가 데이터(stock data)를 들 수 있다. 이러한 시계열 데이터의 임의의 시점의 값은 이전까지의 값들이 보인 변화의 경향에 의해 영향을 받는다[5, 10].
	규칙 모델에서 규칙은 규칙 헤드(rule head)와 규칙 바디(rule body)로 구성되는데, 각각은 무엇인가?	규칙 모델에서 규칙은 규칙 헤드(rule head)와 규칙 바디(rule body)로 구성된다[11,12]. 규칙 헤드는 시간에 따라 변하는 주가 데이터에서 빈번하게 발견된 패턴이며, 규칙 바디는 일정 시간 간격이 지난 후 주가 변화 양상을 가리킨다. 이를 좀 더 명확히 정의하면 다음과 같다.

참고문헌 (13)

R. Agrawal, C. Faloutsos, and A. Swami, 'Efficient Similarity Search in Sequence Databases,' In Proc. Int'l. Conf. on Foundations of Data Organization and Algorithms, FODO, pp. 69-84, Oct., 1993

상세보기
S. W. Kim, S. H. Park, and W. W. Chu, 'An Index-Based Approach for Similarity Search Supporting Time Warping in Large Sequence Databases,' In Proc. Int'l. Conf. on Data Engineering, IEEE, pp.607-614, 2001
W. K. Loh, S. W. Kim, and K. Y. Whang, 'A Subsequence Matching Algorithm that Supports Normalization Transform in Time-Series Databases,' Data Mining and Knowledge Discovery Journal, Vol.9, No.1, pp.5-28, July, 2004

상세보기
S. H. Park et al., 'Efficient Searches for Similar Subsequences of Difference Lengths in Sequence Databases,' In Proc. Int'l. Conf. on Data Engineering, IEEE ICDE, pp.23-32, 2000
P. Bloomfield, Fourier Analysis of Time Series, Wiley, 2000
You-min Ha, Sanhyun Park, Sang-Wook Kim, Jung-Im Won, and Jee-Hee Yoon, 'Rule Discovery and Matching in Stock Databases,' 32nd Annual IEEE International Computer Software and Applications Conference(COMPSAC 2008), pp.192-198, 2008
R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' In Proc. Int'l. Conf. on Very Large Data Bases, VLDB, pp.487-499, 1994
R. Agrawal and R. Srikant, 'Mining Sequential Patterns,' In Proc. Int'l. Conf. on Data Engineering, IEEE ICDE, pp.3-14, 1995
C. Faloutsos, M. Ranganathan, and Y. Manolopoulos, 'Fast Subsequence Matching in Time-series Databases,' In Proc. Int'l. Conf. on Management of Data, ACM SIGMOD, pp.419-429, May, 1994

상세보기
T. Anderson, 'The Statistical Analysis of Time Series,' Wiley, 1971
G. Das, K.-I. Lin, H. Mannila, Gopal Renganathan, and Padhraic Smyth, 'Rule Discovery from Time Series,' In Proc. Int'l. Conf. on Knowledge Discovery and Datamining, pp.16-22, 1998
S. Park and W. W. Chu, 'Discovering and Matching Elastic Rules From Sequence Databases,' in Fundamenta Informaticae, Vol.47, No.1-2, pp.75-90, Aug-Sept, 2001
Koscom Data Mall, http://datamall.koscom.co.kr, 2005

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증