$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로
The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.3, 2019년, pp.239 - 251  

천세학 (서울과학기술대학교 경영학과)

초록
AI-Helper 아이콘AI-Helper

본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

Statistical methods such as moving averages, Kalman filtering, exponential smoothing, regression analysis, and ARIMA (autoregressive integrated moving average) have been used for stock market predictions. However, these statistical methods have not produced superior performances. In recent years, ma...

주제어

표/그림 (3)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 일반적으로 학습데이터가 많으면 예측력이 높아질 것으로 생각할 수 있지만, 시계열 데이터의 경우 너무 오래된 데이터는 오히려 예측력에 부정적 영향을 줄 수도 있고, 학습데이터가 많으면 학습시간이 많이 걸리는 단점도 있을 수 있다. 또한 유사사례가 많을수록 반드시 예측력이 좋아진다고 볼 수 없기 때문에 본 연구에서는 학습데이터의 크기와 유사사례의 수에 따라서 예측력이 어떻게 달라지는지 랜덤워크 모델과 비교하였고, 실제 파이썬 소스코드를 설명하면서 독자들이 구현해볼 수 있도록 하였다.
  • 본 논문은 학습데이터의 크기가 주가예측력에 어떻게 영향을 미치는지 k-NN을 통해서 살펴본다. 일반적으로 학습데이터가 많으면 예측력이 높아질 것으로 생각할 수 있지만, 시계열 데이터의 경우 너무 오래된 데이터는 오히려 예측력에 부정적 영향을 줄 수도 있고, 학습데이터가 많으면 학습시간이 많이 걸리는 단점도 있을 수 있다.
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴보았다. 삼성전자의 주가를 대상으로 학습데이터를 2000년부터 시작한 경우와 2015년부터 시작한 경우를 비교하였다.
  • 본 연구에서는 학습데이터의 크기에 따라 예측결과가 어떻게 달라지는지 시계열데이터에 적용하여 살펴보았다. 실험결과에서 알 수 있듯이 일반적인 데이터마이닝 방법론이 랜덤워크(Random walk)모델보다 예측력을 높이는데 상당한 어려움이 있기에 이를 정교하게 개발할 필요가 있다는 것을 보여주었다.
  • 비교를 위해서 사용되는 테스트데이터는 모두 2018년 1월부터 8월까지의 삼성전자 주가를 대상으로 하였다. 시계열 데이터의 경우 과거데이터가 얼마나 유용한지 살펴보고, 유사사례 개수의 중요성도 살펴보고자 했다.

가설 설정

  • k-최근접 이웃 알고리즘(k-NN)은 기본적으로 사례 기반 추론(Case-based Reasoning, CBR)이라 생각하면 된다. k-NN은 현재의 문제를 해결하기 위해, 과거의 유사한 문제에 해결책이 있다고 가정한다.
  • 첫째, 명시적인 도메인 지식 모델을 필요로 하지 않는다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
사례기반추론이란 무엇인가? 사례기반추론은 이전의 유사한 상황을 기억하고 그 상황에 대한 정보와 지식을 재사용함으로써 새로운 문제를 해결하기 위한 접근법이다(Aamodt and Plaza, 1994). CBR은 다음의 4개의 단계를 거친다.
머신러닝기법 이외의 주식시장예측을 위한 통계적 방법에는 무엇이 있는가? 주식시장예측을 위한 통계적 방법으로는 가중이동평균(moving average), 칼만필터링(Kalman filtering), 지수평활법(exponential smoothing), 회귀분석(regression analysis), ARIMA(autoregressive integrated moving average)모형 등이 사용되고 있다. 그러나 이러한 통계적 방법론들은 일반적으로 예측률이 높지 않아 최근에는 머신러닝기법들이 실제로 많이 이용되고 있다.
CBR의 장점은? 첫째, 명시적인 도메인 지식 모델을 필요로 하지 않는다. 둘째, CBR은 다양한 응용 분야에서 중요한 특징을 확인할 수 있게 한다. 셋째, 대용량의 과거 사례를 데이터베이스 기술을 통해서 효율적으로 저장하고 관리할 수 있다. 넷째, CBR은 새로운 사례를 학습하여 결과적으로 지식학습을 쉽게 한다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로