과거부터 주식시장의 주가 예측은 풀리지 않는 난제이다. 이를 과학적으로 예측하기 위해 다양한 시도 및 연구들이 있어왔지만 정확한 가격을 예측하는 것은 불가능하다. 최근 분산 원장이라는 개념을 기술적으로 구현한 최초의 암호화폐인 비트코인을 시작으로 다양한 종류의 암호화폐가 개발되면서 암호화폐 시장이 형성되었고, 그 가격을 예측하기 위해 다양한 접근들이 시도되고 있다. 특히, 기존의 전통적인 주식시장에서의 주가 예측 기법들을 적용하려는 시도부터 딥러닝과 강화학습을 적용하려는 시도까지 다양하다. 하지만 암호화폐 시장은 기존 주식 시장에는 없던 여러 가지 새로운 특징을 가지는 시장으로서 전통적인 주식 시장 분석 기술뿐만 아니라 암호화폐 시장에 적합한 새로운 분석 기술에 관한 수요가 증가하고 있는 상황이다. 본 연구에서는 우선 빗썸의 API를 통하여 7개의 암호화폐 가격 데이터를 수집 및 가공하였다. 이후, Data-Driven 방식의 지도학습 기반 기계학습 모델인 그래디언트 부스팅 모델을 채택하여 암호화폐 가격 데이터 변화를 학습하고, 검증단계에서 가장 최적의 모델 파라미터를 산출하고, 최종적으로 테스트 데이터를 활용하여 암호화폐 가격동향 예측 성능을 평가한다.
과거부터 주식시장의 주가 예측은 풀리지 않는 난제이다. 이를 과학적으로 예측하기 위해 다양한 시도 및 연구들이 있어왔지만 정확한 가격을 예측하는 것은 불가능하다. 최근 분산 원장이라는 개념을 기술적으로 구현한 최초의 암호화폐인 비트코인을 시작으로 다양한 종류의 암호화폐가 개발되면서 암호화폐 시장이 형성되었고, 그 가격을 예측하기 위해 다양한 접근들이 시도되고 있다. 특히, 기존의 전통적인 주식시장에서의 주가 예측 기법들을 적용하려는 시도부터 딥러닝과 강화학습을 적용하려는 시도까지 다양하다. 하지만 암호화폐 시장은 기존 주식 시장에는 없던 여러 가지 새로운 특징을 가지는 시장으로서 전통적인 주식 시장 분석 기술뿐만 아니라 암호화폐 시장에 적합한 새로운 분석 기술에 관한 수요가 증가하고 있는 상황이다. 본 연구에서는 우선 빗썸의 API를 통하여 7개의 암호화폐 가격 데이터를 수집 및 가공하였다. 이후, Data-Driven 방식의 지도학습 기반 기계학습 모델인 그래디언트 부스팅 모델을 채택하여 암호화폐 가격 데이터 변화를 학습하고, 검증단계에서 가장 최적의 모델 파라미터를 산출하고, 최종적으로 테스트 데이터를 활용하여 암호화폐 가격동향 예측 성능을 평가한다.
Stock price prediction has been a difficult problem to solve. There have been many studies to predict stock price scientifically, but it is still impossible to predict the exact price. Recently, a variety of types of cryptocurrency has been developed, beginning with Bitcoin, which is technically imp...
Stock price prediction has been a difficult problem to solve. There have been many studies to predict stock price scientifically, but it is still impossible to predict the exact price. Recently, a variety of types of cryptocurrency has been developed, beginning with Bitcoin, which is technically implemented as the concept of distributed ledger. Various approaches have been attempted to predict the price of cryptocurrency. Especially, it is various from attempts to stock prediction techniques in traditional stock market, to attempts to apply deep learning and reinforcement learning. Since the market for cryptocurrency has many new features that are not present in the existing traditional stock market, there is a growing demand for new analytical techniques suitable for the cryptocurrency market. In this study, we first collect and process seven cryptocurrency price data through Bithumb's API. Then, we use the gradient boosting model, which is a data-driven learning based machine learning model, and let the model learn the price data change of cryptocurrency. We also find the most optimal model parameters in the verification step, and finally evaluate the prediction performance of the cryptocurrency price trends.
Stock price prediction has been a difficult problem to solve. There have been many studies to predict stock price scientifically, but it is still impossible to predict the exact price. Recently, a variety of types of cryptocurrency has been developed, beginning with Bitcoin, which is technically implemented as the concept of distributed ledger. Various approaches have been attempted to predict the price of cryptocurrency. Especially, it is various from attempts to stock prediction techniques in traditional stock market, to attempts to apply deep learning and reinforcement learning. Since the market for cryptocurrency has many new features that are not present in the existing traditional stock market, there is a growing demand for new analytical techniques suitable for the cryptocurrency market. In this study, we first collect and process seven cryptocurrency price data through Bithumb's API. Then, we use the gradient boosting model, which is a data-driven learning based machine learning model, and let the model learn the price data change of cryptocurrency. We also find the most optimal model parameters in the verification step, and finally evaluate the prediction performance of the cryptocurrency price trends.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서, 본 논문에서는 대표적인 기계학습 모델인 그래디언트 부스팅(Gradient Boosting) 모델을 적용해 실험을 진행한다[24]. 그래디언트 부스팅의 경우, 랜덤 포레스트보다는 매개변수 조정에 더 신경써야 한다는 단점이 있으나, 본 논문에서는 이러한 단점을 그리드 탐색(grid search) 방식을 활용하여 가장 적합한 매개변수를 찾아냄으로써 해결하고자 하였으며, 이를 통해 그래디언트 부스팅의 주요 장점인 메모리를 적게 사용하면서도 빠른 예측이 가능한 이점을 살리고자 하였다. 또한 그래디언트 부스팅 모델은 여러 머신러닝 경연 대회에서 상위권에 입상을 한 팀들이 사용한 모델이며, 최근 주식 가격 데이터 예측 모델로도 흔히 사용되고 있고 있는 보편적인 모델이라고 알려져 있다[25, 26].
따라서, 본 논문에서는 기존의 전통적인 평균회귀 모델이 변동성이 매우 큰 암호화폐의 가격 예측에는 적합하지 않음에 착안하여, 그 대안으로서 기계학습 모델을 기반으로 하는 Data-Driven 방식을 활용하여 분석을 수행한다. Data-Driven 방식은 임의의 가설 기반의 모델을 세우지 않은 채 데이터분석을 시작하며, 최근 이슈가 되고 있는 기계학습 방법론을 적용하여 암호화폐 가격 동향을 예측할 수 있는 모델을 직접 구성할 수 있다는 장점이 있다.
가설 설정
대표적인 Theory-Driven 모델에는 평균회귀 모델이 있다. 평균회귀 모델은 시계열 데이터가 과거의 평균값으로 회귀하려는 경향을 가지며, 관심 데이터 값들이 정규분포를 따르면서 무작위적인 특성이 없어야 함을 가정한다. 하지만, 암호화폐 가격 데이터에 대하여 Augmented Dickey-Fuller (ADF) 테스트, 허스트 지수, Half Life 등으로 평균회귀 테스트[17, 18]를 수행한 결과, ADF 테스트의 경우, 실험을 진행한 암호화폐들 전부에서 검정 통계량값이 기각값을 넘지 못하기 때문에 평균회귀 모델을 적용하기 적합하지 않으며, Hurst Coefficient 값 경우, 대부분의 암호화폐가 0.
제안 방법
제2장에서는 본 논문과 관련하여 암호화폐에 대해 알아보고, Theory-Driven과 DataDriven 두 가지 접근 방식을 참고하여, 알고리즘 트레이딩 모델을 암호화폐 시장에 적용할 수 있는지를 살펴보기 위해 평균회귀 테스트를 수행한다. 그리고 대표적인 지도학습 기반 기계학습 모델들을 살펴본다. 제3장에서는 학습을 위한 암호화폐 데이터의 수집 및 전처리 과정에 대해 설명한다.
데이터 예측 범위에 따른 비교를 위해 시간 단위, 윈도우사이즈, 상승률의 값을 각각 10, 25, 0.1로 고정한 후, τ 값을 1, 2, 3으로 변경하면서 실험을 진행하였다.
본 연구에서는 빗썸의 API를 통해 데이터를 수집 및 가공하여 활용한다[11]. 또한 기존의 전통적인 알고리즘 트레이딩 모델에 기반을 두는 Theory-Driven 방식인 평균회귀 테스트 등을 통해 암호화폐 데이터의 무작위성을 알아보고 나아가 Data-Driven 방식을 활용하여 지도학습 기반 기계학습 모델에 대해 알아보고 이를 활용해 암호화폐 가격동향을 예측한다.
Data-Driven 방식은 임의의 가설 기반의 모델을 세우지 않은 채 데이터분석을 시작하며, 최근 이슈가 되고 있는 기계학습 방법론을 적용하여 암호화폐 가격 동향을 예측할 수 있는 모델을 직접 구성할 수 있다는 장점이 있다. 본 논문에서는 Data-Driven 방식의 기계학습 모델을 적용하여 암호화폐의 가격 변동을 예측한다.
본 논문에서는 그레디언트 부스팅 모델을 활용해 암호화폐 가격 동향을 시간 단위, 윈도우 크기, 데이터 예측 범위, 상승률 변경에 따라 암호화폐 별로 예측하고, 분류 모델의 성능 평가 지표로서 정확도와 F1 Score를 활용하여 예측 성능을 비교 분석하였다. 대부분의 기존 주가 예측 관련 연구들에서는 50%대의 정확도를 보이나, 본 논문에서는 비교적 다른 기계학습 모델들 보다 우수하다고 입증된 그레디언트 부스팅 모델을 택하고, 그리드 탐색을 활용한 최적 하이퍼 파라미터 선정을 통해 약 60% 정도의 예측 정확도를 산출하였다.
빗썸에서 제공하는 API는 암호화폐별로 UNIX Timestamp, 시가, 종가, 고가, 종가, 거래량 데이터를 제공한다. 본 논문에서는 데이터 수집을 위해 Python 라이브러리를 활용했으며, 수집한 데이터는 전처리 과정을 거쳐 csv 파일의 형태로 로컬 드라이브에 저장 및 활용한다.
빗썸에서는 2018년 6월 1일 기준 최근에 추가된 암호화폐를 포함한 총 30개의 암호화폐에 대한 거래 가격을 포함한 각종 데이터 및 차트를 제공하고 있으며, API를 활용해 암호화폐 데이터들의 수집 시간 주기는 10분으로 하였다.
시간 단위, 윈도우 사이즈, 예측 범위, 상승률 이렇게 네 개의 변인에 대하여, 시간 단위에 따른 모델 성능을 비교하기 위해 윈도우 사이즈, 예측 범위, 상승률을 각각 25, 1, 0.1로 고정한 후, 시간 단위의 값을 10분, 30분, 60분으로 변경해가면서 실험을 진행하였다. 암호화폐 가격이 상승할 때를 양성으로 정할 때 Fig.
암호화폐 가격 예측을 위해 딥러닝 모델에 사용되는 데이터는 크게 학습 데이터, 테스트 데이터, 검증 데이터로 분류되고, API에서 제공하는 각 암호화폐별 데이터의 양이 다르기 때문에 본 논문에서는 데이터가 많은 상위 7개의 암호화폐(BTC, BCH, ETC, DASH, ETH, XRP, LTC)으로 실험을 진행한다. 학습을 위해 암호화폐 7개의 공통 기간인 2017년 8월 4일 21시 40분부터의 데이터를 사용했으며, 암호화폐별 가격 차이가 크기 때문에 정규화한 가격 정보를 사용한다.
마지막으로 부적합 데이터란 데이터가 10분 간격에 딱 맞게 이어지지 않은 채 수집된 데이터를 의미한다(Table 2의 3, 7번째 행). 이와 같은 비정상 데이터들은 직전의 정상 데이터의 정보를 복사하여 보정하는데, 손실데이터의 경우 비어있는 시간만큼 10분 단위로 직전 데이터를 복사하였고, 제로 데이터의 경우에도 마찬가지로 처리하였다. 부적합 데이터의 경우 이미 10분 단위의 다른 정상 데이터가 있을 경우 삭제하고, 정상 데이터가 없으나 시간의 조정이 필요하다면 조정된 시간으로 업데이트 하였다.
본 논문의 구성은 다음과 같다. 제2장에서는 본 논문과 관련하여 암호화폐에 대해 알아보고, Theory-Driven과 DataDriven 두 가지 접근 방식을 참고하여, 알고리즘 트레이딩 모델을 암호화폐 시장에 적용할 수 있는지를 살펴보기 위해 평균회귀 테스트를 수행한다. 그리고 대표적인 지도학습 기반 기계학습 모델들을 살펴본다.
학습 데이터의 양에 많은 영향을 주는 윈도우 크기 n에 따른 비교를 위해 시간 단위, 윈도우 사이즈, 상승률을 각각 10, 1, 0.1로 고정한 후, n의 값을 10, 25, 50, 75로 변경해 가면서 실험을 진행하였다. 암호화폐 가격이 오르는 것을 양성으로 했을 때 Fig.
학습한 모델의 성능을 평가하기 위해서 본 논문에서는 분류 모델의 성능 평가 지표 중 정확도, 정밀도, 재현율, F1 Score 네 가지의 평가 지표를 활용하여 지도학습 모델의 결과를 분석 및 평가하였다.
대상 데이터
BTC, ETH, XRP, BCH, LTC, DASH, ETC 암호화폐 가격을 포함하는 특성 및 타겟 데이터를 3.1절에서 언급한 방법대로 수집 및 가공하여 총 41,098개를 준비하였고, 이 중 36,988개는 훈련 데이터로 사용하고, 4,110개는 테스트 데이터로 사용하여 모델 학습 및 테스트를 수행하였다.
실험 평가를 위하여 구축한 실험 환경으로는 Python 3.6 및 scikit-learn 라이브러리를 사용했고, 좀 더 원활하게 최적 파라미터를 구하기 위하여 컴퓨터 6대에 Python 기반의 대용량 데이터 처리 및 분석에 적합한 DASK [29] 병렬 및 분산화 모듈을 설치하여 실험하였다.
실험에 사용된 데이터는 빗썸에서 제공하는 API로부터 수집되었다. 수집된 데이터에는 정상 데이터 이외에, 손실 데이터, 제로 데이터, 부적합 데이터 등 정상적으로 입력되지 않은 데이터들이 존재한다.
실험에 필요한 기본 실험 파라미터로는 θ = 10, n = 25, τ = 1, ε = 0.1을 사용하였다.
학습 및 테스트 데이터는 앞선 절에서 수집 및 전처리 과정을 거친 데이터를 활용한다. [16] 연구와 유사하게 특성 데이터는 수집된 데이터에서 종가, 고가, 저가, 거래량만을 활용한다.
암호화폐 가격 예측을 위해 딥러닝 모델에 사용되는 데이터는 크게 학습 데이터, 테스트 데이터, 검증 데이터로 분류되고, API에서 제공하는 각 암호화폐별 데이터의 양이 다르기 때문에 본 논문에서는 데이터가 많은 상위 7개의 암호화폐(BTC, BCH, ETC, DASH, ETH, XRP, LTC)으로 실험을 진행한다. 학습을 위해 암호화폐 7개의 공통 기간인 2017년 8월 4일 21시 40분부터의 데이터를 사용했으며, 암호화폐별 가격 차이가 크기 때문에 정규화한 가격 정보를 사용한다. Table 1은 각 암호화폐별 데이터 수집 현황으로서 7개의 암호화폐별 수집 데이터의 기간 및 10분 단위의 수집 개수를 보여준다.
이론/모형
따라서, 본 논문에서는 대표적인 기계학습 모델인 그래디언트 부스팅(Gradient Boosting) 모델을 적용해 실험을 진행한다[24]. 그래디언트 부스팅의 경우, 랜덤 포레스트보다는 매개변수 조정에 더 신경써야 한다는 단점이 있으나, 본 논문에서는 이러한 단점을 그리드 탐색(grid search) 방식을 활용하여 가장 적합한 매개변수를 찾아냄으로써 해결하고자 하였으며, 이를 통해 그래디언트 부스팅의 주요 장점인 메모리를 적게 사용하면서도 빠른 예측이 가능한 이점을 살리고자 하였다.
지도학습 모델을 사용하여 기계학습을 수행할 때, 보다 좋은 성능을 내는 모델로 학습시키기 위해서는 모델이 지닌 하이퍼 파라미터에 대한 최적 설정이 필요하다. 따라서, 본 논문에서는 후보로 선정한 모든 파라미터 집합에 대해 최적의 하이퍼 파라미터를 찾는 그리드 탐색(Grid Search)[27] 기반 k-Fold 교차검증[28] 기법을 활용한다. 이와 같은 기법을 포함한 전체 모델 학습 절차는 Fig.
본 연구에서는 빗썸의 API를 통해 데이터를 수집 및 가공하여 활용한다[11]. 또한 기존의 전통적인 알고리즘 트레이딩 모델에 기반을 두는 Theory-Driven 방식인 평균회귀 테스트 등을 통해 암호화폐 데이터의 무작위성을 알아보고 나아가 Data-Driven 방식을 활용하여 지도학습 기반 기계학습 모델에 대해 알아보고 이를 활용해 암호화폐 가격동향을 예측한다.
성능/효과
5장에서 제시한 실험 결과를 종합한 결과 암호화폐별 예측정확도는 XRP가 대체로 가장 높고 BCH가 가장 낮음을 알 수 있다. 그러므로, 향후 기계학습 모델을 통해 투자 수익을 높이는 데 있어서 XRP가 가장 유리한 암호화폐이며, BCH는 가급적 투자를 회피해야 할 암호화폐임을 알 수 있다.
그래프에서 볼 수 있듯이 다양한 시간 단위에 대해 대체적으로 XRP와 DASH의 정확도와 F1 Score는 높고 BCH의 경우는 상대적으로 낮았다(시간 단위가 60일 때, XRP 정확도는 0.635, DASH의 정확도는 0.635, BCH의 정확도는 0.593이며, XRP의 F1 Score는 0.622, DASH의 F1 Score는 0.618, BCH의 F1 Score는 0.578). 한편, 대체적으로 시간 단위가 60분 일 때 좋은 성능을 보이고 있지만 전반적으로 시간 단위 10분, 30분, 60분에 따른 정확도 차이는 크지 않음을 알 수 있었다.
그래프에서 볼 수 있듯이, 타겟 데이터의 값을 결정하는 상승률이 커질수록 모델의 성능이 크게 향상되는 것을 알 수 있다. 상승률의 값이 0.
5장에서 제시한 실험 결과를 종합한 결과 암호화폐별 예측정확도는 XRP가 대체로 가장 높고 BCH가 가장 낮음을 알 수 있다. 그러므로, 향후 기계학습 모델을 통해 투자 수익을 높이는 데 있어서 XRP가 가장 유리한 암호화폐이며, BCH는 가급적 투자를 회피해야 할 암호화폐임을 알 수 있다.
본 논문에서는 그레디언트 부스팅 모델을 활용해 암호화폐 가격 동향을 시간 단위, 윈도우 크기, 데이터 예측 범위, 상승률 변경에 따라 암호화폐 별로 예측하고, 분류 모델의 성능 평가 지표로서 정확도와 F1 Score를 활용하여 예측 성능을 비교 분석하였다. 대부분의 기존 주가 예측 관련 연구들에서는 50%대의 정확도를 보이나, 본 논문에서는 비교적 다른 기계학습 모델들 보다 우수하다고 입증된 그레디언트 부스팅 모델을 택하고, 그리드 탐색을 활용한 최적 하이퍼 파라미터 선정을 통해 약 60% 정도의 예측 정확도를 산출하였다. 향후 연구로는 Convolutional Neural Network나 Recurrent Neural Network와 같은 딥러닝 모델을 적용하여 더 높은 예측 성능을 산출해 볼 계획이다.
대체적으로 모든 암호화폐들에 대해서 윈도우 크기가 25일 때 정확도 및 F1 Score 성능 지표들이 높으며, 윈도우 크기가 75일 때는 두 성능 지표 값이 낮게 나왔다. 이는 오랜 기간 동안 수집된 데이터를 학습 데이터로 활용할 때, 암호화폐 가격 상승 및 하락을 예측하는 데에 오히려 부정적인 영향을 주는 것으로 분석된다.
이는 암호화폐의 가격 변동 추이가 워낙 심하게 변하다 보니 오래 전의 데이터를 학습하는 것이 오히려 가까운 미래의 예측에 방해가 될 수 있음을 나타낸다. 또한 데이터 예측범위의 실험 결과에 따르면, 더 먼 시점의 데이터를 예측하고자 할수록 성능이 낮아질 것이라는 직관과 일치한 실험 결과를 얻었다. 마지막으로, 상승률을 높게 설정할수록 예측 정확도가 높게 나오는 결과를 얻었으나, 이에 대해서는 데이터의 불균형한 정도가 영향을 준 것으로 해석된다.
또한 데이터 예측범위의 실험 결과에 따르면, 더 먼 시점의 데이터를 예측하고자 할수록 성능이 낮아질 것이라는 직관과 일치한 실험 결과를 얻었다. 마지막으로, 상승률을 높게 설정할수록 예측 정확도가 높게 나오는 결과를 얻었으나, 이에 대해서는 데이터의 불균형한 정도가 영향을 준 것으로 해석된다.
마지막으로, 전반적인 실험 결과에서 볼 수 있듯, 그래디언트 부스팅 모델의 암호화폐 가격 동향 예측 모델의 정확도 및 성능 지표들은 60%정도로 비교적 높은 편이다.
본 실험에서도 대체적으로 XRP와 DASH의 성능 지표가 높게 나타났으며, BCH는 상대적으로 낮은 성능 지표를 산출한다(윈도우 크기가 25일 때, XRP 정확도는 0.648, DASH 정확도는 0.64, BCH 정확도는 0.608, XRP F1 Score는 0.63, DASH F1 Score는 0.628, BCH F1 Score는 0.584).
평균회귀 모델은 시계열 데이터가 과거의 평균값으로 회귀하려는 경향을 가지며, 관심 데이터 값들이 정규분포를 따르면서 무작위적인 특성이 없어야 함을 가정한다. 하지만, 암호화폐 가격 데이터에 대하여 Augmented Dickey-Fuller (ADF) 테스트, 허스트 지수, Half Life 등으로 평균회귀 테스트[17, 18]를 수행한 결과, ADF 테스트의 경우, 실험을 진행한 암호화폐들 전부에서 검정 통계량값이 기각값을 넘지 못하기 때문에 평균회귀 모델을 적용하기 적합하지 않으며, Hurst Coefficient 값 경우, 대부분의 암호화폐가 0.5보다 작은 값을 나타내었으나 유의미한 수준이 아님을 확인하였다. 또한 Regression half life값은 EOS, BTG와 같은 암호화폐들의 경우에는 상대적으로 낮은 값을 보였으나, 해당 값이 회귀 모델을 적용하기에 적합한 값인지에 대해서는 확신할 수 없음이 기존 연구에서 밝혀진바 있다[19].
한편, 각 암호화폐별로 시간 단위에 따른 모델의 성능에서는 뚜렷한 성능 차이가 없으며, 학습 데이터의 양이 많을수록 오히려 예측 성능에는 부정적인 영향을 주는 것을 관찰할 수 있다. 이는 암호화폐의 가격 변동 추이가 워낙 심하게 변하다 보니 오래 전의 데이터를 학습하는 것이 오히려 가까운 미래의 예측에 방해가 될 수 있음을 나타낸다.
578). 한편, 대체적으로 시간 단위가 60분 일 때 좋은 성능을 보이고 있지만 전반적으로 시간 단위 10분, 30분, 60분에 따른 정확도 차이는 크지 않음을 알 수 있었다.
후속연구
대부분의 기존 주가 예측 관련 연구들에서는 50%대의 정확도를 보이나, 본 논문에서는 비교적 다른 기계학습 모델들 보다 우수하다고 입증된 그레디언트 부스팅 모델을 택하고, 그리드 탐색을 활용한 최적 하이퍼 파라미터 선정을 통해 약 60% 정도의 예측 정확도를 산출하였다. 향후 연구로는 Convolutional Neural Network나 Recurrent Neural Network와 같은 딥러닝 모델을 적용하여 더 높은 예측 성능을 산출해 볼 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
그래디언트 부스팅의 단점은 무엇인가?
따라서, 본 논문에서는 대표적인 기계학습 모델인 그래디언트 부스팅(Gradient Boosting) 모델을 적용해 실험을 진행한다[24]. 그래디언트 부스팅의 경우, 랜덤 포레스트보다는 매개변수 조정에 더 신경써야 한다는 단점이 있으나, 본 논문에서는 이러한 단점을 그리드 탐색(grid search) 방식을 활용하여 가장 적합한 매개변수를 찾아냄으로써 해결하고자 하였으며, 이를 통해 그래디언트 부스팅의 주요 장점인 메모리를 적게 사용하면서도 빠른 예측이 가능한 이점을 살리고자 하였다. 또한 그래디언트 부스팅 모델은 여러 머신러닝 경연 대회에서 상위권에 입상을 한 팀들이 사용한 모델이며, 최근 주식 가격 데이터 예측 모델로도 흔히 사용되고 있고 있는 보편적인 모델이라고 알려져 있다[25, 26].
블록체인은 어떤 기술인가?
암호화폐는 블록체인을 통한 분산원장기술을 이용한 디지털화폐를 말한다. 여기서 블록체인이란 거래정보가 기록된 관리 대상 데이터를 ‘블록’이라고 하는 소규모 데이터들이 P2P 방식을 기반으로 생성된 체인 형태의 연결고리 기반 분산 데이터 저장환경에 저장되어 누구도 임의로 수정할 수 없고 누구나 변경의 결과를 열람할 수 있는 분산 컴퓨팅 기술기반의 데이터 위 변조 방지 기술이다. 대표적인 암호화폐인 비트코인은 인터넷상에서 개인 대 개인(P2P) 간에 이용될 목적으로 암호체계에 기초해 설계되어, 금전적 가치가 전자적 형태로 저장되어 지급수단으로 사용되지만 정부나 중앙은행에 의해 지급이 보장되지 않는다는 점에서 기존의 법정화폐와 차이가 있다 [12].
k-NN 모델은 어떠한 경우에 잘 쓰이지 않는가?
k-NN의 경우 모델 자체가 이해하기 쉬운 모델이며, 매개변수를 딱히 조정하지 않아도 좋은 성능을 발휘하는 편이다[20]. 하지만 학습 데이터셋이 클 경우에는 예측 속도가 느려서 현업에서는 잘 쓰이지 않는 모델이다. 한편, 선형 모델은 학습 속도가 빠르고 추론 또한 빠른 속도로 이루어진다는 장점이 있으며, 학습 데이터셋이 큰 경우와 희소한 데이터셋인 경우에도 비교적 정확도가 높으며, 특성 데이터가 고차원일 경우에도 비교적 그 성능이 높다고 알려져 있다.
참고문헌 (29)
M. S. Helen, C. Chester, A. Adam, K. Y. Dror, S. Eugene, and P. Tobias, "Quantifying Wikipedia Usage Patterns Before Stock Market Moves," Scientific Reports, May 2013.
S. Nakamoto, "Bitcoin: A Peer-to-Peer Electronic Cash System," [Internet], http://www.bitcoin.org, 2008.
R. Phillips and D. Gorse, "Predicting Cryptocurrency Price Bubbles Using Social Media Data and Epidemic Modelling," IEEE Symposium Series on Computational Intelligence, 2017.
A. Radityo, Q. Munajat, and I. Budi, "Prediction of Bitcoin exchange rate to American dollar using artificial neural network methods," International Conference on Advanced Computer Science and Information Systems, 2017.
Z. Jiang and J. Liang, "Cryptocurrency portfolio management with deep reinforcement learning," Intelligent Systems Conference, 2017.
L. Li, Y. Wu, Y. Ou, Q. Li, Y. Zhou, and D. Chen, "Research on machine learning algorithms and feature extraction for time series," The 28th IEEE Annual International Symposium on Personal, Indoor, and Mobile Radio Communications (PIMRC), Oct. 2017.
J. W. Lee, "A Stock Trading System based on Supervised Learning of Highly Volatile Stock Price Patterns," Journal of KIISE : Computing Practices and Letters, Vol.19 No.1, pp.23-29, 2013.
Y. Song, J. W. Lee, and J. Lee, "Performance Evaluation of Price-based Input Features in Stock Price Prediction using Tensorflow," KIISE Transactions on Computing Practices, Vol.23, No.11, pp.625-631, 2018.
Y. Kim, E. Shin, and T. Hong, "Comparison of Stock Price Index Prediction Performance Using Neural Networks and Support Vector Machine," The Journal of Internet Electronic Commerce Resarch, Vol.4, No.3, pp.221-243, 2004.
A. M. Ho and R. M. Hyun, "Algorithm trading system development using machine learning," Hanbit Media(Inc), Apr. 2016, ISBN: 9788968488030.
Bithumb [Internet], https://www.bithumb.com/
T. Yook, "Change of Financial Systems by Virtual Currency or Cryptocurrency and its Legal Implications," Kangwon Law Review, Vol.53, pp.225-270, 2018.
Y. Song and J. Lee, "A Design and Implementation of Deep Learning Model for Stock Predictions using TensorFlow," Processing of Korea Information Science Society Conference, pp.799-801, June 2017.
Y. Dai and Y. Zhang, "Machine Learning in Stock Price Trend Forecasting," Stanford University, 2013.
J. W. Lee and J. M. O, "Artificial Intelligence: Integrated Multiple Simulation for Optimizing Performance of Stock Trading Systems based on Neural Networks," KIPS Journal B (2001-2012), Vol.14B, No.2, pp.127-134, Feb. 2007.
Z. Jiang, D. Xu, and J. Liang, "A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem," Journal of Machine Learning Research, arXiv:1706.10059v2, 2017.
I.-S. Baek, "Local Hurst Exponent Indicator to Sell the Abruptly Rising Stock," Korean Association of Financial Engineering, Vol.9, No.3, pp.149-165, Sept. 2010.
S. Cho and J.-S. Choi, "A Monte Carlo Experiment on the Power of Augmented Dickey-Fuller Unit Root Test," Journal of The Korean Official Statistics, Vol.10, No.1, 2005.
D.-H. Kwon, J.-S. Heo, J.-B. Kim, H.-K. Lim, and Y.-H. Han, "Correlation Analysis and Regression Test on Cryptocurrency Price Data," Proceedings of Spring Korea Information Processing Society Conference, May 2018.
P. Hall, B. U. Park, and R. J. Samworth, "Choice of Neighbor Order in Nearest-neighbor Classification," Annals of Statistics, Vol.36, No.5, pp.2135-2152, 2008.
C. J. C. Burges, "A Tutorial on Support Vector Machines for Pattern Recognition," Data Mining and Knowledge Discovery, Vol.2, No.2, pp.121-167, Jun. 1998.
Y. D. Kim, K. H. Kim, and S. H. Song, "Comparison of Boosting and SVM," Journal of the Korean Data And Information Science Sociaty, Vol.16, No.4, pp.999-1012, 2005.
J. H. Jung and D. K. Min, "The study of foreign exchange trading revenue model using decision tree and gradient boosting," Journal of the Korean Data And Information Science Society, Vol.24, No.1, pp.161-170, 2013.
Alexey Natekin and Alois Knoll "Gradient Boosting Machines, a Tutorial," Front Neurorobot, Vol.7, No.21, 2013.
S. Kar, S. Saha, L. Khaidem, and S. R. Dey, "Predicting the Direction of Stock Market Price Using Tree Based Classifiers," Elsevier North American Journal of Economics and Finance, Jul. 2018. (available online).
B. Gorman, "A Kaggle Master Explains Gradient Boosting," [Internet], http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting, Jan 2017.
J. Bergstra and Y. Bengio. "Random search for hyper-parameter optimization," Journal of Machine Learning Research, Vol.13 pp.281-305, 2012.
T. Fushiki, "Estimation of prediction error by using K-fold cross-validation," Statistics and Computing, Vol.21, No.2, pp.137-146, 2011.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.