[논문]시간단위 전력사용량 시계열 패턴의 군집 및 분류분석

박다인; 윤상후

doi:10.7465/jkdi.2017.28.2.395

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석
Clustering and classification to characterize daily electricity demand 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.28 no.2, 2017년, pp.395 - 406

박다인 (대구대학교 일반대학원 통계학과) , 윤상후 (대구대학교 전산통계학과, 대구대학교 기초과학연구소)

초록
AI-Helper

전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

Abstract ▼ AI-Helper

The purpose of this study is to identify the pattern of daily electricity demand through clustering and classification. The hourly data was collected by KPS (Korea Power Exchange) between 2008 and 2012. The time trend was eliminated for conducting the pattern of daily electricity demand because electricity demand data is times series data. We have considered k-means clustering, Gaussian mixture model clustering, and functional clustering in order to find the optimal clustering method. The classification analysis was conducted to understand the relationship between external factors, day of the week, holiday, and weather. Data was divided into training data and test data. Training data consisted of external factors and clustered number between 2008 and 2011. Test data was daily data of external factors in 2012. Decision tree, random forest, Support vector machine, and Naive Bayes were used. As a result, Gaussian model based clustering and random forest showed the best prediction performance when the number of cluster was 8.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

일반적인 시계열자료와 유사하게 추세성과 계절성이 존재하고 있다. 시간의 흐름에 따라 자료의 변동 폭이 증가하므로 로그변환을 실시하고 추세성이 전력수요량의 유형을 파악하는데 영향을 미칠 수 있으므로 추세성을 제거하여 연구를 수행하였다. 로그변환과 추세성이 제거된 자료는 시간과 무관한 계절성만이 반영된 자료이다 (Figure 3.
이번 절에서는 전력수요 패턴을 파악하기 위해 본 연구에서 고려한 군집분석 및 분류분석 방법에 대해 설명하고자 한다. 일단위 전력수요 패턴을 파악하기 위해 k 평균 군집분석, 가우시안 혼합 모델 군집분석, 함수적 군집분석이 고려되었다.

가설 설정

모집단이 G개의 군집으로 구성된다면 k번째 군집에 속한 p차원 관측벡터 x의 밀도함수는 fk(x, θ)라고 가정한다.
= 1을 만족한다. 이제 관측벡터가 다변량 정규분포를 따른다고 가정하는 가우시안 혼합모형을 고려해보자. f_k(x, θ)는 평균벡터 µk와 공분산행렬 Σ_k를 갖는 k번째 군집의 다변량정규분포의 밀도함수는 다음과 같다.

제안 방법

하루는 24시간으로 구성되어 있으므로 각 시간을 하나의 개별 독립변수로 간주한다면 하루의 전력수요패턴은 24개의 독립변수를 이용하여 군집화 할 수 있다. 군집분석은 모든 독립변수에 동일한 가중치를 부여하므로 본 연구에서는 요인분석을 통해 서로 독립인 요인들을 추출하여 접근하였다. 요인분석 결과 하루 24시간의 전력수요량은 2개의 요인으로 정리 된다.
최적 군집 수 결정을 위한 분류분석은 다음과 같이 수행하였다. 먼저 2008년 1월 1일부터 2012년 12월 31일까지 군집분석을 실시하여 각 요일별 군집을 구분하였다. 전력수요예측이 목적이므로 2008년 1월 1일부터 2011년 12월 31일까지 수집된 기상요인, 휴일, 요일 데이터와 군집분석 결과를 훈련시켰다.
본 연구에서는 R의 ‘e1071’패키지를 통해 나이브 베이즈와 서포트 벡터머신를 이용한 분류를 수행하였다 (Meyer 등, 2015; Dimitriadou 등, 2005)
군집분석에서 적절한 군집수를 결정하는 것은 군집화 결과의 타당성에 전제가 되는 매우 중요한 문제이다. 본 연구에서는 군집의 수를 7부터 10까지 고정하여 계산하였다. 가우시안 혼합 모델 군집분석과함수적 군집분석은 BIC를 기준으로 최적 군집 수를 결정되고 k-평균 군집분석은 연구자의 경험이나 정보기준 접근법 등으로 결정된다.
전력수요 패턴의 연구로는 k-평균 군집분석 (Lim 등, 2013), 함수적 군집분석 (Yoon과 Choi, 2015), 계층적 군집분석 (Hwang 등, 2015)이 있다. 본 연구에서는 전력수요의 군집분석방법으로 k-평균 군집분석, 가우시안 혼합 모델 군집분석, 함수적 군집분석을 고려하였다.
본 연구는 전력수요 유형을 나누기 위해 군집분석을 사용하였고, 최적의 군집수의 결정을 위해 분류분석을 이용하였다. 분류분석을 위해 기온, 강수량, 풍속, 습도, 일조량, 휴일여부와 같은 외부요인이 고려되었다. 의사결정나무, 랜덤포레스트, 서포트벡터머신, 나이 브베이즈 4가지 분류방법으로 전력수요 패턴을 분류한 결과 랜덤포레스트 방법이 가장 우수하였다.
3이다. 예측성능은 랜덤포레스트, 의사결정나무, 서포트벡터머신, 나이브베이즈 순으로 랜덤포레스트의 결과가 가장 우수하지만 과대적합 (overfitting)일 가능성이 있기때문에 검증자료의 결과를 살펴보았다.
이번 절에서는 전력수요 패턴을 파악하기 위해 본 연구에서 고려한 군집분석 및 분류분석 방법에 대해 설명하고자 한다. 일단위 전력수요 패턴을 파악하기 위해 k 평균 군집분석, 가우시안 혼합 모델 군집분석, 함수적 군집분석이 고려되었다. 군집분석 결과는 기상요소, 휴일, 요일을 기반으로 한 분류분석에 이용된다.
먼저 2008년 1월 1일부터 2012년 12월 31일까지 군집분석을 실시하여 각 요일별 군집을 구분하였다. 전력수요예측이 목적이므로 2008년 1월 1일부터 2011년 12월 31일까지 수집된 기상요인, 휴일, 요일 데이터와 군집분석 결과를 훈련시켰다. 훈련된 모형을 통해 2012년 1월 1일부터 2012년 12월 31일까지 수집된 기상요인, 휴일, 요일 데이터로 군집 번호를 예측하여 실제 관측된 군집분석 결과와 비교를 통해 예측성능을 평가하였다.
가우시안 혼합 모델 군집분석과함수적 군집분석은 BIC를 기준으로 최적 군집 수를 결정되고 k-평균 군집분석은 연구자의 경험이나 정보기준 접근법 등으로 결정된다. 최적 군집 수를 결정하기 위해 본 연구에서는 외부요인을 통한 분류분석 결과를 활용하였다.
2이다. 함수적 군집분석의 경우 차원축소 없이 24개의 시간별 자료를 평활 스플라인 (smoothing spline)을통한 부드러운 함수자료로 간주하여 분석하였다. 군집이 Figure3.
전력수요예측이 목적이므로 2008년 1월 1일부터 2011년 12월 31일까지 수집된 기상요인, 휴일, 요일 데이터와 군집분석 결과를 훈련시켰다. 훈련된 모형을 통해 2012년 1월 1일부터 2012년 12월 31일까지 수집된 기상요인, 휴일, 요일 데이터로 군집 번호를 예측하여 실제 관측된 군집분석 결과와 비교를 통해 예측성능을 평가하였다.

대상 데이터

본 연구 자료는 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지 시간단위 전력수요량 자료가 사용되었다. 시간에 따른 전력수요량의 시계열 그림은 Figure 3.

데이터처리

군집분석을 통해 파악된 전력수요 패턴 결과에 대한 검증방법으로 본 연구에서는 분류분석을 이용하였다. 분류분석을 위한 종속변수는 군집분석 결과이고 독립변수는 기상요인, 휴일, 요일 등이다.
Hwang 등 (2015)은 계층적 군집분석과 외부요인과의 관계를 통해 8개의 건물 부하패턴을 파악하였으나 군집 수의 결정방법은 명확하게 제시하지 못하고 있다. 본 연구는 전력수요 유형을 나누기 위해 군집분석을 사용하였고, 최적의 군집수의 결정을 위해 분류분석을 이용하였다. 분류분석을 위해 기온, 강수량, 풍속, 습도, 일조량, 휴일여부와 같은 외부요인이 고려되었다.

이론/모형

가우시안 혼합모델의 군집분석을 R의 ‘mclust’ 패키지를 통해 수행되었다 (Fraley 등, 2016).
본 연구에서는 R의 ‘randomForest’ 패키지를 이용하였다 (Liaw와 Wiener, 2002).
본 연구에서는 R의 ‘rpart’패키지를 이용하여 분류와 회귀에 적용되는 CART (classification and regression tree)를 수행하였다 (Therneau 등, 2015).
함수적 군집분석는 혼합가우시안 분포를 가정하여 penalized 로그-우도함수를 최대로 하는 모수를 추정하기 위해 EM알고리즘과 Generalized Cross-Validation (GCV)를 이용한다. 함수적 군집분석은 R의 ‘MFDA’패키지를 이용하였으며, 구체적인 군집분석방법은 Yoon과 Choi (2015)을 참고바란다.
함수적 군집분석은 R의 ‘MFDA’패키지를 이용하였으며, 구체적인 군집분석방법은 Yoon과 Choi (2015)을 참고바란다.
함수적 군집분석은 함수적 자료 (functional data)를 군집화하는 방법으로 본 연구에서는 Ma 등(2006)이 제안한 시간 함수적 자료를 위한 군집모형을 고려되었다. 함수적 자료 분석에서는 관측벡터 x가 평활함수로 표현되며 i번째 개체 (곡선) 값은 다음과 같이 표현된다.

성능/효과

기상청에서는 중장기 기상예측정보를 지역별로 제공하므로 휴일과 요일이 주어진다면 하루 동안의 평균 전력수요패턴을 랜덤포레스트 방법을 통해 예측할 수 있다. 분류분석의 정확도를 기준으로 선정된 최적 군집 수는 8개이고 가우시안 혼합 모델을 이용한 군집분석이 전력수요 패턴의 군집에 가장 적절하다.
4이다. 분석결과 군집수가 8개이고 가우시안혼합모델을 이용한 군집분석을 수행하고 랜덤포레스트로 분류분석을 수행했을 경우의 예측 정확도가 86.6%로 가장 우수하였다. 예측정확도의 추세를 보면 군집의 수가 증가한다고 예측정확도가 증가하지 않고 오히려 감소하는 경향을 확인할 수 있다.
6%로 가장 우수하였다. 예측정확도의 추세를 보면 군집의 수가 증가한다고 예측정확도가 증가하지 않고 오히려 감소하는 경향을 확인할 수 있다. 본 연구결과에서는 생략하였지만 가우시안혼합 모델 군집분석의 최적 군집 수는 13이였고 함수적 군집분석에서는 군집의 수가 증가할수록 BIC가 낮아져서 적절한 군집의 수를 발견하지 못하였다.
분류분석을 위해 기온, 강수량, 풍속, 습도, 일조량, 휴일여부와 같은 외부요인이 고려되었다. 의사결정나무, 랜덤포레스트, 서포트벡터머신, 나이 브베이즈 4가지 분류방법으로 전력수요 패턴을 분류한 결과 랜덤포레스트 방법이 가장 우수하였다. 기상청에서는 중장기 기상예측정보를 지역별로 제공하므로 휴일과 요일이 주어진다면 하루 동안의 평균 전력수요패턴을 랜덤포레스트 방법을 통해 예측할 수 있다.
5에서 보여준다. 전력수요 패턴의 군집에 영향을 미치는 변수의 중요 순서는 요일, 평균기온, 최저기온, 휴일 여부, 최고기온의 순으로 나타났다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 논문에서 주성분분석을 통해 어떠한 결과를 얻었는가?	추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다.
	추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법으로 본 논문에서는 어떠한 방법을 고려하였는가?	전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다.
	k-평균 군집분석의 절차는 무엇인가?	(1) 전체 개체를 k개의 군집으로 초기화한다. (2) 각 군집별 중심점을 찾는다. (3) 모든 개체와 각 군집의 중심점과의 유클리드 거리를 계산하여 개체와의 거리가 가장 가까운 중심점에 대응하는 군집으로 배정 한다. (4) 모든 개체가 다른 군집으로 재배정되지 않을 때까지 (2)∼(4) 과정을 반복한다.

참고문헌 (18)

Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.
Cho, H., Goude, Y., Brossat, X. and Yao, Q.(2013). Modeling and forecasting daily electricity load curves: A hybrid approach. Journal of the American Statistical Association, 108, 7-21.

상세보기
Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D. and Weingessel, A. (2005). Misc Functions of the Department of Statistics (e1071), TU Wien. R package version 1.5-7, http://CRAN.R-project.org/.
Fraley, C., Raftery, A. E., Scrucca, L., Murphy, T. B. and Fop, M. (2016). mclust: Normal mixture modelling for model-based clustering, classification, and density estimation, http://CRAN.R-project.org/packagemclust.Rpackageversion,5.
Hwang, H. M., Lee, S. H., Park, J. B., Park, Y. G., and Son, S. Y. (2015). Load forecasting using hierarchical clustering method for building. Journal of the Korean Institute of Illuminating and Electrical Installation Engineers, 59-65.
Kang, D. H., Park, J. D. and Song, K. B. (2016). 24-Hour load forecasting for anomalous weather days using hourly temperature. The Transactions of The Korean Institute of Electrical Engineers, 65, 1144-1150.

원문보기 상세보기
Kim, C. H., Koo, B. G. and Park, J. H. (2012). Short-term electric load forecasting using data mining technique. Journal of Electrical Engineering & Technology, 7, 807-813.

원문보기 상세보기
Liaw, A, and Wiener, M. (2002). Classification and regression by randomForest. IR news, 2, 18-22
Lim, J. H., Kim, S. Y., Park, J. D. and Song, K. B. (2013). Representative temperature assessment for improvement of short-term load forecasting accuracy. Journal of the Korean Institute of Illuminating and Electrical Installation Engineers, 27, 39-43.
Ma, P., Castillo-Davis, C. I., Zhong, W. and Liu, J. S. (2006). A data-driven clustering method for time course gene expression data. Nucleic Acids Research, 34, 1261-1269.

상세보기
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281-297.
Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., Leisch, F., Chang, C. C. and Lin, C. C. (2015). Package 'e1071'. The Comprehensive R Archive Network, Available at https://cran.r-project.org/web/packages/e1071/e1071.pdf.
Park, C. (2016). A simple diagnostic statistic for determining the size of random forest. Journal of the Korean Data & information Science Society, 27, 855-863.

원문보기 상세보기
Scott, A. J. and Symons, M. J. (1971). Clustering methods based on likelihood ratio criteria. Biometrics, 27, 387-397.

상세보기
Song, K. B., Baek, Y. S., Hong, D. H., and Jang, G. (2005). Short-term load forecasting for the holidays using fuzzy linear regression method. IEEE transactions on power systems, 20, 96-101.

상세보기
Therneau, T., Atkinson, B., Ripley, B., and Ripley, M. B. (2015). Package 'rpart', Available online cran.ma.ic.ac.uk/web/packages/rpart/rpart.pdf.
Wi, Y. M. and Min, Y. K. (2016). Weekly peak load forecasting using weather stochastic model and weather sensitivity. The Transactions of the Korean Institute of Electrical Engineers, 64, 41-47.
Yoon, S. H. and Choi, Y. J. (2015). Functional clustering for electricity demand data: A case study. Journal of the Korean Data & information Science Society, 26, 885-894.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증