[논문]다양한 종류의 예측에서 머신러닝 성능 비교

박귀만; 배영철

doi:10.13067/jkiecs.2019.14.1.169

다양한 종류의 예측에서 머신러닝 성능 비교
Performance Comparison of Machine Learning in the Various Kind of Prediction 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.14 no.1, 2019년, pp.169 - 178

박귀만 (전남대학교 전기 및 반도체공학과) , 배영철 (전남대학교 전기.전자통신.컴퓨터공학부)

초록
AI-Helper

현재 인공지능의 한 영역인 머신러닝을 적용하여 다양한 예측을 수행하고 있으나 실제 현장에서 어떤 종류의 알고리즘을 사용하는 것이 가장 좋은 방법인지는 늘 문제가 된다. 본 논문은 여러 머신러닝 지도 학습 알고리즘을 이용하여 월별 전력 거래량, 전력 거래금액, 월별 생산 확산 지수, 최종 에너지 소비, 자동차용 경유를 예측하여 각 경우에 어떤 알고리즘이 가장 적합한 알고리즘인지를 알아본다. 이를 위해 통계청에 나와 있는 월별 전력 거래량과 월별 전력 거래금액, 월별 생산 확산 지수, 최종에너지 소비, 자동차용 경유로 머신 러닝이 예측하는 값의 확률을 보여주고 각각의 예측 값을 평균화 하여 이들 중에서 어떤 기법이 가장 우수한 기법인지를 확인한다.

Abstract ▼ AI-Helper

Now a day, we can perform various predictions by applying machine learning, which is a field of artificial intelligence; however, the finding of best algorithm in the field is always the problem. This paper predicts monthly power trading amount, monthly power trading amount of money, monthly index of production extension, final consumption of energy, and diesel for automotive using machine learning supervised algorithms. Then, we find most fit algorithm among them for each case. To do this we show the probability of predicting the value for monthly power trading amount and monthly power trading amount of money, monthly index of production extension, final consumption of energy, and diesel for automotive. Then, we try to average each predicting values. Finally, we confirm which algorithm is the most superior algorithm among them.

주제어

표/그림 (22)

그림 그림 1. 전력거래량 시계열 데이터 Fig. 1 Time series of power trading amount
그림 그림 2. 전력거래금액 시계열 데이터 Fig. 2 Time series of power trading amount of money
그림 그림 3. 생산확산지수 시계열데이터 Fig. 3 Time series of production spread index
그림 그림 4. 최종에너지 소비의 시계열 데이터 Fig. 4 Time series of final energy consumption
그림 그림 5. 자동차용 경유의 시계열데이터 Fig. 5 Time series of vehicle diesel
그림 그림 6. k-근접 이웃 회귀 알고리즘을 이용한 전력거래량 데이터의 학습 Fig. 6 Learning of power trading amount data using k-Neighbors Regression algorithms
그림 그림 7. k-근접 이웃 회귀 알고리즘을 이용한 전력거래금액 데이터의 학습 Fig. 7 Learning of power trading amount of money data using k-Neighbors Regression algorithms
그림 그림 8. k-근접 이웃 회귀 알고리즘을 이용한 생산확산지수 데이터의 학습 Fig. 8 Learning of production spread index data using k-Neighbors Regression algorithms
그림 그림 9. k-근접 이웃 회귀 알고리즘을 이용한 최종에너지소비 데이터의 학습 Fig. 9 Learning of final energy consumption data using k-NeighborsRegressor algorithms
그림 그림 10. k-근접 이웃 회귀 알고리즘을 이용한 자동차용 경유 데이터의 학습 Fig. 10 Learning of vehicle diesel data using k-Neighbors Regression algorithms
그림 그림 11. 전력거래량의 f(x) Fig. 11 f(x) of power trading amount
그림 그림 12. 전력거래금액의 f(x) Fig. 12 f(x) of power trading amount of money
그림 그림 13. 생산확산지수의 f(x) Fig. 13 f(x) of production spread index
그림 그림 14. 최종에너지소비의 f(x) Fig. 14 f(x) of final energy consumption
그림 그림 15. 자동차용 경유의 f(x) Fig. 15 f(x) of vehicle diesel
그림 그림 16. 전력거래량 데이터를 릿지 회귀 알고 리즘으로 학습하여 나타낸 f(x) Fig. 16 f(x) showing power trading amount data learned by Ridge algorithm
그림 그림 17. 전력거래금액 데이터를 릿지 회귀 알고리즘으로 학습하여 나타낸 f(x) Fig. 17 f(x) showing power trading amount of money data learned by Ridge algorithm
그림 그림 18. 생산확산지수 데이터를 릿지 회귀 알고리즘으로 학습하여 나타낸 f(x) Fig. 18 f(x) showing production spread index data learned by Ridge algorithm
그림 그림 19. 최종에너지소비 데이터를 릿지 회귀 알고리즘으로 학습하여 나타낸 f(x) Fig. 19 f(x) showing final energy consumption data learned by Ridge algorithm
그림 그림 20. 자동차용 경유 데이터를 릿지 회귀 알고리즘으로 학습하여 나타낸 f(x) Fig. 20 f(x) showing vehicle diesel data learned by Ridge algorithm
표 표 1. 각 알고리즘의 예측 정확도 결과 Table 1. Result of prediction accuracy for each algorithm
표 표 2. 각각의 예측 정확도를 평균 Table 2. Average of prediction accuracy for each algorithm

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 파이썬을 기반으로 월별 전력 거래량, 월별 전력 거래금액, 월별 생산 확산 지수, 최종에너지 소비, 자동차용 경유에 대한 예측을 근접 이웃 알고리즘, 근접 이웃 회귀, 선형 회귀, 릿지 회귀 알고리즘으로 예측을 수행하고 각각의 예측값을 평균화 하여 이들 기법 중 예측에서 어느 알고리즘이 우수한 기법인지를 제시하고자 한다.
본 논문은 여러 지도 학습 중에 제한된 데이터로 가장 좋은 머신 러닝을 이용하여, 월별 전력 거래량을 예측한다. 이를 위해 통계청에 나와 있는 월별 전력 거래량과 월별 전력 거래금액, 월별 생산 확산 지수, 최종에너지 소비, 자동차용 경유로 머신 러닝이 예측하는 값의 확률을 보여주었다.

제안 방법

데이터의 75%와 25%를 각각 학습, 테스트 데이터로 분류한 후 학습데이터로 알고리즘을 이용하여 학습한 후 테스트 데이터로 예측 정확도를 측정한다.
생산 확산지수는 생산지표 중 증가의 방향으로 움직인 지표수가 전체 지표수 중에서 차지하는 비율을 백분비로 나타낸 것이다. 생산 확산지수 데이터는 통계청 산업동향과에서 공개하였으며 통계청을 비롯한 각 통계작성기관에서 종합 가공하여 작성하였다. 생산 확산지수 데이터의 단위는 (%)이다.

대상 데이터

머신 러닝에 사용할 데이터는 통계청을 참고하였다. 전력 거래량(GWh), 전력 거래금액(억 원), 생산 확산지수(광공업), 최종에너지 소비(1000TOE).
전력 거래량(GWh), 전력 거래금액(억 원), 생산 확산지수(광공업), 최종에너지 소비(1000TOE). 자동차용 경유에 대한 데이터는 2001년 1월부터 월별로 2017년 12월 까지 각각의 203개의 데이터를 가지고 있다.
전력 거래금액 데이터 또한 전력시장에서 거래하는 전체 회원사의 발전소의 거래 정보를 한국전력거래소 시장운영처의 시장정산 팀이 통계청에 공개한 데이터이다.
전력거래량 데이터는 전력시장에서 거래하는 전체 회원사의 발전소의 거래 정보를 한국전력거래소 시장 운영처의 시장정산 팀이 통계청에 공개한 데이터이다.
최종에너지는 산업, 수송, 가정 및 상업부문 등 최종에너지 소비부문에서 사용하는 에너지로, 최종소비자가 직접 사용한 1차 에너지와 전환과정을 거친 2차 에너지가 해당한다. 최종에너지 데이터는 에너지 경제 연구원 에너지통계연구실 산업 부문에서의 석탄, 석유, 천연가스, 도시가스, 전력, 신재생 에너지의 총 합계을 나타낸 것이다. 최종에너지 소비 데이터의 단위는 (천 toe)이다.

성능/효과

이를 위해 통계청에 나와 있는 월별 전력 거래량과 월별 전력 거래금액, 월별 생산 확산 지수, 최종에너지 소비, 자동차용 경유로 머신 러닝이 예측하는 값의 확률을 보여주었다. 계산 결과 근접 이웃 회귀 알고리즘이 가장 높은 정확도를 가지고 있음을 확인할 수 있었다. 이는 데이터 그래프가 이웃점 회귀에 최적화되어 있기 때문이다.
본 논문은 여러 지도 학습 중에 제한된 데이터로 가장 좋은 머신 러닝을 이용하여, 월별 전력 거래량을 예측한다. 이를 위해 통계청에 나와 있는 월별 전력 거래량과 월별 전력 거래금액, 월별 생산 확산 지수, 최종에너지 소비, 자동차용 경유로 머신 러닝이 예측하는 값의 확률을 보여주었다. 계산 결과 근접 이웃 회귀 알고리즘이 가장 높은 정확도를 가지고 있음을 확인할 수 있었다.
인공지능의 발달은 인간이 수동적으로 해야 했던 일들을 최소화하거나 대체함으로써 업무 효율성을 크게 높이는 결과를 통하여 상당한 노동력과 비용 절감 효과를 거둘 수 있었다. 최근 우리나라의 경우 급격한 인구 감소에 따른 노동력 부족 현상이 점점 현실화되어 갈 것으로 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	k-근접 이웃 알고리즘은 어떻게 만들어지는가?	k-근접 이웃 알고리즘은 단순히 훈련 데이터를 저장하여 만들어진다. 새로운 데이터 포인트에 대한 예측이 필요하면 알고리즘은 새 데이터 포인트에서 가장 가까운 훈련 데이터를 찾는다.
	여러 지도 학습 중에 제한된 데이터로 가장 좋은 머신 러닝을 이용하여, 월별 전력 거래량을 예측한 결과 근접 이웃 회귀 알고리즘이 가장 높은 정확도를 가지는데, 그 이유는 무엇인가?	계산 결과 근접 이웃 회귀 알고리즘이 가장 높은 정확도를 가지고 있음을 확인할 수 있었다. 이는 데이터 그래프가 이웃점 회귀에 최적화되어 있기 때문이다.
	선형 회귀의 파라미터는 어떻게 찾는가?	선형 회귀는 예측과 훈련 세트에 있는 타깃 y 사이의 평균제곱오차를 최소화하는 파라미터 w와 b를 찾는다. 평균제곱오차는 예측값과 목표값의 차이를 제곱하여 더한 후에 샘플의 개수로 나눈 것으로 식(5)와 같이 표현된다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증