$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

빅데이터 통합모형 비교분석
Comparison analysis of big data integration models 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.28 no.4, 2017년, pp.755 - 768  

정병호 (경상남도 도청) ,  임동훈 (경상대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

빅데이터가 4차 산업혁명의 핵심으로 자리하면서 빅데이터 기반 처리 및 분석 능력이 기업의 미래 경쟁력을 좌우할 전망이다. 빅데이터 처리 및 분석을 위한 RHadoop과 RHIPE 모형은 R과 Hadoop의 통합모형으로 지금까지 각각의 모형에 대해서는 연구가 많이 진행되어 왔으나 두 모형간 비교 연구는 거의 이루어 지지 않았다. 본 논문에서는 대용량의 실제 데이터와 모의실험 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀 (logistic regression) 추정을 위한 머신러닝 (machine learning) 알고리즘MapReduce 프로그램 구현을 통해 RHadoop과 RHIPE 간의 비교 분석하고자 한다. 구축된 분산 클러스터 (distributed cluster) 하에서 두 모형간 성능 실험 결과, RHIPE은 RHadoop에 비해 대체로 빠른 처리속도를 보인 반면에 설치, 사용면에서 어려움을 보였다.

Abstract AI-Helper 아이콘AI-Helper

As Big Data becomes the core of the fourth industrial revolution, big data-based processing and analysis capabilities are expected to influence the company's future competitiveness. Comparative studies of RHadoop and RHIPE that integrate R and Hadoop environment, have not been discussed by many rese...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • Hadoop에서 HDFS는 데이터 Y 와 X가 L개의 블럭으로 분할되어 저장된다. 따라서
  • 본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
  • 본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
  • , βk는 회귀계수 (regression coefficient)이고 오차항 ϵ은 서로 독립이고 평균 µ는 0이고 표준편차가 σ인 정규분포를 따른다고 가정한다. n개의 관찰값에 대해 식 (3.1)을 행렬로 표현하면 다음과 같다.
  • 본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
  • 본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
  • 다음은 단어 세기에 대한 예를 가지고 RHIPE 모형에서 MapReduce 프로그램을 Map과 Reduce로 나누어 설명하고자 한다. 다음은 Map 프로그램을 나타내고 있다.
  • 따라서 로그-우도함수 (log-likelihood function)는 식 (3.4)에 로그를 취하고 식 (3.3)를 사용하여 다음과 같이 나타낼 수 있다.
  • h1>1. 서론
  • H를 Hessian 행렬, 즉, 로그-우도 함수의 2차 기울기 행렬이라 할 때 식 (3.6)은 H의 (j, k)번째 원소 즉, Hjk를 나타낸다.
  • 본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
  • 본 논문에서는 두 통합모형 RHadoop와 RHIPE의 비교분석을 위해 분산처리 기반의 클러스터를 구축하고 다중 회귀와 로지스틱 회귀 추정 알고리즘을 MapReduce 프로그램으로 구현하였다. 특히, 로지스틱 회귀추정에서 Gradient Descent 알고리즘을 MapReduce로 구현한 연구는 존재하나 본 연구에서는 Newton-Raphson 알고리즘을 MapReduce로 처음으로 구현하여 실제 데이터와 모의실험 데이터에서 RHadoop과 RHIPE 모형의 확장성이 용이함을 보였다.
  • h1>1. 서론
  • ,..
  • RHIPE은 각 데이터노드 (dаtаnode)에 대해 R, 프로토콜 버퍼 (protocol buffer)를 설치해야함으로 RHadoop에 비해 다소 설치가 어렵다. 여기서 프로토콜 버퍼는 구조화된 데이터를 직렬화 (data serialization) 할 수 있는 확장형 메커니즘이다.
  • 4. RHadoop과 RHIPE의 실험 환경

  • h1>1. 서론
  • 회귀분석에서 k개의 독립변수 X1, X2, . . . , Xk와 종속변수 Y 간의 관계가 선형인 경우 다음의 다중 선형 회귀모형 (multiple linear regression model)을 사용한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Hadoop은 무엇인가? Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다.
4차 산업혁명의 성패 열쇠를 빅데이터가 가지고 있는 이유는 무엇인가? 오늘날 4차 산업혁명이 미래 시대를 열어갈 최대 화두이다. 4차 산업혁명은 인공지능 기반 디지털 기술이 사물과 연결되는 초연결 (hyperconnectivity) · 초지능 (superintelligence) 시대를 가리키는데 빅데이터가 4차 산업혁명의 핵심기술로 부상하고 있다. 따라서 4차 산업혁명의 성패 열쇠는 빅데이터가 갖고 있다고 할 수 있다 (Jee, 2017).
머신러닝 라이브러리의 단점은 무엇인가? Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다. 오늘날 통계 프로그램 언어 R은 구글, 페이스북, 오라클, IBM, SAP 등의 분석엔진으로 채택할 정도로 통계 분석 및 뛰어난 그래픽 기능을 갖고 있으나 대용량 데이터 처리를 위한 스케일 확장성(scalability)을 갖고 있지 않다.
질의응답 정보가 도움이 되었나요?

참고문헌 (26)

  1. ASA data expo. (2009). http://stat-computing.org/dataexpo/2009/the-data.html 

  2. Davenport, T. (2015). B. I. G. forum 2015, Gyeonggi Creative Economy & Innovation Center. 

  3. Forte, R. M. (2015). Mastering predictive analytics with R, Packt Publishing Ltd, Birmingham, U.K. 

  4. Guha, S. (2010). Computing environment for the statistical analysis of large and complex data, Ph.D Thesis, Department of Statistics, Purdue University, West Lafayette. 

  5. Guha, S., Hafen, R., Rounds, J., Xia, J., Li, J., Xi, B., Cleveland, W. S. (2012). Large complex data: divide and recombine (D&R) with RHIPE. Statistics, 191, 53-67. 

  6. Hafen, R., Gibson, T., Dam, K. K., Critchlow., T. (2014). Power grid data analysis with R and Hadoop in data mining applications with R, 1-34. 

  7. Harish, D., Anusha, M.S., Dr. Daya Sagar, K.V. (2015). Big data analysis using Rhadoop. IJIRAE, 4, 180-185. 

  8. Hilbe, J. M. (2009). Logistic regression models, Chapman & Hall/CRC Press. 

  9. IDC. (2015). IDC FutureScape: Worldwide big data and analytics 2016 predictions, MA, USA. 

  10. Jee, Y. S. (2017). Exercise rehabilitation in the fourth industrial revolution. Journal of Exercise Rehabilitation, 13, 255-256. 

  11. Jung, B. H., Shin, J. E. and Lim, D. H. (2014). Rhipe platform for big data processing and analysis. The Korean Journal of Applied Statistics, 27, 1171-1185. 

  12. Jung, B. H. and Lim, D. H. (2016). Learning algorithms for big data logistic regression on RHIPE platform. The Korean Journal of Applied Statistics, 27, 911-923. 

  13. Ko, Y. and Kim, J. (2013). Analysis of big data using Rhipe. Journal of the Korean Data & Information Science, 24, 975-987. 

  14. Liang, S. (2003). Quantitative remote sensing of land surfaces, John Wiley & Sons. 

  15. Lin, H., Yang, S., Midkiff, S. P. (2013). RABID - A general distributed R processing framework targeting large data-set problems. IEEE International Congress on Big Data, Santa Clara, CA, USA. 

  16. Oancea, B. and Dragoescu, R. M. (2014). Integration R and Hadoop for big data analysis. Romanian statistical review, 2, 83-94. 

  17. Park, J. H., Lee, S. Y., Kang, D. H., Won, J. H. (2013). Hadoop and Mapreduce. Journal of the Korean Data & Information Science, 24, 1013-1027. 

  18. Prakash, L. and Bejda, M. (2015). Performance analysis for scaling up R computations using Hadoop, B.S. in Computer Science, The University of Texas at Austin. 

  19. Prajapati, V. (2013). Big data analytics with R and Hadoop, Packt Publishing Ltd, Birmingham, UK. 

  20. Rashid, M. (2008). Inference on logistic regression, Ph. D. Thesis, Bowling Green State University. 

  21. Sammer, E. (2012). Hadoop operations, O'Reilly Media, Inc., Sebastopol, CA. 

  22. Shin, J. E., Jung, B. H. and Lim, D. H. (2015). Big data distributed processing system using RHadoop. Journal of the Korean Data & Information Science, 26, 1155-1166. 

  23. Shin, J. E., Oh, Y. S. and Lim, D. H. (2016). RHadoop platform for K-Means clustering of big data. Journal of the Korean Data & Information Science, 27, 609-619. 

  24. Wang, C., Chen, M. H., Schifano, Wu, J. and Yan, J. (2015). A survey of statistical methods and computing for Big Data, Cornell University Library. 

  25. White, T. (2012). Hadoop: The definitive guide, O'Reilly Media, Inc., Sebastopol, CA. 

  26. Rotte, A. V., Patwari, G., Hiremath, S. (2015). Big data analytics made easy with rhadoop. International Journal of Research in Engineering and Technology, 4, 9-15. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로