[논문]빅데이터 통합모형 비교분석

정병호; 임동훈

doi:10.7465/jkdi.2017.28.4.755

문제 정의

Hadoop에서 HDFS는 데이터 Y 와 X가 L개의 블럭으로 분할되어 저장된다. 따라서
본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
, β_k는 회귀계수 (regression coefficient)이고 오차항 ϵ은 서로 독립이고 평균 µ는 0이고 표준편차가 σ인 정규분포를 따른다고 가정한다. n개의 관찰값에 대해 식 (3.1)을 행렬로 표현하면 다음과 같다.
본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
다음은 단어 세기에 대한 예를 가지고 RHIPE 모형에서 MapReduce 프로그램을 Map과 Reduce로 나누어 설명하고자 한다. 다음은 Map 프로그램을 나타내고 있다.
따라서 로그-우도함수 (log-likelihood function)는 식 (3.4)에 로그를 취하고 식 (3.3)를 사용하여 다음과 같이 나타낼 수 있다.
h1>1. 서론
H를 Hessian 행렬, 즉, 로그-우도 함수의 2차 기울기 행렬이라 할 때 식 (3.6)은 H의 (j, k)번째 원소 즉, H_jk를 나타낸다.
본 논문에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE을 이용하여 대용량 데이터에서 다중 회귀 (multiple regression)와 로지스틱 회귀(logistic regression) 추정을 위한 머신러닝 알고리즘을 Hadoop의 MapReduce 구현을 통해 두 통합모형간 비교분석하고자 한다. R과 Hadoop의 통합모형에는 RHadoop과 RHIPE 외에 여러가지 모형이 있다.
본 논문에서는 두 통합모형 RHadoop와 RHIPE의 비교분석을 위해 분산처리 기반의 클러스터를 구축하고 다중 회귀와 로지스틱 회귀 추정 알고리즘을 MapReduce 프로그램으로 구현하였다. 특히, 로지스틱 회귀추정에서 Gradient Descent 알고리즘을 MapReduce로 구현한 연구는 존재하나 본 연구에서는 Newton-Raphson 알고리즘을 MapReduce로 처음으로 구현하여 실제 데이터와 모의실험 데이터에서 RHadoop과 RHIPE 모형의 확장성이 용이함을 보였다.
h1>1. 서론
,..
RHIPE은 각 데이터노드 (dаtаnode)에 대해 R, 프로토콜 버퍼 (protocol buffer)를 설치해야함으로 RHadoop에 비해 다소 설치가 어렵다. 여기서 프로토콜 버퍼는 구조화된 데이터를 직렬화 (data serialization) 할 수 있는 확장형 메커니즘이다.
4. RHadoop과 RHIPE의 실험 환경
h1>1. 서론
회귀분석에서 k개의 독립변수 X₁, X₂, . . . , X_k와 종속변수 Y 간의 관계가 선형인 경우 다음의 다중 선형 회귀모형 (multiple linear regression model)을 사용한다.

제안 방법

RHadoop은 5개의 R 패키지들로 구성되어 있고 그 중에서 주요 패키지는 rmr, rhdfs, rhbase이다. rmr 패키지는 R과 MapReduce 사이의 인터페이스 역할을 하고, rhdfs 패키지는 R과 HDFS를 연결시켜주는 역할을 하고, rhbase 패키지는 R에서 HBase 데이터베이스 관리하는 역할을 한다. 이들 패키지들은 각 노드에 설치되어 네트워크 통신을 통해 분산처리를 수행한다.

대상 데이터

예를 들면, R Streаming 모형, RHive 모형 등이 있다. R Streаming 모형은 MapReduce 작업을 R 언어로 구현한 다음 Hadoop Streaming을 사용하여 Hadoop 명령 라인 (commаnd line)에서 실행하는 방식으로 사용하기 간편한 반면에 클라이언트 측면에서 통합이 아니다. 그리고 RHive 모형은 R과 대용량 데이터 웨어하우스 시스템인 Hive와 연동하여 SQL 언어인 HiveQL를 사용하여 데이터 접근 및 분석을 위한 모형이다.
RHIPE은 RHadoop와는 다르게 각 데이터 노드에 R을 공유 라이브러리 (shared library)로 설치하고, 효율적인 데이터 전송을 위해 별도의 프로토콜 버퍼를 설치한다.
RHIPE 모형은 원래 D&R (divide and recombine)이라는 분석기법을 통해 대용량의 복잡한 데이터를 작은 데이터 셋 (subset)으로 나누어 (divide) 분석한 다음 전체 데이터에 대해 결과를 재조합 (recombine)하는 방식으로 MapReduce 작업을 수행한다. RHIPE은 각 데이터노드 (dаtаnode)에 대해 R, 프로토콜 버퍼 (protocol buffer)를 설치해야함으로 RHadoop에 비해 다소 설치가 어렵다. 여기서 프로토콜 버퍼는 구조화된 데이터를 직렬화 (data serialization) 할 수 있는 확장형 메커니즘이다.
00 GB에서 처리가 불가능하였다. RHadoop과 RHIPE 간의 비교에서는 50 MB 데이터의 크기를 제외하고 RHIPE이 RHadoop보다 빠른 처리속도를 보였다.
RHadoop 모형은 R과 Hadoop 사이 클라이언트 측면에서 통합을 제공하는 Revolution Analytics 사에 의해 개발된 오프 소스 프로젝트이다. RHadoop은 5개의 R 패키지들로 구성되어 있고 그 중에서 주요 패키지는 rmr, rhdfs, rhbase이다. rmr 패키지는 R과 MapReduce 사이의 인터페이스 역할을 하고, rhdfs 패키지는 R과 HDFS를 연결시켜주는 역할을 하고, rhbase 패키지는 R에서 HBase 데이터베이스 관리하는 역할을 한다.
Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다. 오늘날 통계 프로그램 언어 R은 구글, 페이스북, 오라클, IBM, SAP 등의 분석엔진으로 채택할 정도로 통계 분석 및 뛰어난 그래픽 기능을 갖고 있으나 대용량 데이터 처리를 위한 스케일 확장성(scalability)을 갖고 있지 않다.

성능/효과

Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다.
Hadoop은 빅데이터의 분산 저장 및 처리 능력을 갖고 있지만 R과 같은 데이터 분석 능력은 갖고 있지 않고 R은 데이터 분석 및 데이터 가시화와 같은 데이터 분석, 조작 능력은 갖고 있지만 데이터 처리를 위한 확장성 (scalability)을 갖고 있지 않다. RHadoop와 RHIPE은 Hadoop과 R의 장점만을 통합한 모형으로 각각의 모형에 대해서는 연구가 많이 진행되었으나 이들 비교 연구는 거의 이루어지지 않았다.
H를 Hessian 행렬, 즉, 로그-우도 함수의 2차 기울기 행렬이라 할 때 식 (3.6)은 H의 (j, k)번째 원소 즉, H_jk를 나타낸다. 따라서 최적해는 H를 사용하여 다음과 같이 반복을 통해 얻어진다.
00 GB에서 처리가 불가능하였다. RHadoop과 RHIPE 비교에서는 RHIPE이 RHadoop보다 빠른 처리 속도를 보일 것이라는 일반적인 예상과 달리 모든 데이터에서 RHadoop이 RHIPE보다 처리 속도가 빠르게 나타났다. 이것은 Table 5.
66 GB에서는 제안한 통합모형보다 최소 12배 이상 처리 속도 차이가 나는 것을 알 수 있다. RHadoop과 RHIPE 비교에서는 예상하였듯이 100 MB에서의 처리속도를 제외하고 모든 데이터 크기에서 RHIPE이 RHadoop보다 빠른 처리속도를 보였다. 그 이유는 RHadoop은 Hadoop Streaming 방식으로 데이터를 처리하는 반면에 RHIPE는 Hadoop Streaming에 의존하지 않고 데이터 직렬화와 같은 별도의 처리 방식으로 인해 효율적인 작업부하 (workload)가 이루어 지기 때문이다.
Hadoop은 빅데이터의 분산 저장 및 처리 능력을 갖고 있지만 R과 같은 데이터 분석 능력은 갖고 있지 않고 R은 데이터 분석 및 데이터 가시화와 같은 데이터 분석, 조작 능력은 갖고 있지만 데이터 처리를 위한 확장성 (scalability)을 갖고 있지 않다. RHadoop와 RHIPE은 Hadoop과 R의 장점만을 통합한 모형으로 각각의 모형에 대해서는 연구가 많이 진행되었으나 이들 비교 연구는 거의 이루어지지 않았다.
제 2 절에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE의 개요에 대해 살펴보고, 제 3 절에서는 다중 회귀와 로지스틱 회귀 추정 알고리즘에 대해 살펴보고자 한다. 그리고 제 4 절과 제 5 절에서는 각각 RHadoop과 RHIPE의 실험환경과 성능분석에 대해 살펴보고, 제 6 절에서 결론을 맺고자 한다.
본 논문에서 두 통합모형 RHadoop과 RHIPE간 비교분석을 위해 먼저 다중 회귀와 로지스틱 회귀추정을 위한 분산처리용 클러스터 (distributed cluster)를 구축하고, 실제 데이터와 모의실험 데이터에서 RHadoop과 RHIPE 모형의 확장성을 알아보기 위해 기본 R 패키지에서 회귀 분석에 대한 lm() 함수와 로지스틱 회귀 분석에 대한 glm() 함수 그리고 bigmemory 패키지에서 biglm()함수와 bigglm() 함수와의 처리속도를 비교한다. 그리고 두 모형 RHadoop과 RHIPE 간의 처리 속도를 비교하고자 한다.
다음은 RHadoop 모형에서 MapReduce 프로그램 작성에 대해 단어세기에 대한 예를 가지고 Map과 Reduce로 나누어 설명하고자 한다. 다음은 Map 프로그램을 나타내고 있다.
두 통합모형 성능실험 결과, RHadoop과 RHIPE 모형은 기존의 패키지들에 비해 데이터 크기에 관계 없이 데이터 처리가 가능함을 보였고 RHadoop과 RHIPE 비교에서 RHIPE는 설치와 사용면에서 어려운 점을 갖고 있으나 실제 데이터에서 로지스틱 회귀 추정을 제외하고 RHadoop보다 전반적으로 빠른 처리속도를 보였다.
로지스틱 회귀모형에서 k = 4인 독립변수 X₁, ..., X₄는 다음과 같이 표준정규난수로 부터 얻어진다.
h1>1. 서론
본 논문에서 두 통합모형 RHadoop과 RHIPE간 비교분석을 위해 먼저 다중 회귀와 로지스틱 회귀추정을 위한 분산처리용 클러스터 (distributed cluster)를 구축하고, 실제 데이터와 모의실험 데이터에서 RHadoop과 RHIPE 모형의 확장성을 알아보기 위해 기본 R 패키지에서 회귀 분석에 대한 lm() 함수와 로지스틱 회귀 분석에 대한 glm() 함수 그리고 bigmemory 패키지에서 biglm()함수와 bigglm() 함수와의 처리속도를 비교한다. 그리고 두 모형 RHadoop과 RHIPE 간의 처리 속도를 비교하고자 한다.
본 논문에서는 Spark의 MLLib에 수록된 알고리즘이 제한적이고 본 논문에 사용된 알고리즘과 달라 직접 비교할 수 없었으나 향후 이에 대한 비교 연구가 필요하다고 사료된다.
1)에 주어진 다중회귀 모형으로부터 정규난수 (normal random number)를 발생하여 얻는다. 본 실험에서 k = 7인 경우 독립변수 X₁, ..., X₇와 종속변수 Y는 다음과 같이 얻어진다.
빅데이터가 제4차 산업혁명을 이끌 핵심 아이콘으로 부각되면서 빠른 시간 내에 데이터 수집, 처리, 분석할 수 있는 빅데이터 플랫폼이 요구되고 있다.
h1>1. 서론
실험에 사용될 작은 데이터는 원래 데이터 크기 2.33 GB를 기준으로 샘플링을 이용하여 얻었고, 큰 데이터는 원래 데이터로부터 2 ∼ 4배수 복원추출에 의해 데이터 크기 9.32 GB까지 생성하였다.
of rows)가 다르기 때문이다. 예를 들면, 500 MB 데이터 크기에서 실제 데이터의 행의 수는 25,905,751인데 비해 모의실험 데이터의 행의 수는 20,260,625로 실제 데이터의 행의 수에 비해 작아 상대적으로 모의실험 데이터에서 처리속도가 빠르고, 이로인해 두 통합모형간 처리 속도차이도 줄어둔 것으로 생각된다.
물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다. 오늘날 통계 프로그램 언어 R은 구글, 페이스북, 오라클, IBM, SAP 등의 분석엔진으로 채택할 정도로 통계 분석 및 뛰어난 그래픽 기능을 갖고 있으나 대용량 데이터 처리를 위한 스케일 확장성(scalability)을 갖고 있지 않다.
우리는 실제 데이터와 모의실험 데이터에서 다중 회귀 추정을 위한 RHadoop과 RHIPE 모형의 확장성을 평가하기 위해 기존 패키지의 lm() 함수, biglm() 함수와 비교하고, 그리고 두 모형 RHadoop과 RHIPE간의 성능을 비교하였다.
우리는 실제 데이터와 모의실험 데이터에서 로지스틱 회귀 추정을 위한 RHadoop과 RHIPE 통합모형의 확장성을 평가하기 위해 기존의 패키지의 glm() 함수, bigglm() 함수와 비교하고, 그리고 두 모형 RHadoop과 RHIPE간의 성능을 비교하였다.
위 map 함수는 HDFS에 저장된 <키, 값> 형태의 데이터를 리스트 형태로 읽어서 처리한다. 이 때 데이터는 strsplit() 함수를 사용하여 공백을 기준으로 단어별로 쪼개어 변수에 저장한다. 그리고 각 단어별로 쪼개진 데이터는 unlist() 함수에 의해 벡터 형태로 변환되고 keyval() 함수를 이용하여 <키, 값> 형태로 HDFS에 보내진다.
실제 데이터는 2009년 ASA (American Standards Association:미국 표준 협회)에서 공개된 미국 항공편 운항과 관련된 데이터로서 1987년부터 2008년까지 29개의 변수에 대해 얻어졌다 (ASA data expo, 2009). 이 항공 데이터는 123,534,970개의 행으로 구성되어 있고 12 GB에 해당되는 데이터의 크기를 갖고 있다. 실험에 사용된 데이터는 결측값과 회귀분석하는데 부적합한 변수를 제외하여 얻었고 Table 4.
지금까지 살펴보았듯이, Hadoop기반 플랫폼은 기존의 패키지에 비해 방대한 데이터를 처리할 수 있으나 MapReduce의 일괄처리작업으로 인하여 머신러닝과 같은 반복적인 데이터 처리에는 성능이 떨어지고, 또한 Hadoop의 HDFS는 데이터 노드간의 정보 전달 및 저장하는데 입출력과 네트워크 오버헤드가 발생할 수 있다. 이러한 문제를 해결하기 위해 인메모리 기반인 Spark와 H2O 플랫폼에서 머신러닝에 관한 많은 연구가 진행되고 있고, 속도면에서 기존의 Hadoop기반 플랫폼보다 전반적으로 빠른 처리 속도를 보이고 있다.
본 논문의 구성은 다음과 같다. 제 2 절에서는 R과 Hadoop의 통합모형인 RHadoop과 RHIPE의 개요에 대해 살펴보고, 제 3 절에서는 다중 회귀와 로지스틱 회귀 추정 알고리즘에 대해 살펴보고자 한다. 그리고 제 4 절과 제 5 절에서는 각각 RHadoop과 RHIPE의 실험환경과 성능분석에 대해 살펴보고, 제 6 절에서 결론을 맺고자 한다.
지금까지 살펴보았듯이, Hadoop기반 플랫폼은 기존의 패키지에 비해 방대한 데이터를 처리할 수 있으나 MapReduce의 일괄처리작업으로 인하여 머신러닝과 같은 반복적인 데이터 처리에는 성능이 떨어지고, 또한 Hadoop의 HDFS는 데이터 노드간의 정보 전달 및 저장하는데 입출력과 네트워크 오버헤드가 발생할 수 있다. 이러한 문제를 해결하기 위해 인메모리 기반인 Spark와 H2O 플랫폼에서 머신러닝에 관한 많은 연구가 진행되고 있고, 속도면에서 기존의 Hadoop기반 플랫폼보다 전반적으로 빠른 처리 속도를 보이고 있다.
최근 글로벌 IT 시장조사기관 IDC의 보고서에 의하면 올해 세계 빅데이터 및 분석 시장의 규모는 1500억 달러 (약 172조 원)를 넘을 것으로 예상하고, 2020년이 되면 2100억 달러 (약 239조 원)의 규모가 될 것으로 내다보고 있다. 국내 빅데이터 시장 역시 세계 정세에 따라 높은 성장율을 이룰 것으로 예상되는 가운데 빅데이터 기반 분석 및 예측 능력이 금융, 유통, 통신 등 산업 전반에 걸쳐 주요 경쟁력이 될 전망이다 (IDC, 2015).
1의 통합구조는 여러대의 컴퓨터들로 구성되어 있는 하드웨어 레이어 (hadware layer), HDFS와 MapReduce로 이루어진 Hadoop 프레임워크의 미들웨어 레이어 (middleware layer), R의 통계적 레이어 (statistical layer), 그리고 Hadoop 프레임워크 사이에서 인터페이스 역할을 하는 인터페이스 레이어 (interface layer)로 구성되어 있다. 통계적 레이어에는 R외에 Hadoop과 연동이 가능한 SPSS, SAS와 같은 통계 프로그램이 있으나 이들 프로그램들은 유료이면서 최신 라이브러리를 제공하는데 한계가 있고 또한 Java, C, Python 등과의 연동하는데 어려움이 있다. RHadoop과 RHIPE은 R과 Hadoop사이의 인터페이스 레이어에 속하는 대표적인 통합모형이다 (Oancea 와 Dragoescu, 2014).
그리고 제안한 통합모형과 biglm() 함수와의 비교에서 제안한 모형은 데이터가 크더라도 완만하게 감소하는 처리 속도를 보인 반면 biglm() 함수는 급격하게 처리 속도가 늦어지는 것을 알 수 있다. 특히, 4.66 GB에서는 제안한 통합모형보다 최소 12배 이상 처리 속도 차이가 나는 것을 알 수 있다. RHadoop과 RHIPE 비교에서는 예상하였듯이 100 MB에서의 처리속도를 제외하고 모든 데이터 크기에서 RHIPE이 RHadoop보다 빠른 처리속도를 보였다.
본 논문에서는 두 통합모형 RHadoop와 RHIPE의 비교분석을 위해 분산처리 기반의 클러스터를 구축하고 다중 회귀와 로지스틱 회귀 추정 알고리즘을 MapReduce 프로그램으로 구현하였다. 특히, 로지스틱 회귀추정에서 Gradient Descent 알고리즘을 MapReduce로 구현한 연구는 존재하나 본 연구에서는 Newton-Raphson 알고리즘을 MapReduce로 처음으로 구현하여 실제 데이터와 모의실험 데이터에서 RHadoop과 RHIPE 모형의 확장성이 용이함을 보였다. 이를 위해 기본 R 패키지에서 다중 회귀 분석에 대한 lm() 함수와 로지스틱 회귀분석에 대한 glm() 함수 그리고 bigmemory 패키지에서 biglm()함수, bigglm() 함수와 처리 속도를 비교하였다.

핵심어	질문	논문에서 추출한 답변
	Hadoop은 무엇인가?	Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다.
	4차 산업혁명의 성패 열쇠를 빅데이터가 가지고 있는 이유는 무엇인가?	오늘날 4차 산업혁명이 미래 시대를 열어갈 최대 화두이다. 4차 산업혁명은 인공지능 기반 디지털 기술이 사물과 연결되는 초연결 (hyperconnectivity) · 초지능 (superintelligence) 시대를 가리키는데 빅데이터가 4차 산업혁명의 핵심기술로 부상하고 있다. 따라서 4차 산업혁명의 성패 열쇠는 빅데이터가 갖고 있다고 할 수 있다 (Jee, 2017).
	머신러닝 라이브러리의 단점은 무엇인가?	Hadoop은 대용량 데이터를 분산저장 및 처리할 수 있는 오픈 소스 프레임워크로 지금까지 널리 사용되고 있으나 기본적으로 제공되는 데이터 분석도구의 부재로 인하여 데이터 과학자들은 Hadoop 상에서 데이터 분석을 위한 별도의 도구를 필요로 하고 있다. 물론 Hadoop 기반 대용량 데이터 분석을 위한 아파치 마하웃 (Apache Mahout)과 같은 머신러닝 라이브러리 (machine learnig library)가 있으나 자바언어로 구현되어 있고 또한 군집, 분류, 협업필터링 분야에 국한되어 있어 범용성이 떨어지는 단점이 있다. 오늘날 통계 프로그램 언어 R은 구글, 페이스북, 오라클, IBM, SAP 등의 분석엔진으로 채택할 정도로 통계 분석 및 뛰어난 그래픽 기능을 갖고 있으나 대용량 데이터 처리를 위한 스케일 확장성(scalability)을 갖고 있지 않다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

빅데이터 통합모형 비교분석
Comparison analysis of big data integration models 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

4. RHadoop과 RHIPE의 실험 환경

제안 방법

대상 데이터

성능/효과

질의응답

참고문헌 (26)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

빅데이터 통합모형 비교분석 Comparison analysis of big data integration models 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

4. RHadoop과 RHIPE의 실험 환경

제안 방법

대상 데이터

성능/효과

질의응답

참고문헌 (26)

이 논문을 인용한 문헌

저자의 다른 논문 :

임동훈 (36)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

빅데이터 통합모형 비교분석
Comparison analysis of big data integration models 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper