[논문]하둡 기반 빅 데이터 기법을 이용한 웹 서비스 데이터 처리 설계 및 구현

김현주

doi:10.5762/kais.2015.16.1.726

하둡 기반 빅 데이터 기법을 이용한 웹 서비스 데이터 처리 설계 및 구현
Design and Implementation of an Efficient Web Services Data Processing Using Hadoop-Based Big Data Processing Technique 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.16 no.1, 2015년, pp.726 - 734

초록
AI-Helper

데이터를 구조화하여 사용하는 관계형 데이터베이스가 현재까지 데이터 관리에 가장 많이 사용되고 있다. 그러나 관계형 데이터베이스는 데이터가 증가되면 데이터를 저장하거나 조회할 때 읽기, 쓰기 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 나타난다. 또 새로운 업무가 추가되면 데이터베이스 내 데이터는 증가되고 결국 이를 해결하기 위해 하드웨어의 병렬 구성, CPU, 메모리, 네트워크 등 추가적인 인프라 구성을 필요로 하게 된다. 본 논문에서는 관계형 데이터베이스의 데이터 증가로 느려지는 웹 정보서비스 개선을 위해 기존 관계형 데이터베이스의 데이터를 하둡 HDFS로 전송하고 이를 일원화하여 데이터를 재구성한 후 사용자에게 하둡 데이터 처리로 대량의 데이터를 빠르고 안전하게 추출하는 모델을 구현한다. 본 시스템 적용을 위해 웹 기반 민원시스템과 비정형 데이터 처리인 이미지 파일 저장에 본 제안시스템을 적용하였다. 적용결과 관계형 데이터베이스 시스템보다 제안시스템 데이터 처리가 0.4초 더 빠른 결과를 얻을 수 있었고 기존 관계형 데이터베이스와 같은 대량의 데이터를 처리를 빅 데이터 기법인 하둡 데이터 처리로도 웹 정보서비스를 지원이 가능하였다. 또한 하둡은 오픈소스로 제공되어 소프트웨어 구매 비용을 줄여주는 장점이 있으며 기존 관계형 데이터베이스의 데이터 증가로 효율적인 대용량 데이터 처리를 요구하는 조직에게 도움을 줄 수 있을 것이다.

Abstract ▼ AI-Helper

Relational databases used by structuralizing data are the most widely used in data management at present. However, in relational databases, service becomes slower as the amount of data increases because of constraints in the reading and writing operations to save or query data. Furthermore, when a new task is added, the database grows and, consequently, requires additional infrastructure, such as parallel configuration of hardware, CPU, memory, and network, to support smooth operation. In this paper, in order to improve the web information services that are slowing down due to increase of data in the relational databases, we implemented a model to extract a large amount of data quickly and safely for users by processing Hadoop Distributed File System (HDFS) files after sending data to HDFSs and unifying and reconstructing the data. We implemented our model in a Web-based civil affairs system that stores image files, which is irregular data processing. Our proposed system's data processing was found to be 0.4 sec faster than that of a relational database system. Thus, we found that it is possible to support Web information services with a Hadoop-based big data processing technique in order to process a large amount of data, as in conventional relational databases. Furthermore, since Hadoop is open source, our model has the advantage of reducing software costs. The proposed system is expected to be used as a model for Web services that provide fast information processing for organizations that require efficient processing of big data because of the increase in the size of conventional relational databases.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서 하둡을 이용한 데이터 처리 모델을 제안한다. 본 논문의 데이터 처리는 전통적인 RDBMS 데이터베이스의 업무 효율성 증진과 기존 인프라의 추가 시설 없이 서비스 증가로 인한 데이터 읽기 부하, 쓰기 부하를 개선해 보고자 시도된 데이터 서비스 모델이다.
본 논문에서는 다형화 되는 데이터 증가로 인한 기관내 RDBMS 간의 데이터 처리에 관심을 두고 사용자에게는 신속한 정보서비스와 효율적인 데이터 관리를 위해기존 RDBMS 데이터 운영 방식에서 벗어나 확장성 있는 데이터 운영에 관심을 두었다. 더불어 경제적 비용을 최소화하며 데이터 증가로 인한 서비스 지연 현상을 개선하여 빠른 데이터 처리에 초점을 두고 본 제안시스템을 구현하였다.
본 논문에서는 현재까지 용이하게 사용되어 온 RDBMS 데이터 운영 방식에서 벗어나 효율적 데이터 처리와 경제적으로 유용한 데이터 처리 방식의 연구에 관심을 두었다. 이를 활용하기 위해 하둡(Hadoop)HDFS(Hadoop Distributed File System) 파일 처리를 이용하였다.
본 논문에서 하둡을 이용한 데이터 처리 모델을 제안한다. 본 논문의 데이터 처리는 전통적인 RDBMS 데이터베이스의 업무 효율성 증진과 기존 인프라의 추가 시설 없이 서비스 증가로 인한 데이터 읽기 부하, 쓰기 부하를 개선해 보고자 시도된 데이터 서비스 모델이다. 본모델은 RDBMS 데이터를 하둡 기반 HDFS로 일원화하고 맵리듀스를 이용하여 데이터를 재구성하여 사용자에게 대량의 데이터를 빠르고 안전하게 추출하는 모델로 하둡 기반 빅 데이터 처리 기법을 적용하였다.

가설 설정

1. Data 전송은 RDBMS에서 데이터 전처리기(Preprocessing)로 데이터를 전송하는 과정이다. RDBMS에서 데이터 갱신 트리거가 발생되면 RDBMS 스케줄러(Scheduler)에 의해 갱신된 RDBMS의 자료를 하둡 HDFS 파일시스템으로 데이터를 전송한다.
2. Data 저장은 사용자에 의해 해당 정보서비스 모듈의 데이터 변경 작업이 진행되는 과정이다. 사용자가 사용자 아이디와 암호를 이용하여 웹 시스템에 접속하면 인증검사와 유효성검사 진행 후 사용자는 해당 서비스모듈로 이동하여 변경데이터를 발생시킨다.
이들 정보로 다양한 분야에서 기존 데이터에서 찾을 수 없는 새로운 정보를 얻을 수 있다. 셋째, 속도(velocity)이다. 데이터는 과거와 다르게 기하급수적으로 증가되고 있다.

제안 방법

Data 조회는 사용자에 의해 해당 정보서비스 모듈의 데이터 읽어오는 과정이다. Data 저장과 동일하게 사용자는 사용자 아이디와 암호를 이용하여 웹 정보시스템에 접속하고 사용자 인증 검사와 암호 유효성 검사를 진행한다. 사용자 인증이 완료되면 사용자는 본인이 원하는 서비스 모듈로 이동하여 해당 정보서비스 모듈의 정보 조회를 요청한다.
본 논문의 데이터 처리 모델은 빅 데이터 기술을 응용한 데이터 관리 모델이다. 기존 RDBMS로 운영하던 데이터 관리를 빅 데이터 처리 기술인 하둡을 이용하여 확장성 있는 데이터 운영과 신속한 웹 정보서비스 지원에 중점을 두고 기존 RDBMS 환경의 데이터를 추출하여 하둡 데이터 관리로 효율적 데이터 처리 과정을 설계하였다. 현재까지 사용하는 RDBMS 환경의 데이터를 빅 데이터 처리 기본 기술인 하둡 클러스터 HDFS 파일시스템으로 일원화하고 각각의 정보시스템에서 수집된 데이터를 사용자에게 안전하게 전달하는 웹 정보서비스 모델을 개발하였다.
본 논문에서는 다형화 되는 데이터 증가로 인한 기관내 RDBMS 간의 데이터 처리에 관심을 두고 사용자에게는 신속한 정보서비스와 효율적인 데이터 관리를 위해기존 RDBMS 데이터 운영 방식에서 벗어나 확장성 있는 데이터 운영에 관심을 두었다. 더불어 경제적 비용을 최소화하며 데이터 증가로 인한 서비스 지연 현상을 개선하여 빠른 데이터 처리에 초점을 두고 본 제안시스템을 구현하였다. 다음의 [그림 10]은 본 논문의 빅 데이터 프레임워크 기술을 이용한 데이터 처리 구현 과정을 한눈에 보이도록 서비스 그룹별로 도식화한 시스템 구성도이다.
본 논문의 빅 데이터 처리 기술을 대학 내에서 운영되는 웹 민원시스템과 자산관리시스템의 데이터 저장과 조회 과정에 설계, 적용하였다.
본 논문의 데이터 처리는 전통적인 RDBMS 데이터베이스의 업무 효율성 증진과 기존 인프라의 추가 시설 없이 서비스 증가로 인한 데이터 읽기 부하, 쓰기 부하를 개선해 보고자 시도된 데이터 서비스 모델이다. 본모델은 RDBMS 데이터를 하둡 기반 HDFS로 일원화하고 맵리듀스를 이용하여 데이터를 재구성하여 사용자에게 대량의 데이터를 빠르고 안전하게 추출하는 모델로 하둡 기반 빅 데이터 처리 기법을 적용하였다. [그림 4]는 하둡을 이용하여 데이터 처리를 진행하는 제안시스템의 서비스 구성도로 빅 데이터 플랫폼을 이용한 데이터 처리 흐름 과정이다.
각 기관에서 사용하는 각종 RDBMS 데이터를 자동화 스케줄러에 의해 데이터 전처리기로 전송하고 전처리기에 수집 된 데이터는 빅 데이터 처리 기법인 하둡HDFS로 일원화한다. 이를 맵리듀스를 이용하여 병렬로 재구성하여 대량의 데이터를 빠르고 안전하게 추출하는 데이터 처리 모델을 설계하였다. 하둡을 이용한 데이터처리는 대용량 파일을 저장할 수 있는 분산 파일시스템으로 제공하여 클러스터로 구성하며 이를 멀티 노드로 부하 분산 처리하므로 시스템의 과부하나 병목현상을 줄여 줄 수 있다[8].
그러나 RDBMS는 일정기간 사용 후 데이터양이 증가되면 읽기(Read), 저장(Write) 연산 수행에 제약 조건이 발생되어 서비스가 느려지는 현상이 발생된다. 이를 해결하고자 CPU, 메모리, 고속의 디스크 탑재, 신규서버 도입 등 서버 인프라에 재투자를 진행하거나 RDBMS 튜닝(Tuning)을 통해 사용자는 해결책을 찾고자 한다. 전자의 경우 계속적인 경제적 비용이 투자되어야 하고 후자의 경우는 기술자의 스킬과 기관의 꾸준한 교육 지원을 통해 얻어지는 결과이기도 하다.
기존 RDBMS로 운영하던 데이터 관리를 빅 데이터 처리 기술인 하둡을 이용하여 확장성 있는 데이터 운영과 신속한 웹 정보서비스 지원에 중점을 두고 기존 RDBMS 환경의 데이터를 추출하여 하둡 데이터 관리로 효율적 데이터 처리 과정을 설계하였다. 현재까지 사용하는 RDBMS 환경의 데이터를 빅 데이터 처리 기본 기술인 하둡 클러스터 HDFS 파일시스템으로 일원화하고 각각의 정보시스템에서 수집된 데이터를 사용자에게 안전하게 전달하는 웹 정보서비스 모델을 개발하였다. 과거의 데이터 처리는 정해진 정형화 된 데이터를 처리했다면 현재는 사진, 동영상, 음악, 지도 등과같이 다양한 데이터를 통합적으로 다루고 있다.

이론/모형

하둡 HDFS는 사용자의 정상적인 요청이 확인하고 사용자에게 결과 값을 전송한다. 넷째, 사용자 요청 값은 사용자에게 전달될 때 128비트 암호문인 AES(AdvancedEncryption Standard) 암호화 알고리즘을 사용한다.
본 논문의 데이터 처리 모델은 빅 데이터 기술을 응용한 데이터 관리 모델이다. 기존 RDBMS로 운영하던 데이터 관리를 빅 데이터 처리 기술인 하둡을 이용하여 확장성 있는 데이터 운영과 신속한 웹 정보서비스 지원에 중점을 두고 기존 RDBMS 환경의 데이터를 추출하여 하둡 데이터 관리로 효율적 데이터 처리 과정을 설계하였다.
본 논문에서는 현재까지 용이하게 사용되어 온 RDBMS 데이터 운영 방식에서 벗어나 효율적 데이터 처리와 경제적으로 유용한 데이터 처리 방식의 연구에 관심을 두었다. 이를 활용하기 위해 하둡(Hadoop)HDFS(Hadoop Distributed File System) 파일 처리를 이용하였다. 각 기관에서 사용하는 각종 RDBMS 데이터를 자동화 스케줄러에 의해 데이터 전처리기로 전송하고 전처리기에 수집 된 데이터는 빅 데이터 처리 기법인 하둡HDFS로 일원화한다.

성능/효과

결과적으로 본 논문에서 사용된 하둡을 이용한 데이터 처리 기법은 기존 RDBMS 운영 환경을 개선하여 효율적인 데이터 운영과 신속한 데이터 처리가 가능하게 했다. 아울러 기존 RDBMS의 재구성 없이 서버나 데이터베이스 등 인프라 시설에도 추가적인 비용이 소요되지 않는 효율적인 데이터 운영이 가능했다.
일원화된 하둡 HDFS는 하나의 파일시스템으로 데이터를 관리하게 된다. 둘째, 하둡 HDFS는 안정된 데이터 관리를 위해 별도의 분산 DB구성도 가능하다. 이 때 사용되는 DB는 NoSQL 기반의 DB를 이용하여 하둡 HDFS로 전달되어 저장, 보관한다.
이런 점에서 볼 때 본 제안시스템은 불특정인 다수가 접속하여 수시로 데이터를 읽거나 첨부파일을 다운로드하는 웹 사이트의 비정형 데이터의 조회에서 효율적인 사용예가 되어 주었다. 무엇보다 본 제안시스템은 대용량 파일 저장이 가능한 분산 파일시스템을 사용하므로 클러스터 구성이 가능하고 멀티노드의 부하를 분산 처리하므로 시스템의 과부하나 병목현상을 줄여주는 장점이 있다. 또 하둡은 오픈소스로 제공되므로 경제적 비용을 줄여주는 큰장점이 있다.
과거의 데이터 처리는 정해진 정형화 된 데이터를 처리했다면 현재는 사진, 동영상, 음악, 지도 등과같이 다양한 데이터를 통합적으로 다루고 있다. 이런 점에서 볼 때 본 제안시스템은 불특정인 다수가 접속하여 수시로 데이터를 읽거나 첨부파일을 다운로드하는 웹 사이트의 비정형 데이터의 조회에서 효율적인 사용예가 되어 주었다. 무엇보다 본 제안시스템은 대용량 파일 저장이 가능한 분산 파일시스템을 사용하므로 클러스터 구성이 가능하고 멀티노드의 부하를 분산 처리하므로 시스템의 과부하나 병목현상을 줄여주는 장점이 있다.
첫째, 기관 내 정보시스템 데이터는 RDBMS에서 일정 시간을 기준으로 자동화 스케줄러에 의해 데이터 전처리기로 전송한다. 데이터 전처리기에 수집 된 자료는 맵리듀스(MapReduce)를 이용하여 하둡(Hadoop) HDFS 파일시스템으로 일원화된다.

후속연구

무엇보다 하둡은 오픈소스로 제공되어 경제적 비용을 줄여주는 큰 장점을 가지고 있다. 본 제안시스템은 기존 관계형 데이터베이스의 데이터 증가로 효율적인 대용량 데이터 처리를 요구하는 조직에게 신속한 정보서비스 처리를 제공하는 웹 서비스 모델이 될 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빅 데이터가 주요 자산으로 여겨지는 이유는 무엇 때문인가?	우리나라에서도 국가정보화를 데이터 기반으로 변경하는 등 빅 데이터는 차세대 산업 기술로 주목받고 있다[1]. 이처럼 빅 데이터가 기업경쟁력이나 국가경쟁력을 좌우하는 주요 자산으로 여겨지는 이유는 기존의 일부 데이터를 분석하여 얻어지는 결과보다 분석 결과의 정확도가 높으며 이로 인해 기존에 몰랐던 새로운 사실을 발견할 수 있기 때문이다. 또한 빅 데이터는 향후 국가 기반 주요 기술로 성장할 것 이라는 것에 대해서는 모두가 의심하지 않고 있다[2-5].
	빅 데이터를 구성하는 세 가지 속성은 무엇인가?	빅 데이터의 구성은 규모(volume), 형태(variety), 속도(velocity) 3가지 속성으로 구성되며 이 3가지 속성이 충족 될 때 빅 데이터의 구성이 가능하다. 이 3가지 속성을 기준으로 빅 데이터의 특징을 구분한다.
	빅 데이터의 활용은 어떠한 단계를 거치는가?	빅 데이터의 활용은 다음의 단계를 거친다. 생성→수집→저장→분석→표현의 단계를 거쳐 각 단계별 기술이 적용된다.

참고문헌 (17)

Y. J. Song, "Policy Challenges for the Future of Data-Based Country Strategy", NIA , IT Future Strategy No. 3, Apr 2013.
G. S. Hang, "Big Data Platform Strategy: Big Data is Changing Business Platform Future Revolution", Electronic Times, (pp. 83-97, 101-105, 193-203), 22013.
M. R. Choi, "United States？Japan: Big Data R&D Strategies and Country of the Corresponding Problem", Nipa, IT R&D Policy Review, Mar 2013.
Ms Park Presidential Election Camp, "Creative Economy", New World, 2012.
DongA, "[2012 General Election-Big Data Presidential Election Campaign] 'Big Data 'Election Period", Available From: http://news.donga.com/3/all/20120202/43722588/1, Feb, 02, 2012.
Seth Gilbert, Nancy Lynch, "Brewer's Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services", ACM SIGACT, (pp. 51-59), vol 33 Issue 2, (accessed June, 2002).

상세보기
Anonymous. http://develop.sunshiny.kr/883?category50, 2013.
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, "The Google File System", 19th ACM Symposium on Operating Systems Principles, Lake George, NY, [Online] Available: http://research.google.com/archive/gfs.html, (accessed Oct, 2003).
Anonymous. "Big Data at the Speed of Business" http://www-01.ibm.com/software/data/bigdata/.
STAMFORD, Conn, http://www.gartner.com/newsroom/id/1731916, June 27, 2011.
McKinsey Global Institute, "Big Data: The next frontier for innovation, competition. and productivity", McKinsey Global Institute, 2011.
PHILIP CARTER, "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO", WHITE PAPER, IDC sponsored by SAS, 2011.
Vitaly Friedman, "Data Visualization & Infographics", Graphics, Monday Inspiration, January 14th, Jan, 2008.
Anonymous. "Big Data Era-Hadoop", http://cfic.tistory.com/5, May 25, 2012.
J. Dean, S. Ghemawat "MapReduce: Simplified Data Processing on Large Clusters", Communications of the ACM, vol. 51, No. 1, Jan, 2008.

상세보기
Colin White, "MapReduce and Data Scientist", BI Research, 2012.
Brian Proffittm, "Cost Analysis of Hadoop and RDBM S…Grenada is a Three-Fold Difference in Operating Costs.", IDG KOREA, Technology Trends, Jan, 12, 2012.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증