최근 빅데이터 분석은 기업과 전문가뿐만 아니라 개인이나 비전문가들도 큰 관심을 갖는 분야로 발전하였다. 그에 따라 현재 공개된 데이터 또는 직접 수집한 이터를 분석하여 마케팅, 사회적 문제 해결 등에 활용되고 있다. 국내에서도 다양한 기업들과 개인이 빅데이터 분석에 도전하고 있지만 빅데이터 공개의 제한과 수집의 어려움으로 분석 초기 단계에서부터 어려움을 겪고 있다. 본 논문에서는 빅데이터 공유를 방해하는 개인정보, 빅트래픽 등의 요소들에 대한 기존 연구와 사례들을 살펴보고 정책기반의 해결책이 아닌 시스템을 통해서 빅데이터 공유 제한 문제를 해결 할 수 있는 클라이언트-서버 모델을 이용해 빅데이터를 공개 및 사용 할 때 발생하는 문제점들을 해소하고 공유와 분석 활성화를 도울 수 있는 방안에 대해 기술한다. 클라이언트-서버 모델은 SPARK를 활용해 빠른 분석과 사용자 요청을 처리하며 Server Agent와 Client Agent로 구분해 데이터 제공자가 데이터를 공개할 때 서버 측의 프로세스와 데이터 사용자가 데이터를 사용하기 위한 클라이언트 측의 프로세스로 구분하여 설명한다. 특히, 빅데이터 공유, 분산 빅데이터 처리, 빅트래픽 문제에 초점을 맞추어 클라이언트-서버 모델의 세부 모듈을 구성하고 각 모듈의 설계 방법에 대해 제시하고자 한다. 클라이언트-서버 모델을 통해서 빅데이터 공유문제를 해결하고 자유로운 공유 환경을 구성하여 안전하게 빅데이터를 공개하고 쉽게 빅데이터를 찾는 이상적인 공유 서비스를 제공할 수 있다.
최근 빅데이터 분석은 기업과 전문가뿐만 아니라 개인이나 비전문가들도 큰 관심을 갖는 분야로 발전하였다. 그에 따라 현재 공개된 데이터 또는 직접 수집한 이터를 분석하여 마케팅, 사회적 문제 해결 등에 활용되고 있다. 국내에서도 다양한 기업들과 개인이 빅데이터 분석에 도전하고 있지만 빅데이터 공개의 제한과 수집의 어려움으로 분석 초기 단계에서부터 어려움을 겪고 있다. 본 논문에서는 빅데이터 공유를 방해하는 개인정보, 빅트래픽 등의 요소들에 대한 기존 연구와 사례들을 살펴보고 정책기반의 해결책이 아닌 시스템을 통해서 빅데이터 공유 제한 문제를 해결 할 수 있는 클라이언트-서버 모델을 이용해 빅데이터를 공개 및 사용 할 때 발생하는 문제점들을 해소하고 공유와 분석 활성화를 도울 수 있는 방안에 대해 기술한다. 클라이언트-서버 모델은 SPARK를 활용해 빠른 분석과 사용자 요청을 처리하며 Server Agent와 Client Agent로 구분해 데이터 제공자가 데이터를 공개할 때 서버 측의 프로세스와 데이터 사용자가 데이터를 사용하기 위한 클라이언트 측의 프로세스로 구분하여 설명한다. 특히, 빅데이터 공유, 분산 빅데이터 처리, 빅트래픽 문제에 초점을 맞추어 클라이언트-서버 모델의 세부 모듈을 구성하고 각 모듈의 설계 방법에 대해 제시하고자 한다. 클라이언트-서버 모델을 통해서 빅데이터 공유문제를 해결하고 자유로운 공유 환경을 구성하여 안전하게 빅데이터를 공개하고 쉽게 빅데이터를 찾는 이상적인 공유 서비스를 제공할 수 있다.
Recently, big data analysis has developed into a field of interest to individuals and non-experts as well as companies and professionals. Accordingly, it is utilized for marketing and social problem solving by analyzing the data currently opened or collected directly. In Korea, various companies and...
Recently, big data analysis has developed into a field of interest to individuals and non-experts as well as companies and professionals. Accordingly, it is utilized for marketing and social problem solving by analyzing the data currently opened or collected directly. In Korea, various companies and individuals are challenging big data analysis, but it is difficult from the initial stage of analysis due to limitation of big data disclosure and collection difficulties. Nowadays, the system improvement for big data activation and big data disclosure services are variously carried out in Korea and abroad, and services for opening public data such as domestic government 3.0 (data.go.kr) are mainly implemented. In addition to the efforts made by the government, services that share data held by corporations or individuals are running, but it is difficult to find useful data because of the lack of shared data. In addition, big data traffic problems can occur because it is necessary to download and examine the entire data in order to grasp the attributes and simple information about the shared data. Therefore, We need for a new system for big data processing and utilization. First, big data pre-analysis technology is needed as a way to solve big data sharing problem. Pre-analysis is a concept proposed in this paper in order to solve the problem of sharing big data, and it means to provide users with the results generated by pre-analyzing the data in advance. Through preliminary analysis, it is possible to improve the usability of big data by providing information that can grasp the properties and characteristics of big data when the data user searches for big data. In addition, by sharing the summary data or sample data generated through the pre-analysis, it is possible to solve the security problem that may occur when the original data is disclosed, thereby enabling the big data sharing between the data provider and the data user. Second, it is necessary to quickly generate appropriate preprocessing results according to the level of disclosure or network status of raw data and to provide the results to users through big data distribution processing using spark. Third, in order to solve the problem of big traffic, the system monitors the traffic of the network in real time. When preprocessing the data requested by the user, preprocessing to a size available in the current network and transmitting it to the user is required so that no big traffic occurs. In this paper, we present various data sizes according to the level of disclosure through pre - analysis. This method is expected to show a low traffic volume when compared with the conventional method of sharing only raw data in a large number of systems. In this paper, we describe how to solve problems that occur when big data is released and used, and to help facilitate sharing and analysis. The client-server model uses SPARK for fast analysis and processing of user requests. Server Agent and a Client Agent, each of which is deployed on the Server and Client side. The Server Agent is a necessary agent for the data provider and performs preliminary analysis of big data to generate Data Descriptor with information of Sample Data, Summary Data, and Raw Data. In addition, it performs fast and efficient big data preprocessing through big data distribution processing and continuously monitors network traffic. The Client Agent is an agent placed on the data user side. It can search the big data through the Data Descriptor which is the result of the pre-analysis and can quickly search the data. The desired data can be requested from the server to download the big data according to the level of disclosure. It separates the Server Agent and the client agent when the data provider publishes the data for data to be used by the user. In particular, we focus on the Big Data Sharing, Distributed Big Data Processing, Big Traffic problem, and construct the detailed module of the client - server mode
Recently, big data analysis has developed into a field of interest to individuals and non-experts as well as companies and professionals. Accordingly, it is utilized for marketing and social problem solving by analyzing the data currently opened or collected directly. In Korea, various companies and individuals are challenging big data analysis, but it is difficult from the initial stage of analysis due to limitation of big data disclosure and collection difficulties. Nowadays, the system improvement for big data activation and big data disclosure services are variously carried out in Korea and abroad, and services for opening public data such as domestic government 3.0 (data.go.kr) are mainly implemented. In addition to the efforts made by the government, services that share data held by corporations or individuals are running, but it is difficult to find useful data because of the lack of shared data. In addition, big data traffic problems can occur because it is necessary to download and examine the entire data in order to grasp the attributes and simple information about the shared data. Therefore, We need for a new system for big data processing and utilization. First, big data pre-analysis technology is needed as a way to solve big data sharing problem. Pre-analysis is a concept proposed in this paper in order to solve the problem of sharing big data, and it means to provide users with the results generated by pre-analyzing the data in advance. Through preliminary analysis, it is possible to improve the usability of big data by providing information that can grasp the properties and characteristics of big data when the data user searches for big data. In addition, by sharing the summary data or sample data generated through the pre-analysis, it is possible to solve the security problem that may occur when the original data is disclosed, thereby enabling the big data sharing between the data provider and the data user. Second, it is necessary to quickly generate appropriate preprocessing results according to the level of disclosure or network status of raw data and to provide the results to users through big data distribution processing using spark. Third, in order to solve the problem of big traffic, the system monitors the traffic of the network in real time. When preprocessing the data requested by the user, preprocessing to a size available in the current network and transmitting it to the user is required so that no big traffic occurs. In this paper, we present various data sizes according to the level of disclosure through pre - analysis. This method is expected to show a low traffic volume when compared with the conventional method of sharing only raw data in a large number of systems. In this paper, we describe how to solve problems that occur when big data is released and used, and to help facilitate sharing and analysis. The client-server model uses SPARK for fast analysis and processing of user requests. Server Agent and a Client Agent, each of which is deployed on the Server and Client side. The Server Agent is a necessary agent for the data provider and performs preliminary analysis of big data to generate Data Descriptor with information of Sample Data, Summary Data, and Raw Data. In addition, it performs fast and efficient big data preprocessing through big data distribution processing and continuously monitors network traffic. The Client Agent is an agent placed on the data user side. It can search the big data through the Data Descriptor which is the result of the pre-analysis and can quickly search the data. The desired data can be requested from the server to download the big data according to the level of disclosure. It separates the Server Agent and the client agent when the data provider publishes the data for data to be used by the user. In particular, we focus on the Big Data Sharing, Distributed Big Data Processing, Big Traffic problem, and construct the detailed module of the client - server mode
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한, 사전 분석을 통해 공개 수준에 따라 다양한 크기의 데이터를 제공하도록 본 논문에서 제시하였다. 이러한 방식은 기존의 다수 시스템에서 원시데이터만을 공유하는 방식과 비교 하였을 때 트래픽 발생량이 낮게 나타날 것으로 기대된다.
또한, 공유되는 데이터에 대해서도 그 속성과 간단한 정보를 파악하기 위해서는 전체 데이터를 다운로드 받고 살펴보아야하기 때문에 빅트래픽 문제도 발생 할 수 있다. 이러한 문제들을 해결해 빅데이터가 활성화 될 수 있도록 본 논문에서는 빅데이터 공유, 분산 빅데이터 처리, 빅트래픽의 3가지 문제에 초점을 맞추어 이를 해결할 수 있는 클라이언트-서버 모델의 모듈을 소개하고 설계 방법에 대하여 기술한다.
가설 설정
또한, 빅데이터는 그 내용 자체가 방대하기 때문에 직접 그 내용을 파악하는데 많은 시간이 소요된다. 빅데이터가 공개되면 사용자가 공개된 빅데이터를 빠르게 파악하여 다운받고 이용할 수 있어야 빅데이터 공유가 활성화 될 수 있다. 원본데이터를 그대로 다운받고 활용하기 전에 시스템 상에서 원본데이터를 전반적으로 이해하고 파악할 수 있는 요약, 샘플데이터 정보가 제공 되어야 한다.
제안 방법
Server Agent와 Client Agent의 모듈별 프로세스와 기능, 결과물들을 통해서 빅데이터 처리 및 활용을 위한 클라이언트-서버 모델 설계에 필요한 요소와 모듈들을 제시하였다. 제시한 모델을 기반으로 설계된 시스템을 통해서 데이터를 습득한 사용자는 원하는 방향으로 데이터를 분석하거나 새롭게 가공하게 되며 새롭게 가공된 데이터를 Server Agent를 통해 사전분석 함으로써 데이터 사용자는 데이터 제공자로 역할이 바뀌어 타인에게 데이터를 제공하게 된다.
물론, 공공데이터의 경우 점점 많이 공개되고 있는 추세이지만 개인이나 기업의 데이터를 공유하는 서비스를 살펴보면 공개 정도가 현저히 떨어지는 것을 볼 수 있다. 공유에 따르는 문제들을 해결하고 데이터 제공자와 사용자들을 장려하기 위해서 본 논문에서는 데이터 공유, 분산 데이터 처리, 빅트래픽 문제에 대해서 살펴보았고 문제 해결을 위해 필요한 두 가지 Agent와 세부 모듈을 설계하였다. 데이터 사용자가 빠르게 데이터를 찾고 탐색할 수 있도록 사전 분석 개념을 적용하였고 사용자가 요청한 데이터를 빠르게 생성하여 제공할 수 있는 SPARK를 이용한 분산 처리, 네트워크 상태의 지속적 감시를 수행하도록 모델을 설계하고 제시하였다.
공유에 따르는 문제들을 해결하고 데이터 제공자와 사용자들을 장려하기 위해서 본 논문에서는 데이터 공유, 분산 데이터 처리, 빅트래픽 문제에 대해서 살펴보았고 문제 해결을 위해 필요한 두 가지 Agent와 세부 모듈을 설계하였다. 데이터 사용자가 빠르게 데이터를 찾고 탐색할 수 있도록 사전 분석 개념을 적용하였고 사용자가 요청한 데이터를 빠르게 생성하여 제공할 수 있는 SPARK를 이용한 분산 처리, 네트워크 상태의 지속적 감시를 수행하도록 모델을 설계하고 제시하였다.
분석 목적에 따라서 데이터를 줄여야 할 수도 있고 적절한 샘플링에 의해 훈련데이터, 검증데이터로 원본데이터를 나누어서 분석하기도 한다. 본 연구의 클라이언트-서버 모델에서는 사전분석을 통해 원본데이터의 정보를 해치지 않는 수준에서 적절한 샘플링을 수행하고 그 샘플 데이터를 사용자에게 제공한다. 사용자는 하나의 데이터에 대한 여러 샘플을 얻을 수 있으며 서버는 트래픽 문제가 발생 했을 때 작은 크기의 샘플데이터를 사용자에게 제공함으로써 빅트래픽에도 대응할 수 있다.
대상 데이터
사전 분석에 사용하는 데이터는 Kaggle에서 무료로 제공하는 데이터셋을 활용한다. 샘플데이터와 요약데이터를 생성하고 샘플데이터가 원본데이터와 비교하였을 때 정보의 차이가 어느 정도인가에 따라서, 본 연구의 모델이 적합한지를 판단하고자 한다.
데이터처리
많은 정보를 포함하고 있는 빅데이터에 대해 서 Server Agent는 사전분석을 통해 요약, 샘플 데이터를 포함하는 Data Descriptor를 생성한다. 사전분석을 통한 효과를 보이기 위해 R 분석도구를 사용하여 원본데이터에 대한 요약, 샘플링 시 데이터 축소 효과와 요약 데이터를 통한 기초 분석 정보 제공의 효과를 검증한다.
빅데이터 샘플링은 기존의 랜덤, 층화 추출 등이 존재하며 다양한 연구를 통해 지속적으로 기법이 개발되고 있다(Jun, 2011; Kim, 2015). 여기서는 랜덤 샘플링(Kim, 2015)을 통해 원본 데이터를 축소한 데이터를 생성하고 그 샘플 데이터의 통계치와 원본 데이터의 통계치를 비교한다. [Table 7]은 Global Land Temperature(Kaggle) 데이터를 랜덤 샘플링하여 데이터 크기를 축소하고 크기에 따른 수치 데이터(AverageTemperature)의 통계량을 계산한 결과이다.
후속연구
본 논문에서 제시한 모델은 빅데이터 공유 서비스를 운영하는 시스템에 세부 모듈로 구성 되거나 새롭게 개발되는 시스템의 기초가 될 수 있고 향후 빅데이터의 자유로운 공유가 가능하기를 기대한다.
추후 연구에서는 본 논문에서 설계한 클라이언트-서버 모델의 구축 시에 발생 할 수 있는 있는 문제점과 극복 방안에 대해 연구하여 보다 안정적인 시스템으로 발전시킬 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
빅데이터 처리와 활용에 있어 나타나는 빅데이터 공유 문제는 어떤 문제인가?
빅데이터 처리와 활용에 있어 3가지 문제를 다음과 같이 정의 할 수 있다. 첫째는 빅데이터 공유 문제로 빅데이터 공유 활성화를 어렵게 하는 프라이버시, 공유 서비스 부족 등에 대한 문제이다. 최근 빅데이터를 이용한 성공적인 서비스 혁신 사례들이 소개되면서 빅데이터가 개인정보 유출이나 프라이버시 침해를 가속화 할 것 이라는 우려도 커지고 있으며 빅데이터의 성공적인 활용은 사람들의 신뢰를 필요로 하기 때문에 프라이버시 침해에 대한 안전성이 확보되어야 한다(Choi et al.
Server Agent의 Job Distribution 모델과 Pre-Analysis Module의 차이점은 무엇인가?
Server Agent의 Job Distribution Module은 SPARK를 사용하며 빅데이터를 분산 처리해 사용자 요청에 맞는 사전분석결과를 빠르게 재 생성하여 사용자가 요청한 데이터를 제공한다. Pre-Analysis Module과의 차이점은 Pre-Analysis Module은 데이터 사용자의 검색과 탐색을 위한 Data descriptor를 생성해 게시하는 작업을 수행하고 Job Distribution Module은 사용자가 요청한 데이터를 네트워크 상태(트래픽)에 따라 원시 데이터로부터 빠르게 재 생성하여 사용자에게 제공한다. [Figure 3]과 같은 프로세스로 동작하며 원시 데이터와 트래픽 정보를 통해서 Transformed Data를 생성한다.
Server Agent는 무엇을 생성하는가?
Server Agent는 데이터 제공자에게 필요한 Agent로서 빅데이터의 사전 분석을 수행하여 Sample Data, Summary Data, Raw Data의 정보를 갖는 Data Descriptor를 생성한다. 또한, 빅데이터 분산처리를 통해서 빠르고 효율적인 빅데이터 전처리를 수행하며 네트워크 트래픽을 지속적으로 감시한다.
참고문헌 (16)
Bok, K. S, M. S. Yook, Y. W. Noh, J. E. Han, Y. W. Kim, J. T. Lim, J. S. Yoo, "In-Memory Based Incremental Processing Method for Stream Query Processing in Big Data Environments", Journal of The Korea Contents Association, Vol. 16, No. 2(2016), 163-173.
Choi, J. K, "Current status and implications of big data analysis at home and abroad", Korea Institute of S&T Evaluation and Planning, 2016. Available at http://www.kistep.re.kr (Downloaded 16 November, 2016).
Choi, K, H. J. Kim, "A Suggestion on the Strategy for Common Sharing of Big-DATA", Korea Institute of Information & Telecommunication Facilities Engineering, (2013), 108-114.
Jeon, Y. H, J. S. Jang,"Big Data Networking Considerations and Cisco Case Studies", Korean Institute of Information Technology Magazine, Vol. 10, No. 3(2012), 11-16.
Judith, R, "Round and Round the Garden? Big Data, Small Government and the Balance of Power in the Information Age", Journal of Law & Economic Regulation, Vol. 8, No. 1(2015), 49-61.
Jun, S. H, "A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms", Korean Institute of Intelligent Systems, Vol. 21, No. 2(2011), 171-177.
Kim, H. J, "ODI-based data access framework for spread Big data"Information and Communications Magazine, vol. 31, No. 11(2014), 67-71.
Kim. T. H, "A Hybrid Under-sampling Approach for Better Bankruptcy Prediction", Journal of Intelligence and Information Systems, Vol. 21, No. 2(2015), 173-190.
Kim, Y. S,"Agile Network Delay Time Modeling of Web Traffic", Journal of KIIT, Vol. 11, No. 9(2013), 103-110.
Lee, H. S, D. W. Lim, H. J. Zo,"Personal Information Overload and User Resistance in the Big Data Age", Journal of Intelligence and Information Systems, Vol. 19, No. 1(2013), 125-139.
Heo, S. W, "Big Data Legal Issues in Korea", Journal of Law & Economic Regulation, vol. 7, No. 2(2014), 7-21.
Oh, J. H, "Big Data Industry Top 10 News & Issues in 2015", National Information Society Agency(NIA), 2016. Available at http://www.nia.or.kr (Downloaded 15 November, 2016).
Park, J. H, H. J. Kim, S. W. Choi, S. R. Yoon, "Comparative Performance Analysis of Logistic Regression on Apache Spark Framework", Korea Computer Congress, (2015), 1531-1533.
Shoro, A. G, T. R Soomro, "Big Data Analysis: Apache Spark Perspective", Global Journal of Computer Science and Technology, Vol. 15, No. 1-C(2015), 7-14.
Um, J. H, T. H. Kim, S. W. Lee, C. H. Jung and H. M, Jung, "Next-generation real-time big data distribution system trend", Institute for Information & communications Technology Promotion, 2014. Available at http://www.itfind.or.kr/itfind (Downloaded 16 November, 2016).
Zaharia, M, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. Franklin, S. Shenker, and I. Stoica, "Resilient Distributed Datasets: A fault-tolerant abstraction for in-memory cluster computing", Networked Systems Design and Implementation(NSDI), Vol. 12, No. 4(2012), 15-28.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.