$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

대용량 데이터 분석을 위한 맵리듀스 기반의 이상치 탐지
Outlier Detection Based on MapReduce for Analyzing Big Data 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.18 no.1, 2017년, pp.27 - 35  

홍예진 (Department of Information and Communication Engineering, Dongguk University) ,  나은희 (Department of Information and Communication Engineering, Dongguk University) ,  정용환 (Korea Institute of Science and Technology Information, Korea Advanced Institute of Science) ,  김양우 (Department of Information and Communication Engineering, Dongguk University)

초록
AI-Helper 아이콘AI-Helper

가까운 미래에는 빅데이터의 많은 부분을 IoT 데이터가 차지할 것이라는 전망이 나오고 있다. 그에 따라, IoT 데이터의 많은 부분을 차치하는 센서 데이터에 관한 관심과 연구 또한 활발하게 진행되고 있다. 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다. 맵리듀스 기반의 이상치 탐지 및 제거는 총 4단계로 나누어 구현하였으며, 각 단계를 매퍼와 리듀스로 구현하였다. 제안한 기법의 평가를 위해서 3가지 환경에서 비교하였으며, 그 결과 이상치 탐지 및 제거를 하고자 하는 데이터의 용량이 커질수록 스파크를 이용한 분산처리환경에서의 처리가 가장 빠르다는 결과를 얻었다.

Abstract AI-Helper 아이콘AI-Helper

In near future, IoT data is expected to be a major portion of Big Data. Moreover, sensor data is expected to be major portion of IoT data, and its' research is actively carried out currently. However, processed results may not be trusted and used if outlier data is included in the processing of sens...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 대용량 데이터를 빠르게 처리하기 위하여 맵리듀스(MapReduce)[3] 기반의 분산처리환경에서 이상치 탐지 및 제거를 수행하고자 한다.
  • 센서로부터 연속적으로 발생한 이상치는 원인이 다양함으로 전문가의 확인이 필요하지만, 간헐적으로 발생한 이상치의 경우에는 주변의 데이터를 분석하여 탐지 후, 제거가 가능하다. 따라서 본 논문에서는 센서로부터 추출된 데이터를 활용한 분석 시 보다 정확한 결과 도출을 위해 간헐적으로 발생하는 이상치를 탐지하고 제거하는 연구를 진행하였다
  • 본 논문에서 정확한 데이터 분석을 위해 간헐적으로 나타나는 이상치를 탐지하고 제거할 수 있는 방안을 제시하였다. 또한, 대용량 데이터의 이상치를 보다 빠르게 제거할 수 있는 맵리듀스 기반의 분산처리 방안을 제시하였다.
  • 본 논문에서는 분산처리하기 위하여 가상화된 3대의 노드에서 BDAS환경을 설계하고 구축하였다. BDAS의구성요소 중 메모리와 디스크 등의 자원 관리를 위한 용도로 메소스를 사용하고, 데이터 저장을 위해서는 HDFS 를 사용했으며, 이상치 탐지 및 제거를 하기 위하여 스파크를 사용하였다.
  • 또한, IoT 데이터는 점차 그 양이 매우 빠르게 증가하는 추세이기 때문에 이러한 대용량의 데이터를 빠르게 처리하기 위해서는 빅데이터 기술을 기반으로 한 이상치 제거 또한 필수적이다. 이를 위해 본논문에서는 빅데이터 기술을 이용한 전처리 과정에서의 이상치 탐지 및 제거에 관하여 연구하였다. 맵리듀스 기반으로 이상치를 처리하기 위해 이상치 탐지 및 제거 과정을 총 4단계로 나누고, 각 단계를 매퍼와 리듀서로 구현한 뒤, 설계된 BDAS환경에서 실험을 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
이상치란? 이상치란 비정상적인 자료이다. 또한, 나머지 데이터 들과는 다른 독특한 존재라고 정의되기도 한다. 이처럼 기존의 연구에서 정의하는 바와 같이 이상치는 데이터 집합에서 나머지 데이터와 연관성이 없는 별개의 값이다.
센서 데이터를 분석함에 있어서 정확한 결과를 도출하기 위해 어떤 작업을 진행했는가? 여러 분야에서 활용되고 있는 센서 데이터는 분석할 때 실제와는 다른 값인 이상치를 포함하게 되면 정확한 분석이 어려우며, 왜곡된 결과가 도출되어 활용할 수 없는 경우가 생긴다. 따라서 본 논문에서는 정확한 결과를 도출하기 위해 수집된 원자료를 분석하기 전에 이상치 탐지 및 제거를 하였다. 또한, 점점 늘어나고 있는 대용량의 데이터를 빠르게 처리하기 위해 메모리 접근방식인 스파크를 사용한 분산처리환경에서 처리하였다.
데이터마이닝을 함에 있어서 전 처리 단계의 이상치 탐지 및 제거가 필수인 이유는? [2] 이와 같은 이유로 발생하는 이상치는 종종 데이터가 담고 있는 의미를 왜곡시킨다. 데이터를 분석하여 활용하는 데이터마이닝(DataMining)의 경우, 이러한 이상치를 포함하게 되면 데이터가 갖고 있는 의미와는 다른 결과가 나올 수 있다.따라서 정확한 데이터마이닝을 함에 있어서 전 처리 단계의 이상치 탐지 및 제거는 필수적이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. Hewlett Packard Enterprise, "Internet of things research study", report, pp. 1-3, 2015. 

  2. Zhang, Yang, Nirvana Meratnia, and Paul Havinga. "Outlier detection techniques for wireless sensor networks: A survey." Communications Surveys & Tutorials, IEEE 12.2 pp.159-170, 2010. http://ieeexplore.ieee.org/document/5451757/ 

  3. Dean, Jeffrey, and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1, pp.107-113, 2008. http://dl.acm.org/citation.cfm?idJ79 

  4. Shvachko, Konstantin, et al. "The Hadoop distributed file system." Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Symposium on. IEEE, pp.1-10, 2010. http://ieeexplore.ieee.org/xpl/mostRecentIssue.jsp?punumber5488875 

  5. Zaharia, Matei, et al. "Spark cluster computing with working sets", Hot Cloud 10, pp.10-10, 2010. 

  6. David Culler, Michael Franklin (Director), Amplab UC BERKELEY, BDAS, the Berkeley Data Analytics Stack, 2014 https://amplab.cs.berkeley.edu/software/ 

  7. Murphy, Kevin P, "Machine learning: a probabilistic perspective" MIT press, 2012. 

  8. Preparata, Franco P., and Michael Shamos, "Computational geometry: an introduction", Springer Science & Business Media, 2012. 

  9. Knorr, Edwin M., and Raymond T. Ng. "Finding intensional knowledge of distance-based outliers." VLDB, Vol.99, pp.211-222, 1999. 

  10. Zhuang, Yongzhen, et al. "A weighted moving average-based approach for cleaning sensor data." Distributed Computing Systems, ICDCS'07. 27th International Conference on. IEEE, pp.38-38,2007. http://ieeexplore.ieee.org/document/4268192/ 

  11. Davies, Paul L. "Statistical evaluation of interlaboratory tests." Fresenius' Zeitschrift fur analytische Chemie 331.5 , pp.513-519, 1988. 

  12. Apache Mesos, The Apache software foundation, http://mesos.apache.org, 2012-2015. 

  13. Zaharia, Matei, et al. "Fast and interactive analytics over Hadoop data with Spark." USENIX; login 37.4, pp.45-51, 2012. 

  14. Zaharia, Matei, et al. "Resilient distributed data sets: A fault-tolerant abstraction for in-memory cluster computing." Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation. USENIX Association, pp.2.2 2012. 

  15. Changyong Park and Youngeun Choi. "Validation of quality control algorithms for temperature data of the republic of korea." Vol.22 No.3, pp.299-307, 2012. https://www.researchgate.net/publication/264105200_ Validation_of_Quality_Control_Algorithms_for_Temp erature_Data_of_the_Republic_of_Korea 

  16. Open Data Portal, "Environment& Weather", https://www.data.go.kr 

  17. Powers, David Martin. "Evaluation: from precision, recall and F-measure to ROC, informed, markedness and correlation." Journal of Machine Learning Technologie, 2011 

  18. Brown, Angus M. "A step-by-step guide to nonlinear regression analysis of experimental data using a Microsoft Excel spreadsheet." Computer methods and programs in biomedicine 65.3, pp.191-200,2001. http://www.sciencedirect.com/science/article/pii/S0169 260700001243 

  19. Aitchison, John, and Ian Robert Dunsmore, "Statistical prediction analysis", CUP Archive, 1980. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로