$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

파이썬 활용한 데이터 처리 성능 향상방법 제안
Proposal For Improving Data Processing Performance Using Python 원문보기

한국정보전자통신기술학회논문지 = Journal of Korea institute of information, electronics, and communication technology, v.13 no.4, 2020년, pp.306 - 311  

김효관 (Department of Fintech, Korea Polytechnics) ,  황원용 (Department of Fintech, Korea Polytechnics)

초록
AI-Helper 아이콘AI-Helper

본 논문은 대량의 데이터를 활용한 모델 개발 시 다양한 라이브러리를 갖춘 파이썬 언의의 성능 향상방법을 다룬다. 파이썬 언어는 엑셀과 같은 스프레드시트 형태 데이터 처리 시 Pandas 라이브러리를 사용한다. 데이터 처리 시파이썬은 기가단위 이하 데이터 처리 시에는 인-메모리로 연산하여 성능 측면에서 크게 이슈가 없다. 하지만 기가단위 이상 데이터 처리 시 성능 이슈가 발생한다. 이에 본 논문은 데이터 처리 시 Pandas와 같이 사용할 수 있는 Dask 라이브러리를 활용하여 단일 클러스터 및 다중 클러스터에서 실행 작업을 분산처리 가능한 방법을 소개한다. 실험은 동일 사양의 하드웨어에서 간단한 지수산출 모델을 Pandas만 사용해서 처리하는 속도와 Dask를 같이 사용해서 처리하는 속도를 비교한다. 본 논문은 파이썬의 장점인 다양한 라이브러리를 쉽게 사용할 수 있다는 점을 유지하면서 성능측면에서도 대량의 데이터를 CPU 코어들이 분산 처리하여 모델을 개발할 수 있는 방법을 제시한다.

Abstract AI-Helper 아이콘AI-Helper

This paper deals with how to improve the performance of Python language with various libraries when developing a model using big data. The Python language uses the Pandas library for processing spreadsheet-format data such as Excel. In processing data, Python operates on an in-memory basis. There is...

주제어

표/그림 (17)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 파이썬에서 Apache Spark와 같은 분산처리가 가능한 Dask를 소개하고 Pandas만 사용해서 모델링하는 경우와 Dask를 같이 적용해서 모델링한 경우의 성능 비교를 통해 향후 파이썬의 데이터 처리 방법이 나아가야할 방향을 제시한다.[2]
  • 하지만 Dask는 파이썬 기존 개발코드를 최대한 유지하여 파이썬의 장점인 인공지능 관련 라이브러리가 많다는 점을 최대한 활용할 수 있다. 따라서 성능 향상을 위한 방법으로 Dask를 적용하는 방법을 논문에서 제시한다. 향후 추가로 연구할 부분은 Dask 와 Pandas의 함수 기능을 비교하여 기존 파이썬 코드와 Dask로 변환해야할 부분에 대해서 정확히 구분하여 튜닝 포인트를 정의할 필요가 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
데이터 분석 과정이란 무엇인가? 데이터 분석 과정은 다양한 데이터 소스를 수집한 후, 전처리 작업을 거쳐 통계적 모델이나 머신러닝 모델을 활용하여 분석한 후 의미 있는 결과를 만들어내는 과정이다. 파이썬 언어는 데이터분석 및 인공지능 분야에서 필요한 다양한 데이터 수집, 처리 및 분석 라이브러리(Selenium, Pandas, Seaborn, Matplotlib, Tensorflow, Keras 등)를 갖추고 있다.
Dask란 무엇인가? Dask는 2018년 10월 출시된 파이썬에서 데이터 처리 작업을 병렬화하기 위한 잘 알려지지 않은 최신 프레임워크다. 멀티 코어가 있는 경우 연산 작업을 분산할 수 있다.
데이터 분석 및 인공지능 영역에서 개발자가 가장 선호하는 언어가 파이썬 언어인 이유는 무엇인가? 데이터 분석 과정은 다양한 데이터 소스를 수집한 후, 전처리 작업을 거쳐 통계적 모델이나 머신러닝 모델을 활용하여 분석한 후 의미 있는 결과를 만들어내는 과정이다. 파이썬 언어는 데이터분석 및 인공지능 분야에서 필요한 다양한 데이터 수집, 처리 및 분석 라이브러리(Selenium, Pandas, Seaborn, Matplotlib, Tensorflow, Keras 등)를 갖추고 있다. 라이브러리가 다양한 경우 개발자가 개발 아이디어만 있다면 Randomforest와 같은 머신러닝 알고리즘이나 웹 데이터를 수집하는 기능 등을 도서관에서 필요한 정보만 빌려서 쓰듯이 기능을 사용할 수 있다. 필요한 라이브러리를 잘 검색해서 설치한 후 개발 시 가져다 쓰기만 하면 된다. 따라서 파이썬 언어는 데이터 분석 및 인공지능 영역에서 개발자가 가장 선호하는 언어이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (8)

  1. https://www.kaggle.com/kaggle/kaggle-survey-2018, 2018 

  2. Matei Zaharia, Mosharaf Chowdhury, Michae l J. Franklin, Scott Shenker, and Ion Stoica, "Spark:Cluster Computing with Working Set", Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing, pp. 10-10, May 2010. 

  3. Wes McKinney, "Python for Data Analysis", O'Reilly, pp. 52-58, Oct, 2017. 

  4. Dask, https://dask.org, 2019 

  5. Rafizul Islam M, Fahmida Kanij, "SPATIALITY, SEASONALITY AND INDEX ANALYSIS OF HEAVY METALS IN SOIL OF WASTE DISPOSAL SITE IN KHULNA OF BANGLADESH, Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing, pp. 234-256, May 2017. 

  6. Jason Brownlee, "Deep Learning for Time Series Forecasting: Predict the Future with NLPs, CNNs and LSTMs in Python", Machine Learning Mastery, pp. 161-164, Aug 2018. 

  7. Lisandro D.Dalcin, Rodrigo R.Paz, Pablo A.Kler, "Parallel distributed computing using Python", Advances in Water Resources Volume 34, pp. 1124-1128, Sep 2011 

  8. Micha Gorelick, Ian Ozsvald, "High Performance Python", O'Reilly, pp. 20-25, May 2020 

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로