[논문]블록체인을 활용한 양질의 기계학습용 데이터 수집 방안 연구

김영랑; 우정훈; 이재환; 신지선

doi:10.6109/jkiice.2019.23.1.13

블록체인을 활용한 양질의 기계학습용 데이터 수집 방안 연구
High-quality data collection for machine learning using block chain 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.23 no.1, 2019년, pp.13 - 19

김영랑 (School of Electronics and Information Engineering, Korea Aerospace University) , 우정훈 (School of Electronics and Information Engineering, Korea Aerospace University) , 이재환 (School of Electronics and Information Engineering, Korea Aerospace University) , 신지선 (Department of Computer and Information Security, Sejong University)

초록
AI-Helper

기계학습의 정확도는 학습용 데이터의 양과 데이터의 품질에 많은 영향을 받는다. 기존의 웹을 기반으로 학습용 데이터를 수집하는 것은 실제 학습과 무관한 데이터가 수집 될 수 있는 위험성이 있으며 데이터의 투명성을 보장할 수가 없다. 본 논문에서는 블록체인구조에서 블록들이 직접 병렬적으로 데이터를 수집하게 하고 각 블록들이 수집한 데이터를 타 블록의 데이터와 비교하여 양질의 데이터만을 선별하는 방안을 제안한다. 제안하는 시스템은 각 블록들은 데이터를 서로 블록체인을 통해 공유하며 All-reduce 구조의 Parallel-SGD를 활용하여 다른 블록들의 데이터와 비교를 통해 양질의 데이터만을 선별하여 학습용 데이터셋을 구성할 수가 있다. 또한 본 논문에서는 제안한 구조의 성능을 확인하기 위해 실험을 통해 기존의 벤치마크용 데이터셋의 이미지를 활용하여 변조된 이미지 사이에서 원본 이미지만을 양질의 데이터로 판별함을 확인하였다.

Abstract ▼ AI-Helper

The accuracy of machine learning is greatly affected by amount of learning data and quality of data. Collecting existing Web-based learning data has danger that data unrelated to actual learning can be collected, and it is impossible to secure data transparency. In this paper, we propose a method for collecting data directly in parallel by blocks in a block - chain structure, and comparing the data collected by each block with data in other blocks to select only good data. In the proposed system, each block shares data with each other through a chain of blocks, utilizes the All-reduce structure of Parallel-SGD to select only good quality data through comparison with other block data to construct a learning data set. Also, in order to verify the performance of the proposed architecture, we verify that the original image is only good data among the modulated images using the existing benchmark data set.

주제어

표/그림 (6)

그림 Fig. 1 Structure of a Parameter Server system consist with parameter server and workers including model replica
그림 Fig. 2 Structure of All-reduce aggregation methodconsisting of only Worker
그림 Fig. 3 Shifting of parameter values using Parallel-SGD
그림 Fig. 4 The process of determining the data quality by calculating the slope of the data input to each block
그림 Fig. 5 Perform training using modulated data for each worker
그림 Fig. 6 The number of times that workers using different modulations received rewards

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기계 학습에 사용할 양질의 학습용 데이터셋을 구성하기 위하여 블록체인 구조로 구성된 분산 처리 시스템을 활용하여 데이터를 수집하는 방안을 제안한다. 블록체인 망을 사용하여 데이터를 수집할 경우 해당 네트워크에 참여한 사용자들이 직접 학습용 데이터를 입력하기에 빠른 시간에 많은 데이터를 수집할 수가 있다.
본 논문에서는 기계학습에 사용할 양질의 학습용 데이터셋을 구성하기 위하여 블록체인 구조로 구성된 분산처리 시스템을 활용하여 데이터를 수집하는 시스템을 제안하였다. 블록체인을 사용하면 네트워크에 참여한 사용자들이 직접 학습용 데이터를 입력하여 빠른 시간에 데이터를 수집할 수 있지만, 특정 데이터에 과적화가 이루어질 수 있다.
본 논문에서는 이 Aggregated gradient를 각 Worker에서 학습에 사용한 데이터를 평가하기 위한 지표로서 사용하고자 한다. Worker들이 생성한 gradient 중에서 aggregated gradient에 가까운 gradient 일수록 더욱 빠르게 parameter를 수렴시키는데 공헌할 수가 있다.
또한 수집된 데이터들 사이에 양질의 데이터만을 선별하기 위해 Parallel-SGD에서 계산한 Aggregated gradient를 지표로 사용하였으며 실험을 통해 이를 증명하였다. 본 논문에서는 특정 기능만을 위한 데이터를 수집한 것이 아닌 구성된 데이터 셋을 사용하여 그 성능을 확인하였지만 추후에는 제안한 시스템을 사설 블록체인망을 통해 특정 기능을 위한 데이터를 수집하여 실제 활용 가능 여부를 확인하고자 한다.
본 논문은 기계 학습에 필수요소인 학습용 데이터를 효율적으로 수집하기 위해 블록체인을 사용하는 방법을 제안하였다. 또한 수집된 데이터들 사이에 양질의 데이터만을 선별하기 위해 Parallel-SGD에서 계산한 Aggregated gradient를 지표로 사용하였으며 실험을 통해 이를 증명하였다.
또한 양질의 학습 데이터를 입력한 각 블록에게 이더 형태의 보상을 제공하기 위하여 Aggregated gradient와 내적한 값의 비율에 따라 개발자가 설정한 전체 이더의 수를 분배하는 방식을 제안한다. 실제 이더리움의 경우 특정 분산 작업에 참여한 블록들에게 작업의 공헌도에 따라 이더를 분배하며 본 논문에서는 해당 데이터에 대한 gradient와 aggregated gradient를 내적한 값의 크기를 데이터 수집 작업의 공헌도로써 사용하고자 한다.

제안 방법

이를 해결하기 위하여 본 논문에서 제안하는 시스템에서는 All-reduce방식의 Parallel-SGD를 사용하여 각 사용자의 데이터들 마다 우선순위를 부여하여 양질의 데이터만을 추출하고자 한다.
블록체인을 사용할 경우 각 블록들은 입력된 데이터를 가지고 gradient를 계산한다. 계산된 gradient는 All-reduce 방식을 사용하여 다른 블록들의 gradient를 공유하여 aggregated gradient를 계산하며 이에 가장 가까운 gradient를 계산한 블록의 데이터를 양질의 데이터로 판단한다. 그림 3의 경우 붉은 색으로 표시된 aggregated gradient에 가장 가까운 gradient를 계산한 블록은 W1의 gradient라 판단할 수 있다.
가까운 gradient를 선정할 때는 aggregated gradient와 각각 내적을 수행하여 내적 값이 가장 큰 gradient를 가장 가까운 gradient로 판단한다. 또한 양질의 학습 데이터를 입력한 각 블록에게 이더 형태의 보상을 제공하기 위하여 Aggregated gradient와 내적한 값의 비율에 따라 개발자가 설정한 전체 이더의 수를 분배하는 방식을 제안한다. 실제 이더리움의 경우 특정 분산 작업에 참여한 블록들에게 작업의 공헌도에 따라 이더를 분배하며 본 논문에서는 해당 데이터에 대한 gradient와 aggregated gradient를 내적한 값의 크기를 데이터 수집 작업의 공헌도로써 사용하고자 한다.
채굴에 성공한 노드는 블록을 생성할 때 사용한 컴퓨팅 파워에 대한 보상을 받는다. 또한, 생성된 트랙잭션과 블록이 유효한지는 각 노드들이 가지고 있던 블록체인 데이터를 사용하여 검증한다. 따라서, 한 노드가 공격당해도 다른 노드들의 검증을 통해 블록체인 시스템에는 영향을 받지 않는다는 특징이 있다.
인식을 위한 학습 모델은 시각 이미지 분류에 주로 사용되는 Convolutional neural network인 LeNet-5를 사용하였다. 본 실험에서는 실제 학습이 아닌 데이터 품질만을 판단하기 위한 실험이기에 사전에 학습을 수행한 매개변수를 사용하였다. 사전 학습의 경우 실험에 사용할 1만장의 이미지를 제외한 6만장의 이미지만을 사용하여 학습을 수행하여 과적화를 방지하였다.
실험에서는 총 4개의 Worker를 사용하였고 연산 속도를 가속화하기 위하여 각 Worker는 하나의 GPGPU 를 사용하여 데이터 인식을 수행하였다. 실험에 사용한 장비는 NVIDIA의 딥 러닝 학습용 서버인 DGX-1으로 총 8개의 Tesla P100 GPU에서 4개의 GPU를 활용하였다.
블록체인을 사용하면 네트워크에 참여한 사용자들이 직접 학습용 데이터를 입력하여 빠른 시간에 데이터를 수집할 수 있지만, 특정 데이터에 과적화가 이루어질 수 있다. 이를 해결하기 위하여 All-reduce 방식의 Parallel-SGD를 추가로 사용하여 각 사용자의 데이터들 마다 우선순위를 부여하여 양질의 데이터만을 추출하였다.
딥러닝 연산은 크게 두 가지 과정으로 그 연산을 나눌 수가 있다. 첫 번째는 Feed-forwarding과정으로 기존의 초기화된 매개 변수를 사용하여 입력된 데이터를 개발자가 정의한 학습모델을 사용하여 Loss 값을 연산한다. 두 번째는 Feed-forwarding 과정에서 연산한 Loss 값을 사용하여 Gradient-descent를 수행하여 매개변수를 학습하는 Back-propagation 과정이다.
실험의 내용은 아래와 같다. 학습에 사용하지 않은 1 만장의 이미지를 각 Worekr의 Input으로 사용하였으며 양질의 데이터를 입력하는 것으로 가정한 Worker0를 제외한 3개의 Worker는 Input을 변조 후 데이터 품질 판단을 수행하였다. Worker1과 Worker3의 경우 각각 다른 방향으로 45도 회전한 이미지를 변조된 이미지로 사용하였고 Worker2는 전체 이미지에서 부분을 잘라낸 이미지를 변조된 이미지로 사용하였다.

대상 데이터

실험에서는 총 4개의 Worker를 사용하였고 연산 속도를 가속화하기 위하여 각 Worker는 하나의 GPGPU 를 사용하여 데이터 인식을 수행하였다. 실험에 사용한 장비는 NVIDIA의 딥 러닝 학습용 서버인 DGX-1으로 총 8개의 Tesla P100 GPU에서 4개의 GPU를 활용하였다. 또한 All-reduce 방식의 분산 딥 러닝을 수행해야하기에 이를 지원하는 딥 러닝 라이브러리인 horovod를 활용하였다.
MNIST는 0부터 9까지 총 10종류의 숫자 손글씨 이미지로 이루어진 학습용 데이터셋으로 각 7000장씩 총 7만장의 이미지로 이루어져 있다. 실험에서는 7만 장 중 1만 장의 이미지를 사용하였으며 동일한 한 장의 이미지에 대하여 그림 5와 같은 방법으로 하나의 Worker를 제외하고는 각자 변조된 이미지를 입력이미지로 사용하였다. 인식을 위한 학습 모델은 시각 이미지 분류에 주로 사용되는 Convolutional neural network인 LeNet-5를 사용하였다.
제안된 양질의 데이터 선별 방법이 올바르게 동작함을 확인하기 위하여 본 논문에서는 기존의 MNIST 데이터셋의 데이터를 활용하였다. MNIST는 0부터 9까지 총 10종류의 숫자 손글씨 이미지로 이루어진 학습용 데이터셋으로 각 7000장씩 총 7만장의 이미지로 이루어져 있다.
제안한 시스템의 성능을 확인하기위해 본 논문에서는 MNIST[4] 데이터셋을 활용하였다. 각 블록으로 하여금 동일한 이미지에 대하여 각각 원본 이미지와 변조된 이미지를 입력 받게 하여 양질의 이미지를 입력 받은 블록에게 Reward를 부여하게끔 구현하였으며 양질의 이미지인 원본 이미지를 입력 받은 블록이 가장 많은 Reward를 받았음을 확인하였다.

데이터처리

실험 결과는 그림 6를 통해 확인할 수 있다. 그림 6의 결과를 보면 총 1만장의 이미지를 입력으로 사용하면서 계산한 Gradient를 Aggregated gradient와 내적 한 결과가 가장 작은 값과 두 번째로 작은 값을 가지는 Worker 에 보상을 부여하게끔 했을 때 각각의 Worker가 보상을 받은 횟수를 비교하였다. 그래프를 보면 변조된 이미지를 입력으로 사용한 다른 Worker에 비교했을 때 원본 이미지를 사용한 Worker 0가 1만 번 중 9262번으로 가장 많은 보상을 받았음을 확인할 수가 있다.

이론/모형

실험에 사용한 장비는 NVIDIA의 딥 러닝 학습용 서버인 DGX-1으로 총 8개의 Tesla P100 GPU에서 4개의 GPU를 활용하였다. 또한 All-reduce 방식의 분산 딥 러닝을 수행해야하기에 이를 지원하는 딥 러닝 라이브러리인 horovod를 활용하였다.
본 논문은 기계 학습에 필수요소인 학습용 데이터를 효율적으로 수집하기 위해 블록체인을 사용하는 방법을 제안하였다. 또한 수집된 데이터들 사이에 양질의 데이터만을 선별하기 위해 Parallel-SGD에서 계산한 Aggregated gradient를 지표로 사용하였으며 실험을 통해 이를 증명하였다. 본 논문에서는 특정 기능만을 위한 데이터를 수집한 것이 아닌 구성된 데이터 셋을 사용하여 그 성능을 확인하였지만 추후에는 제안한 시스템을 사설 블록체인망을 통해 특정 기능을 위한 데이터를 수집하여 실제 활용 가능 여부를 확인하고자 한다.
실험에서는 7만 장 중 1만 장의 이미지를 사용하였으며 동일한 한 장의 이미지에 대하여 그림 5와 같은 방법으로 하나의 Worker를 제외하고는 각자 변조된 이미지를 입력이미지로 사용하였다. 인식을 위한 학습 모델은 시각 이미지 분류에 주로 사용되는 Convolutional neural network인 LeNet-5를 사용하였다. 본 실험에서는 실제 학습이 아닌 데이터 품질만을 판단하기 위한 실험이기에 사전에 학습을 수행한 매개변수를 사용하였다.

성능/효과

제안한 시스템의 성능을 확인하기위해 본 논문에서는 MNIST[4] 데이터셋을 활용하였다. 각 블록으로 하여금 동일한 이미지에 대하여 각각 원본 이미지와 변조된 이미지를 입력 받게 하여 양질의 이미지를 입력 받은 블록에게 Reward를 부여하게끔 구현하였으며 양질의 이미지인 원본 이미지를 입력 받은 블록이 가장 많은 Reward를 받았음을 확인하였다.
그림 6의 결과를 보면 총 1만장의 이미지를 입력으로 사용하면서 계산한 Gradient를 Aggregated gradient와 내적 한 결과가 가장 작은 값과 두 번째로 작은 값을 가지는 Worker 에 보상을 부여하게끔 했을 때 각각의 Worker가 보상을 받은 횟수를 비교하였다. 그래프를 보면 변조된 이미지를 입력으로 사용한 다른 Worker에 비교했을 때 원본 이미지를 사용한 Worker 0가 1만 번 중 9262번으로 가장 많은 보상을 받았음을 확인할 수가 있다. 또한 Worker 2의 경우 회전한 이미지를 사용한 Worker 1이나 Worker 3에 비해 더 많은 보상을 받았음을 확인할 수가 있는데 이는 회전이미지에 비해 부분을 잘라낸 경우가 특정 숫자로 판단하기가 수월하였기에 양질의 이미지로 판단이 가능하였음을 알 수 있다.
또한 Worker 2의 경우 회전한 이미지를 사용한 Worker 1이나 Worker 3에 비해 더 많은 보상을 받았음을 확인할 수가 있는데 이는 회전이미지에 비해 부분을 잘라낸 경우가 특정 숫자로 판단하기가 수월하였기에 양질의 이미지로 판단이 가능하였음을 알 수 있다. 실험을 통해 본 논문에서 제안한 양질의 데이터 판단 방법이 변조된 이미지보다 원본의 이미지를 올바르게 구별하였음을 확인할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Parallel-SGD은 무엇에 사용되는가?	Parallel-SGD[1]는 딥러닝에서 다수의 서버를 사용하여 데이터 병렬화를 수행하며 매개변수 학습을 위해 사용된다. 딥러닝 분산 처리시 Aggregation을 수행하는 방법에는 Parameter Server방식과 All-reduce 방식이 있다 [2].
	기계학습의 정확도는 어떤 요인에 영향을 많이 받는가?	기계학습의 정확도는 학습용 데이터의 양과 데이터의 품질에 많은 영향을 받는다. 기존의 웹을 기반으로 학습용 데이터를 수집하는 것은 실제 학습과 무관한 데이터가 수집 될 수 있는 위험성이 있으며 데이터의 투명성을 보장할 수가 없다.
	Proof-Of-Work 방식의 문제점은 무엇인가?	그러나, POW방식은 컴퓨팅 파워에 소모되는 전기 에너지 비용 낭비와 전용 채굴기 등장으로 채굴을 독점 한다는 문제점이 있다. POW방식의 이러한 문제점을 해결하기 위해 POS방식이 제안되었다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증