인공신경망(artficial neural networks)를 활용한 딥러닝은 최근 이미지인식, 빅데이터 및 데이터분석 등 다양한 분야에서 연구되고 개발이 진행되고 있다. 하지만 데이터 프라이버시 침해 이슈와 학습을 많이 할수록 소모 비용과 시간이 증가하는 문제점이 있어서 이를 해결하기 위해 연합학습(Federated Learning)이 연구되었다. 연합학습에서는 프라이버시 문제를 완화하면서, 분산 처리 시스템의 이점을 가져오는 학습기법을 제시하였다. 하지만 여전히 연합학습에서도 프라이버시 및 보안 문제가 존재한다. 그래서 우리는 연합학습의 서버에 해당하는 부분을 블록체인으로 대체하여 연합학습의 문제점인 프라이버시 문제와 보안 문제를 해결하였다. 또한 사용자가 제출하는 데이터에 대한 보상을 지급하여서 동기를 부여하고, 기존 성능은 유지하면서도 더 적은 비용의 유지비를 필요로 하는 시스템을 연구하였다. 본 논문에서는 우리가 개발한 시스템의의 타당성을 보이기 위해 실험결과를 제시하면서 기존 연합학습과 연구한 블록체인 기반의 연합학습 결과를 비교한다. 또한 향후 연구로 보안문제에 대한 해법과 와 적용 가능한 비즈니스 분야를 제시를 보여주면서 논문을 마무리 하였다.
인공신경망(artficial neural networks)를 활용한 딥러닝은 최근 이미지인식, 빅데이터 및 데이터분석 등 다양한 분야에서 연구되고 개발이 진행되고 있다. 하지만 데이터 프라이버시 침해 이슈와 학습을 많이 할수록 소모 비용과 시간이 증가하는 문제점이 있어서 이를 해결하기 위해 연합학습(Federated Learning)이 연구되었다. 연합학습에서는 프라이버시 문제를 완화하면서, 분산 처리 시스템의 이점을 가져오는 학습기법을 제시하였다. 하지만 여전히 연합학습에서도 프라이버시 및 보안 문제가 존재한다. 그래서 우리는 연합학습의 서버에 해당하는 부분을 블록체인으로 대체하여 연합학습의 문제점인 프라이버시 문제와 보안 문제를 해결하였다. 또한 사용자가 제출하는 데이터에 대한 보상을 지급하여서 동기를 부여하고, 기존 성능은 유지하면서도 더 적은 비용의 유지비를 필요로 하는 시스템을 연구하였다. 본 논문에서는 우리가 개발한 시스템의의 타당성을 보이기 위해 실험결과를 제시하면서 기존 연합학습과 연구한 블록체인 기반의 연합학습 결과를 비교한다. 또한 향후 연구로 보안문제에 대한 해법과 와 적용 가능한 비즈니스 분야를 제시를 보여주면서 논문을 마무리 하였다.
Deep learning using an artificial neural network has been recently researched and developed in various fields such as image recognition, big data and data analysis. However, federated learning has emerged to solve issues of data privacy invasion and problems that increase the cost and time required ...
Deep learning using an artificial neural network has been recently researched and developed in various fields such as image recognition, big data and data analysis. However, federated learning has emerged to solve issues of data privacy invasion and problems that increase the cost and time required to learn. Federated learning presented learning techniques that would bring the benefits of distributed processing system while solving the problems of existing deep learning, but there were still problems with server-client system and motivations for providing learning data. So, we replaced the role of the server with a blockchain system in federated learning, and conducted research to solve the privacy and security problems that are associated with federated learning. In addition, we have implemented a blockchain-based system that motivates users by paying compensation for data provided by users, and requires less maintenance costs while maintaining the same accuracy as existing learning. In this paper, we present the experimental results to show the validity of the blockchain-based system, and compare the results of the existing federated learning with the blockchain-based federated learning. In addition, as a future study, we ended the thesis by presenting solutions to security problems and applicable business fields.
Deep learning using an artificial neural network has been recently researched and developed in various fields such as image recognition, big data and data analysis. However, federated learning has emerged to solve issues of data privacy invasion and problems that increase the cost and time required to learn. Federated learning presented learning techniques that would bring the benefits of distributed processing system while solving the problems of existing deep learning, but there were still problems with server-client system and motivations for providing learning data. So, we replaced the role of the server with a blockchain system in federated learning, and conducted research to solve the privacy and security problems that are associated with federated learning. In addition, we have implemented a blockchain-based system that motivates users by paying compensation for data provided by users, and requires less maintenance costs while maintaining the same accuracy as existing learning. In this paper, we present the experimental results to show the validity of the blockchain-based system, and compare the results of the existing federated learning with the blockchain-based federated learning. In addition, as a future study, we ended the thesis by presenting solutions to security problems and applicable business fields.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
딥러닝의 문제점을 해결하고자 등장한 연합 학습에서도 문제점이 발생하였는데, 이를 해결하고자 블록체인 기반의 연합학습 연구를 제안하였다. 연합학습의 프라이버시 문제와 동기부재 문제점을 해결하기 위해서 서버역할에 해당하는 부분을 블록체인으로 대체하여 시스템을 구축하였다.
가설 설정
<그림 9>는 연합학습과 블록체인 기반의 연합학습의 학습 라운드 수를 많이 할수록 드는 비용에 대한 그림이다. 이 실험에서는 우선 가정으로 연합학습에 드는 서버의 비용 과 운용비용을 500만원으로 책정하였고, 이 서버는 약 100명의 데이터를 처리 가능하다고 가정하였다. 그리고 블록체인 기반의 연합학습에서는 학습한 이후에 값을 제출하는 트랜잭션 비용을 10원, 스마트 컨트랙트 연산 비용은 10원으로 책정하였다.
그래서 한번 모델을 학습시키는 경우는 연합학습에 비해서 더 적은 비용으로 학습이 가능하다. 하지만 한번 서버를 구축해 놓았을 때 1개의 모델만 학습시키지는 않기 때문에 실험에서는 이어서 2개의 모델, 3개의 모델을 학습시키는 것으로 가정하였다. 그럴 경우 3개의 모델을 학습시킬 때는 85%의 정확도를 얻기위해 오히려 연합학습의 비용이 더 적게드는 것을 확인하였다.
제안 방법
본 연구에서는 이러한 문제점을 해결하기 위하고자 연합학습에서 서버에 해당하는 역할을 블록체인[3][4][5]으로 대체하여 사용자들의 정보 및 데이터에 익명성을 부여하여서 프라이버시 문제를 개선하였다. 사용자들이 데이터를 보내기 위해서는 암호화[6]된 주소값으로 보내야 하기 때문에 이럴 해결 할 수 있다.
그래서 기존 모델의 가중치에서 사용자의 가중치를 뺀 값의 절대값에 대해서 그 절대값이 일정 범위 안에 들어오면 더 많은 보상을 주고, 이전 범위보다 조금 더 큰값이라면 적은 보상을 주는 알고리즘으로 스마트 컨트랙트를 구성하였다. 사용자들이 가중치 값을 보낼 때 위의 알고리즘을 통하여 값을 받음과 동시에 기존 모델과 비교하고, 그에 따라서 바로 보상을 받게 되는 스마트 컨트랙트를 구현하였다. 이렇게 작성된 스마트 컨트랙트는 이더리움 네트워크에서 참가하고 있는 마이너들에 의해서 처리가 되는데 마이너들은 사용자들이 값을 제출할 때 같이 제출하는 가스 비용으로 수수료를 받게 된다.
딥러닝의 문제점을 해결하고자 등장한 연합 학습에서도 문제점이 발생하였는데, 이를 해결하고자 블록체인 기반의 연합학습 연구를 제안하였다. 연합학습의 프라이버시 문제와 동기부재 문제점을 해결하기 위해서 서버역할에 해당하는 부분을 블록체인으로 대체하여 시스템을 구축하였다. 블록체인 기반의 연합학습 연구를 통해서 기존 연합학습의 성능을 유지하면서도 서버의 구축 및 운용 비용 없이도 시스템을 운용 할 수 있음을 보여주었다.
대상 데이터
각 환경은 5명의 사용자가 10회 학습 하는 것과 10명의 사용자아 10회의 학습을 하는 것, 5명의 사용자가 30회 학습을 하는 것, 10명의 사용자가 30회 학습하는 것을 표시하였다. 각각의 환경 구성은 연합학습 api를 활용하여 구성하였고, 연합학습 환경은 api에서의 client 수를 5명과 10명으로 구성하였다. 블록체인에서는 각 사용자수를 5명과 10명의 계좌를 만들어서 각각 트랜잭션을 보내서 값을 처리하였다.
그리고 블록체인 기반의 연합학습에서는 학습한 이후에 값을 제출하는 트랜잭션 비용을 10원, 스마트 컨트랙트 연산 비용은 10원으로 책정하였다. 그리고 학습을 위해서 필요한 데이터는 CIFAR-10 dataset을 활용한 연합학습 결과를 활용하여 진행하였다. 사용한 dataset 은 50000개의 학습예제와 10000개의 테스트 예제로 구성되어 있고, 이번 실험에서는 사용자 100명이 dataset을 바탕으로 학습하도록 진행하였다.
그리고 학습을 위해서 필요한 데이터는 CIFAR-10 dataset을 활용한 연합학습 결과를 활용하여 진행하였다. 사용한 dataset 은 50000개의 학습예제와 10000개의 테스트 예제로 구성되어 있고, 이번 실험에서는 사용자 100명이 dataset을 바탕으로 학습하도록 진행하였다. 그래서 참조한 논문에서는 100명이서 dataset을 가지고 280 회 학습할 경우 80%의 정확도를 나타낸다고 하였다.
기존 연합학습에서는 (1)과 같이 각각의 디바이스 가 다양한 환경에서 자신들의 데이터를 바탕으로 학습을 시킨다. 이 학습에서는 구글에서 제공하는 Federated learning api를 활용하였으며, 데이터는 mnist세트를 활용하여 진행하였다. 이렇게 각각의 기기에서 학습을 시켜서 얻은 결과들 중에서 가중치(weight) 값들만 (2)과 같이 서버로 전송한다.
이론/모형
블록체인에서는 각 사용자수를 5명과 10명의 계좌를 만들어서 각각 트랜잭션을 보내서 값을 처리하였다. 값을 합산하는 알고리즘은 FedAVG 알고리즘을 사용하지는 않았고, 평균값 합산을 통해서 처리하였다. 이렇게 나온 결과값에서는 연합학습과 블록체인 기반의 연합학습이 정확도 차이, 성능 차이에서 차이가 없음을 보여준다.
성능/효과
하지만 한번 서버를 구축해 놓았을 때 1개의 모델만 학습시키지는 않기 때문에 실험에서는 이어서 2개의 모델, 3개의 모델을 학습시키는 것으로 가정하였다. 그럴 경우 3개의 모델을 학습시킬 때는 85%의 정확도를 얻기위해 오히려 연합학습의 비용이 더 적게드는 것을 확인하였다. 하지만 실험에서는 서버 한 대를 사용해서 연산이 더 많거나 더 많은 사용자가 참가하는 것은 가정에서 제외시켰기 때문에 500만원 고정 값이여서 이러한 결과가 나오게 되었다.
그리고 사용자들이 비동기적인 제출과 각각 다른 환경에서 서비스를 활용하기 때문에 통합된 블록체인 시스템을 구축하여서 이를 보다 관리하기 편하게 만들었다. 그리고 기본적으로는 블록체인을 활용한 연합학습이 기존 연합학습보다는 상대적으로 적은 비용으로 운용이 가능한 것을 실험 결과를 통해 보여줄 것이다.
연합학습의 프라이버시 문제와 동기부재 문제점을 해결하기 위해서 서버역할에 해당하는 부분을 블록체인으로 대체하여 시스템을 구축하였다. 블록체인 기반의 연합학습 연구를 통해서 기존 연합학습의 성능을 유지하면서도 서버의 구축 및 운용 비용 없이도 시스템을 운용 할 수 있음을 보여주었다. 그리고 사용자들이 제출한 데이터에 대해서도 기여도에 따라 각각의 사용자들에게 보상을 지급하는 스마트 컨트랙트를 만들어서 사용자들의 동기를 부여할 수 있었다.
값을 합산하는 알고리즘은 FedAVG 알고리즘을 사용하지는 않았고, 평균값 합산을 통해서 처리하였다. 이렇게 나온 결과값에서는 연합학습과 블록체인 기반의 연합학습이 정확도 차이, 성능 차이에서 차이가 없음을 보여준다. 조금의 차이는 각 라운드별, 학습별, 유저별로 발생하는 차이 이므로 무시 가능한 값이다.
후속연구
그리고 사용자가 실제로 학습을 하여 보낸 데이터인지 판단하기 위해서 블록체인에서 쓰는 방법중 하나로, 실제로 마이닝 했는지 검증하기 위한 PoW 변수와 같은 방법을 사용하여 판단하도록 연구해야 할 것이다. 이를 통해서 사용자가 실제로 성실하게 학습을 했는지 판단을 하여서 악의적인 사용자가 데이터를 위변조 하여 전송하고, 부당한 보상을 획득하지 못하도록 구현해야할 것이다.
그리고 이렇게 구축한 시스템은 데이터의 프라이버시가 중요한 의료분야에 적용하여서 사용자, 환자들의 데이터 제공에 대해서도 적절한 보상을 지급하고, 사용자들의 프라이버시도 지킬 수 있도록 하는 비즈니스 생태계에 접목 가능 할 것이다.
향후 연구로는 악의적인 사용자가 다른 사용자의 데이터를 탈취하거나 이용하여 학습을 하지 않더라도 그 데이터를 보내서 자신이 또한 보상을 받을 수 있으므로 사용자들이 학습한 데이터는 동형암호화(Homomorphic Encryption)을 통해서 암호화하여 보낼 수 있도록 연구해야 할 것이다.
Jakub Konecny, H. Brendan McMahan, Felix X. Yu, Peter Richtarik, Ananda Theertha Suresh, Dave Bacon, "Federated Learning: Strategies for Improving Communication Efficiency", arXiv:161 0.05492v2 [cs.LG] 30 Oct 2017.
Satoshi Nakamoto, "Bitcoin: A Peer-to-Peer Electronic Cash System", Oct. 2008.
Vitalik Buterin, "A next-generation smart contract and decentralized application platform", cryptorating.eu,2014.
A. B. Kurtulmus and K. Daniel, "Trustless machine learning contracts; evaluating and exchanging machine learning models on the ethereum blockchain," arXiv preprint arXiv:1802.10185, 2018.
J.-S. Weng, J. Weng, M. Li, Y. Zhang, and W. Luo, "Deepchain: Auditable and privacy-preserving deep learning with blockchainbased incentive," Cryptology ePrint Archive, Report 2018/679, 2018, https://eprint.iacr.org/2018/679.
A. Bansal, T. Chen, and S. Zhong, "Privacy preserving backpropagation neural network learning over arbitrarily partitioned data," Neural Computing Applications, vol. 20, no. 1, pp. 143-150, 2011.
A. Kosba, A. Miller, E. Shi, Z. Wen, and C. Papamanthou, "Hawk: The blockchain model of cryptography and privacy-preserving smart contracts," in Security and Privacy (SP), 2016 IEEE Symposium on. IEEE, 2016, pp. 839-858.
Hyesung Kim, Jihong Park, Mehdi Bennis "On-Device Federated Learning via Blockchain and its Latency Analysis", IEE Communications letters 2019.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.