$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

차분 프라이버시를 만족하는 안전한 GAN 기반 재현 데이터 생성 기술 연구
A Study on Synthetic Data Generation Based Safe Differentially Private GAN 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.30 no.5, 2020년, pp.945 - 956  

강준영 (공주대학교) ,  정수용 (공주대학교) ,  홍도원 (공주대학교) ,  서창호 (공주대학교)

초록
AI-Helper 아이콘AI-Helper

많은 응용프로그램들로부터 양질의 서비스를 제공받기 위해서 데이터 공개는 필수적이다. 하지만 원본 데이터를 그대로 공개할 경우 개인의 민감한 정보(정치적 성향, 질병 등)가 드러날 위험이 있기 때문에 원본 데이터가 아닌 재현 데이터를 생성하여 공개함으로써 프라이버시를 보존하는 많은 연구들이 제안되어왔다. 그러나 단순히 재현 데이터를 생성하여 공개하는 것은 여러 공격들(연결공격, 추론공격 등)에 의해 여전히 프라이버시 유출 위험이 존재한다. 본 논문에서는 이러한 민감한 정보의 유출을 방지하기 위해, 재현 데이터 생성 모델로 주목받고 있는 GAN에 최신 프라이버시 보호 기술인 차분 프라이버시를 적용하여 프라이버시가 보존되는 재현 데이터 생성 알고리즘을 제안한다. 생성 모델은 레이블이 있는 데이터의 효율적인 학습을 위해 CGAN을 사용하였고, 데이터의 유용성 측면을 고려하여 기존 차분 프라이버시보다 프라이버시가 완화된 Rényi 차분 프라이버시를 적용하였다. 그리고 생성된 데이터의 유용성에 대한 검증을 다양한 분류기를 통해 실시하고 비교분석하였다.

Abstract AI-Helper 아이콘AI-Helper

The publication of data is essential in order to receive high quality services from many applications. However, if the original data is published as it is, there is a risk that sensitive information (political tendency, disease, ets.) may reveal. Therefore, many research have been proposed, not the ...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 데이터 생성 모델인 CGAN에 프라이버시가 완화된 개념인 Rényi 차분 프라이버시를 적용하여 프라이버시가 보존되는 재현 데이터 생성 알고리즘인 Rényi differentially private CGAN을 제안하였다.
  • 하지만 딥러닝 모델에 차분프라이버시를 적용하는 연구는 일반적인 차분 프라이버시에 대한 연구가 대부분이었으며 데이터의 유용성 향상을 위해 프라이버시를 완화 시킨 개념에 대한 연구는 상대적으로 부족하다. 따라서 본 논문에서는 프라이버시가 완화된 개념을 GAN에 적용하여 차분 프라이버시를 만족하는 재현 데이터를 생성하는 방법을 제안한다.
  • 본 논문에서는 공개된 데이터로부터 민감한 정보의 유출을 방지하기 위해 데이터 생성 모델인 CGAN에 Rényi 차분 프라이버시를 적용하여 프라이버시가 보존되는 재현 데이터를 생성하는 알고리즘인 Rényi differentially private CGAN을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
재현 데이터 생성에 있어서 주목받고 있는 GAN은 어떤 모델인가? 최근 재현 데이터 생성에 있어서 주목받고 있는 GAN은 실제 데이터와 유사한 가짜 데이터를 생성하는 생성자, 실제 데이터와 가짜 데이터의 진위 여부를 판별하는 판별자로 구성되어 있으며, 생성자와 판별자를 번갈아 학습시키면서 실제 데이터와 더욱 유사한 가짜 데이터를 생성할 수 있는 모델이다. 만약 레이블이 있는 데이터에 대한 학습을 진행할 경우 CGAN을 사용하는 것이 효율적이다.
차분 프라이버시의 개념은 무엇인가? 최근 ‘2020년 MIT 10대 혁신 기술’[14]에 선정된 차분 프라이버시는 주목받고 있는 강력한 프라이버시 보호 기술이다. 차분 프라이버시는 데이터베이스에 한 개인의 존재 여부와 상관없이 데이터 분석 결과의 차이가 적다는 개념으로 데이터 수집 및 분석 그리고 기계학습 등 다양한 분야에서 사용되고 있다. 특히, 딥러닝 모델에 차분 프라이버시를 적용하기 위해 확률적 경사 하강법(Stochastic Gradient Decent, SGD)에서 계산되는 기울기에 정규분포를 따르는 잡음을 더해주는 DPSGD(Differential Privacy SGD)[15]가 제안되었다.
확률적 경사 하강법에서 계산되는 기울기에 정규분포를 따르는 잡음을 더해주는 DPSGD는 어떤 문제점이 있는가? 특히, 딥러닝 모델에 차분 프라이버시를 적용하기 위해 확률적 경사 하강법(Stochastic Gradient Decent, SGD)에서 계산되는 기울기에 정규분포를 따르는 잡음을 더해주는 DPSGD(Differential Privacy SGD)[15]가 제안되었다. 하지만 학습이 진행될수록 반복적으로 더해주는 잡음으로 인해 발생 하는 프라이버시 비용은 급격하게 증가한다. 이를 해결하기 위해 Abadi 등[16]은 기존의 DPSGD에 기울기의 클리핑(Clipping) 기법을 적용하여 평균 기울기의 민감도의 한계를 제한하고 반복적인 학습을 통해 발생하는 프라이버시 비용을 추적하여 효율적으로 계산하는 방법인 Moments accountant를 제안하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (24)

  1. Buczak, Anna L., Steven B., and Linda M. "Data-driven approach for creating synthetic electronic medical records." BMC medical informatics and decision making 10(1), 59. Oct. 2010 

  2. McLachlan, S., Kudakwashe D., and Thomas G. "Using the caremap with health incidents statistics for generating the realistic synthetic electronic healthcare record." IEEE International Conference on Healthcare Informatics (ICHI). 2016 IEEE, 2016. pp. 439-448. Oct. 2016 

  3. Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F. and Sun, J. "Generating multi-label discrete patient records using generative adversarial networks." arXiv preprint arXiv:1703.06490. Mar. 2017 

  4. Narayanan, A, and Vitaly S. "Robust de-anonymization of larg sparse datasets." 2008 IEEE Symposium on Security and Privacy, 2008 IEEE, pp. 111-125, May. 2008 

  5. Sweeney, L. "Matching known patients to health records in Washington State data." Available at SSRN 2289850, Jul. 2013 

  6. Dwork, C., McSherry, F., Nissim, K. and Smith, A. "Calibrating noise to sensitivity in private data analysis." Journal of Privacy and Confidentiality, 7(3), pp. 17-51, May. 2016 

  7. Dwork, C. "Differential privacy: A survey of results." International conference on theory and applications of models of computation. Springer, pp. 1-19, Apr. 2008 

  8. Bowen, C. M., and Liu, F. "Comparative study of differentially private data synthesis methods." arXiv preprint arXiv: 1602.01063. Feb. 2016 

  9. Liu, F. "Model-based differentially private data synthesis." arXiv preprint arXiv:1606.08052, Jun. 2016 

  10. Li, H., Xiong, L. and Jiang, X. "Differentially private synthesization of multi-dimensional data using copula functions." InAdvances in database technology: proceedings. International conference on extending database technology, vol. 2014. NIH Public Access, pp. 475, Nov. 2014 

  11. Zhang, J., Cormode, G., Procopiuc, C. M., Srivastava, D. and Xiao, X. "Privbayes: Private data release via bayesian networks." ACM Transactions on Database Systems (TODS), 42(4), pp. 1-41, Oct. 2017 

  12. Abay, N. C., Zhow, Y., Kantarcioglu, M., Thuraisingham, B. and Sweeney, L. "Privacy preserving synthetic data release using deep learning." In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, Springer, Cham, pp. 510-526, Jan. 2018 

  13. Jordon, J., Yoon, J. and van der Scharr, M. "PATE-GAN: Generating synthetic data with differential privacy guarantees." In International Conference on Learning Representations. Sep. 2018 

  14. http://www.technologyreview.com/10-breakthrough-technologies/2020/ 

  15. Song, S., Chaudhuri, K. and Sarwate, A. D. "Stochastic gradient descent with differentially private updates." In 2013 IEEE Global Conference on Signal and Information Processing, IEEE, pp. 245-248, Dec. 2013 

  16. Abadi, M., Chu, A., Goodfellow, I., Mamahan, H. B., Mironov, I., Talwar, K. and Zhang, L. "Deep learning with differential privacy." In Proceedings of the 2016 ACM SIGSAC Confernece on Computer and Communications Security, pp. 308-318, Oct. 2016 

  17. Mironov, I. "Renyi differential privacy." In 2017 IEEE 30th Computer Security Foundations Symposium (CSF), IEEE, pp. 263-275, Aug. 2017 

  18. Goodfellow, I., Pouget_Abadie, J., Mirza, N., Xu, B. WardeFarley, D., Ozair, S., Courville, A. and Bengio Y. "Generative adversarial nets." In Advances in neural information processing systems, pp. 2672-2680, Jun. 2014 

  19. Mirza, M and Ssindero, S. "Conditional generative adversarial nets." arXiv preprint arXiv:1411.1784, Nov. 2014 

  20. Dwork, C. and Roth, A. "The algorihmic foundations of differential privacy." Foundations and Trends in Theoretical Computer Science, 9(3-4), pp. 211-407, Aug. 2014 

  21. Mironov, I., Talwar, K. and Zhang, L. "Renyi Differential Privacy of the Sampled Gauusian Mechnism." arXiv preprint arXiv:1908.10530, Aug. 2019 

  22. Dal Pozzolo, A., Caelen, O., Johnson, R. A. and Bontempi, G. "Calibrating probability with undersampling for unbalanced calssification." In 2015 IEEE Symposium Series on Computational Intelligence, IEEE, pp. 159-166, Jan. 2015 

  23. Fernandes, K., Cardoso, J. S. and Fernandes, J. "Transfer learning with partial observability applied to cervical cancer screening." In Iberian conference on pattern recognition and image analysis, Springer, Cham, pp. 243-250, May. 2017 

  24. Asuncion, A. and Newman, D. "UCI machine learning repository." http://archive.ics.uci.edu/ml, 2007 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로