$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

GAN 기반 은닉 적대적 패치 생성 기법에 관한 연구 원문보기

情報保護學會誌 = KIISC review, v.30 no.5, 2020년, pp.71 - 77  

김용수 (부산대학교) ,  강효은 (부산대학교) ,  김호원 (부산대학교)

초록
AI-Helper 아이콘AI-Helper

딥러닝 기술은 이미지 분류 문제에 뛰어난 성능을 보여주지만, 공격자가 입력 데이터를 조작하여 의도적으로 오작동을 일으키는 적대적 공격(adversarial attack)에 취약하다. 최근 이미지에 직접 스티커를 부착하는 형태로 딥러닝 모델의 오작동을 일으키는 적대적 패치(adversarial patch)에 관한 연구가 활발히 진행되고 있다. 하지만 기존의 적대적 패치는 대부분 눈에 잘 띄기 때문에 실제 공격을 받은 상황에서 쉽게 식별하여 대응할 수 있다는 단점이 있다. 본 연구에서는 GAN(Generative Adversarial Networks)을 이용하여 식별하기 어려운 적대적 패치를 생성하는 기법을 제안한다. 실험을 통해 제안하는 방법으로 생성한 적대적 패치를 이미지에 부착하여 기존 이미지와의 구조적 유사도를 확인하고 이미지 분류모델에 대한 공격 성능을 분석한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서 정의하는 문제는 F(x) = y를 만족하는 데이터 x∈X, y∈Y에 대해서, 적대적 사례 xA = x+p를 분류 함수에 입력하면 레이블 y로 분류하지 못하게 하는, 즉 F(xA )≠ y를 만족하는 적대적 패치 p를 생성하는 것이 목적이다.
  • 하지만 적용한 seed patch 또한 원본 이미지와 뚜렷한 차이가 있기 때문에, 여전히 식별하기 어려운 적대적 패치와는 거리가 멀다. 본 연구에서는 GAN 모델로 적대적 교란 신호를 생성하여 일부분의 영역을 활용함으로써 은닉된 적대적 패치를 생성하는 기법을 제안한다.
  • 본 연구에서는 GAN을 이용하여 식별하기 어려운 적대적 패치를 생성하는 기법을 제안하였다. 제안하는 기법은 기존의 GAN 기반 적대적 교란 신호 생성 모델에서 착안하여, 이미지의 일부 영역에만 교란 신호를 생성하여 이를 적대적 패치로 활용하여 실제 물리적 환경에서도 공격이 가능하다.
  • 이러한 적대적 패치는 물리적 환경에서 공격 성능을 높이기 위해 기존 이미지에 비해 왜곡 현상이 심하며, 이로 인해 사람이 쉽게 식별할 수 있다는 단점이 있다. 본 연구에서는 물리적 환경에서 적용할 수 있음과 동시에 식별하기 어려운 적대적 패치를 생성하는 기법을 제안한다.
  • 모델 구조는 GAN 기반의 적대적 교란 신호를 생성하는 기존 연구[11]와 유사하다. 본 연구에서는 생성자 G를 통해 적대적 교란 신호를 생성한 후, 원하는 영역을 지정하여 해당하는 부분만 기존 이미지에 더하여 적대적 패치로 활용하는 기법을 제안한다. 제안하는 기법을 통해 결과적으로 적대적 교란 신호의 원하는 영역을 잘라내어 직접 이미지에 부착할 수 있는 적대적 패치로 사용할 수 있다.
  • 본 연구에서는 이러한 문제를 해결하기 위해 GAN(Generative Adversarial Networks)[5]을 이용하여 식별하기 어려운 적대적 패치를 생성하는 기법을 제안한다. 제안하는 기법은 이미지의 일부 영역에 교란 신호를 추가하여 이를 적대적 패치로 활용하는 것이며, 원하는 영역의 크기 및 위치에 해당하는 일부분의 적대적 교란 신호를 통해 기존 이미지에 은닉할 수 있는 적대적 패치를 생성할 수 있다.

가설 설정

  • 화이트박스 공격 실험과는 달리, 블랙박스 공격 실험에서는 공격자가 공격 대상 모델의 정보를 모르는 상황으로 가정하여 실험을 진행한다. 따라서, 여기서는 특정 공격 대상 모델을 대상으로 생성한 적대적 패치를 다른 공격 대상 모델에 적용하는, 즉 전이성을 이용한 실험을 진행하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
GAN은 무엇인가? Goodfellow 등[5]은 생성자(generator) 및 판별자(discriminator)로 구성된 두 종류의 모델을 적대적으로 훈련함으로써 실제 데이터와 매우 유사한 데이터를 생성할 수 있는 프레임워크를 제안하였다. 판별자 D는 실제 데이터와 생성자가 생성한 데이터를 분류하도록 학습되며, 생성자 G는 데이터의 분포를 모델링하여 실제 데이터와 유사한 데이터를 생성함으로써 판별자 D를 속이도록 학습된다.
딥러닝 기술은 무엇에 취약한가? 최근 딥러닝 기술의 급속한 발전으로 인해 얼굴 인식, 객체 탐지, 질병 진단 등 다양한 지능형 시스템에 적용되고 있다. 하지만, 최근 연구에 따르면 딥러닝 기술은 공격자가 입력 데이터를 조작하여 의도적으로 오작동을 일으키는 적대적 공격(adversarial attack)에 취약한 것으로 밝혀졌다.
적대적 교란 신호의 한계점은? 적대적 교란 신호에 관한 대부분의 연구들은 다양한 최적화 기법을 통해 딥러닝 모델을 오작동하게 만드는 작은 노이즈를 찾는 방법이며, 대표적으로 FGSM(Fast Gradient Sign Method)[1], PGD(Projected Gradient Descent)[2], C&W(Carlini & Wagner)[3] 공격 기법이 있다. 하지만 적대적 교란 신호는 이미지의 픽셀 값을 직접적으로 조작하는 방법이기 때문에, 카메라 시스템을 해킹하여 공격하는 것과 같이 디지털 환경에서만 공격이 가능하다는 한계점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. I. Goodfellow, et al., "Explaining and Harnessing Adversarial Examples," International Conference on Learning Representations, 2015. 

  2. A. Madrym et al., "Towards Deep Learning Models Resistant to Adversarial Attacks," arXiv preprint arXiv:1706.06083, 2017. 

  3. N. Carlini, D. Wagner, "Towards Evaluating the Robustness of Neural Networks," IEEE Symposium on Security and Privacy, 2017. 

  4. T. B. Brown, et al., "Adversarial Patch," arXiv preprint arXiv:1712.09665, 2018. 

  5. I. Goodfellow, et al., "Generative Adversarial Nets," Proceedings of the 27th International Conference on Neural Information Processing Systems, Vol. 2, pp. 2672-2680, 2014. 

  6. C. Szegedy, et al., "Intriguing Properties of Neural Networks," International Conference on Learning Representations, 2014. 

  7. S. Qiu, et al., "Review of Artificial Intelligence Adversarial Attack and Defense Technologies," Applied Sciences, 9(5), 2019. 

  8. X. Yuan, et al., "Adversarial Examples: Attacks and Defenses for Deep Learning," IEEE Transactions on Neural Networks and Learning Systems, 30(9), pp.2805-2824, Sep 2019. 

  9. S. Moosavi-Dezfooli, et al., "DeepFool: A Simple and Accurate Method to Fool Deep Neural Networks," arXiv preprint arXiv:1511.04599, 2015. 

  10. X. Liu, et al., "DPatch: Attacking Object Detectors with Adversarial Patches," arXiv preprint arXiv:1806.02299, 2018. 

  11. C. Xiao, et al., "Generating Adversarial Examples with Adversarial Networks," arXiv preprint arXiv:1801.02610, 2018. 

  12. A. Liu, et al., "Perceptual-Sensitive GAN for Generating Adversarial Patches," Proceedings of the AAAI Conference on Artificial Intelligence, 33, pp. 1028-2035, 2019. 

  13. P. Isola, et al., "Image-to-Image Translation with Conditional Adversarial Networks," arXiv preprint arXiv:1611.07004, 2016. 

  14. J. Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-consistent Adversarial Networks," IEEE International Conference on Computer Vision (ICCV), pp. 2242-2251, 2017. 

  15. J. Stallkamp, et al., "Man vs. Computer: Benchmarking machine learning algorithms for traffic sign recognition," Neural Networks : the official journal of the International Neural Network Society, 32, 2012. 

  16. A. Krizhevsky, et al., "CIFAR-10 (Canadian Institute For Advanced Research)," http://www.cs.toronto.edu/-kriz/cifar.html. 

  17. K. Simonyan, A. Zisserman, "Very Deep Convolutional Networks for Large-scale Image Recognition," arXiv preprint arXiv:1409.1556, 2015. 

  18. K. He, "Deep Residual Learning for Image Recognition," arXiv preprint arXiv:1512.03385, 2015. 

  19. F. N. Iandola, et al., "SqueezeNet: AlexNet-level Accuracy with 50x Fewer Parameters and <0.5MB Model Size," arXiv preprint arXiv:1602.07360, 2016. 

  20. M. Sandler, et al., "MobileNetV2: Inverted Residuals and Linear Bottlenecks," arXiv preprint arXiv:1801.04381, 2019. 

  21. Z. Wang, et al., "Image Quality Assessment: From Error Visibility to Structural Similarity," IEEE Transactions on Image Processing, 13(4), pp. 600-612, 2004. 

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로