본 연구는 심층 신경망(deep neural network, DNN)의 적대적 예제, 특히 범용 적대적 섭동(universal adversarial perturbation, UAP)에 대한 취약성을 다룬다. 기존의 적대적 방해 기법들이 특정 이미지에 국한되어 그 효과를 발휘하는 데 반해, UAP는 다양한 이미지에 대해 일관된 효과를 나타내어, 이로 인한 위협이 더욱 증가하고 있다. 그러나 UAP를 실제 공격 상황에서 구현하는 데는 여러 어려움이 있으며, 이 중 가장 큰 문제는 ...
본 연구는 심층 신경망(deep neural network, DNN)의 적대적 예제, 특히 범용 적대적 섭동(universal adversarial perturbation, UAP)에 대한 취약성을 다룬다. 기존의 적대적 방해 기법들이 특정 이미지에 국한되어 그 효과를 발휘하는 데 반해, UAP는 다양한 이미지에 대해 일관된 효과를 나타내어, 이로 인한 위협이 더욱 증가하고 있다. 그러나 UAP를 실제 공격 상황에서 구현하는 데는 여러 어려움이 있으며, 이 중 가장 큰 문제는 신경망이 출력하는 확률 분포를 명확히 알 수 없다는 점이다. 이러한 문제의식을 바탕으로, 본 연구는 결정 기반 적대적 공격을 실행하기 위한 UAP 최적화 방법인 Decision-BADGE 를 제안한다. 이 방법은 perturbation 을 최적화하기 위해 그래디언트의 크기와 방향을 정밀하게 조절하는 데 초점을 맞추었다. 이를 위해, 해밍 거리 배치 손실 함수를 도입하여 실측 데이터 분포와의 거리를 측정하고, 이를 통해 그래디언트의 크기를 근사적으로 추정하였다. 더 나아가, 최적화된 simultaneous perturbation stochastic approximation (SPSA) 알고리즘을 활용하여 계산된 그래디언트 크기에 따라 UAP 를 업데이트하는 방식을 적용하였다. 본 연구에서 제안된 Decision-BADGE 는 score-based attack 및 targeted attack 에도 적용 가능하며, 다양한 피해자 모델에 대한 실험을 통해 이미지 특정 공격과 점수 기반 공격에서 뛰어난 성능을 입증하였다. 이 방법은 특히 적은 학습 시간과 업데이트 횟수, 그리고 비슷한 수의 질의를 요구하면서도 높은 공격 성공률을 달성하였다. 또한, 본 연구는 이론적 분석과 실험을 통해 Decision-BADGE 가 구조 및 정밀한 출력 정보를 알 수 없는 피해자 모델을 성공적으로 속이고, 특정 클래스를 정확하게 표적으로 삼을 수 있음을 보여주었다. 이와 같은 연구 결과는 DNN 의 적대적 예제에 대한 보다 심층적인 이해를 가능하게 하며, 향후 보안 방어 메커니즘의 개발에 중요한 기초 자료를 제공할 것으로 기대된다.
본 연구는 심층 신경망(deep neural network, DNN)의 적대적 예제, 특히 범용 적대적 섭동(universal adversarial perturbation, UAP)에 대한 취약성을 다룬다. 기존의 적대적 방해 기법들이 특정 이미지에 국한되어 그 효과를 발휘하는 데 반해, UAP는 다양한 이미지에 대해 일관된 효과를 나타내어, 이로 인한 위협이 더욱 증가하고 있다. 그러나 UAP를 실제 공격 상황에서 구현하는 데는 여러 어려움이 있으며, 이 중 가장 큰 문제는 신경망이 출력하는 확률 분포를 명확히 알 수 없다는 점이다. 이러한 문제의식을 바탕으로, 본 연구는 결정 기반 적대적 공격을 실행하기 위한 UAP 최적화 방법인 Decision-BADGE 를 제안한다. 이 방법은 perturbation 을 최적화하기 위해 그래디언트의 크기와 방향을 정밀하게 조절하는 데 초점을 맞추었다. 이를 위해, 해밍 거리 배치 손실 함수를 도입하여 실측 데이터 분포와의 거리를 측정하고, 이를 통해 그래디언트의 크기를 근사적으로 추정하였다. 더 나아가, 최적화된 simultaneous perturbation stochastic approximation (SPSA) 알고리즘을 활용하여 계산된 그래디언트 크기에 따라 UAP 를 업데이트하는 방식을 적용하였다. 본 연구에서 제안된 Decision-BADGE 는 score-based attack 및 targeted attack 에도 적용 가능하며, 다양한 피해자 모델에 대한 실험을 통해 이미지 특정 공격과 점수 기반 공격에서 뛰어난 성능을 입증하였다. 이 방법은 특히 적은 학습 시간과 업데이트 횟수, 그리고 비슷한 수의 질의를 요구하면서도 높은 공격 성공률을 달성하였다. 또한, 본 연구는 이론적 분석과 실험을 통해 Decision-BADGE 가 구조 및 정밀한 출력 정보를 알 수 없는 피해자 모델을 성공적으로 속이고, 특정 클래스를 정확하게 표적으로 삼을 수 있음을 보여주었다. 이와 같은 연구 결과는 DNN 의 적대적 예제에 대한 보다 심층적인 이해를 가능하게 하며, 향후 보안 방어 메커니즘의 개발에 중요한 기초 자료를 제공할 것으로 기대된다.
The susceptibility of deep neural networks (DNNs) to adversarial examples has prompted an increase in the deployment of adversarial attacks. Image-agnostic universal adversarial perturbations (UAPs) are much more threatening, but many limitations exist to implementing UAPs in real-world scenarios wh...
The susceptibility of deep neural networks (DNNs) to adversarial examples has prompted an increase in the deployment of adversarial attacks. Image-agnostic universal adversarial perturbations (UAPs) are much more threatening, but many limitations exist to implementing UAPs in real-world scenarios where only binary decisions are returned. In this research, we propose Decision-BADGE, a novel method to craft universal adversarial perturbations for executing decision-based black-box attacks. To optimize perturbation with decisions, we addressed two challenges, namely, the gradient's magnitude and direction. First, we use batch accuracy loss that measures the distance from distributions of ground truth and accumulating decisions in batches to determine the magnitude of the gradient. This magnitude is applied in the direction from the simultaneous perturbation stochastic approximation (SPSA) based algorithm that was revised with gradient correction with adaptive momentum to update the perturbation. This simple, yet efficient method can be easily extended to score-based and targeted attacks. Experimental validation across multiple victim models demonstrates that the Decision-BADGE outperforms existing attack methods, even image-specific and score-based attacks. In particular, our proposed method shows a superior attack success rate with less training time. The research also shows that Decision-BADGE can successfully deceive unseen victim models and accurately target specific classes.
The susceptibility of deep neural networks (DNNs) to adversarial examples has prompted an increase in the deployment of adversarial attacks. Image-agnostic universal adversarial perturbations (UAPs) are much more threatening, but many limitations exist to implementing UAPs in real-world scenarios where only binary decisions are returned. In this research, we propose Decision-BADGE, a novel method to craft universal adversarial perturbations for executing decision-based black-box attacks. To optimize perturbation with decisions, we addressed two challenges, namely, the gradient's magnitude and direction. First, we use batch accuracy loss that measures the distance from distributions of ground truth and accumulating decisions in batches to determine the magnitude of the gradient. This magnitude is applied in the direction from the simultaneous perturbation stochastic approximation (SPSA) based algorithm that was revised with gradient correction with adaptive momentum to update the perturbation. This simple, yet efficient method can be easily extended to score-based and targeted attacks. Experimental validation across multiple victim models demonstrates that the Decision-BADGE outperforms existing attack methods, even image-specific and score-based attacks. In particular, our proposed method shows a superior attack success rate with less training time. The research also shows that Decision-BADGE can successfully deceive unseen victim models and accurately target specific classes.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.