[국내논문] 블랙 박스 모델의 출력값을 이용한 AI 모델 종류 추론 공격
Model Type Inference Attack Using Output of Black-Box AI Model 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.32 no.5, 2022년, pp.817 - 826  

안윤수 (숭실대학교) ,  최대선 (숭실대학교)

AI-Helper 아이콘AI-Helper

AI 기술이 여러 분야에 성공적으로 도입되는 추세이며, 서비스로 환경에 배포된 모델들은 지적 재산권과 데이터를 보호하기 위해 모델의 정보를 노출시키지 않는 블랙 박스 상태로 배포된다. 블랙 박스 환경에서 공격자들은 모델 출력을 이용해 학습에 쓰인 데이터나 파라미터를 훔치려고 한다. 본 논문은 딥러닝 모델을 대상으로 모델 종류에 대한 정보를 추론하는 공격이 없다는 점에서 착안하여, 모델의 구성 레이어 정보를 직접 알아내기 위해 모델의 종류를 추론하는 공격 방법을 제안한다. MNIST 데이터셋으로 학습된 ResNet, VGGNet, AlexNet과 간단한 컨볼루션 신경망 모델까지 네 가지 모델의 그레이 박스 및 블랙 박스 환경에서의 출력값을 이용해 모델의 종류가 추론될 수 있다는 것을 보였다. 또한 본 논문이 제안하는 방식인 대소 관계 피쳐를 딥러닝 모델에 함께 학습시킨 경우 블랙 박스 환경에서 약 83%의 정확도로 모델의 종류를 추론했으며, 그 결과를 통해 공격자에게 확률 벡터가 아닌 제한된 정보만 제공되는 상황에서도 모델 종류가 추론될 수 있음을 보였다.

Abstract AI-Helper 아이콘AI-Helper

AI technology is being successfully introduced in many fields, and models deployed as a service are deployed with black box environment that does not expose the model's information to protect intellectual property rights and data. In a black box environment, attackers try to steal data or parameters...


문제 정의

  본 논문은 제안한 모델 종류 분류의 성능을 모델의 출력값만 사용했을 때보다 향상시키기 위해 데이터를 직관적이고 노이즈가 적어지게 하는 피쳐의 가공 방법도 함께 제안한다. 피쳐들은 모두 그레이 박스, 블랙 박스 환경에서 각각 얻을 수 있는 출력값을 사용해 가공할 수 있다.
