AI 기술이 여러 분야에 성공적으로 도입되는 추세이며, 서비스로 환경에 배포된 모델들은 지적 재산권과 데이터를 보호하기 위해 모델의 정보를 노출시키지 않는 블랙 박스 상태로 배포된다. 블랙 박스 환경에서 공격자들은 모델 출력을 이용해 학습에 쓰인 데이터나 파라미터를 훔치려고 한다. 본 논문은 딥러닝 모델을 대상으로 모델 종류에 대한 정보를 추론하는 공격이 없다는 점에서 착안하여, 모델의 구성 레이어 정보를 직접 알아내기 위해 모델의 종류를 추론하는 공격 방법을 제안한다. MNIST 데이터셋으로 학습된 ResNet, VGGNet, AlexNet과 간단한 컨볼루션 신경망 모델까지 네 가지 모델의 그레이 박스 및 블랙 박스 환경에서의 출력값을 이용해 모델의 종류가 추론될 수 있다는 것을 보였다. 또한 본 논문이 제안하는 방식인 대소 관계 피쳐를 딥러닝 모델에 함께 학습시킨 경우 블랙 박스 환경에서 약 83%의 정확도로 모델의 종류를 추론했으며, 그 결과를 통해 공격자에게 확률 벡터가 아닌 제한된 정보만 제공되는 상황에서도 모델 종류가 추론될 수 있음을 보였다.
AI 기술이 여러 분야에 성공적으로 도입되는 추세이며, 서비스로 환경에 배포된 모델들은 지적 재산권과 데이터를 보호하기 위해 모델의 정보를 노출시키지 않는 블랙 박스 상태로 배포된다. 블랙 박스 환경에서 공격자들은 모델 출력을 이용해 학습에 쓰인 데이터나 파라미터를 훔치려고 한다. 본 논문은 딥러닝 모델을 대상으로 모델 종류에 대한 정보를 추론하는 공격이 없다는 점에서 착안하여, 모델의 구성 레이어 정보를 직접 알아내기 위해 모델의 종류를 추론하는 공격 방법을 제안한다. MNIST 데이터셋으로 학습된 ResNet, VGGNet, AlexNet과 간단한 컨볼루션 신경망 모델까지 네 가지 모델의 그레이 박스 및 블랙 박스 환경에서의 출력값을 이용해 모델의 종류가 추론될 수 있다는 것을 보였다. 또한 본 논문이 제안하는 방식인 대소 관계 피쳐를 딥러닝 모델에 함께 학습시킨 경우 블랙 박스 환경에서 약 83%의 정확도로 모델의 종류를 추론했으며, 그 결과를 통해 공격자에게 확률 벡터가 아닌 제한된 정보만 제공되는 상황에서도 모델 종류가 추론될 수 있음을 보였다.
AI technology is being successfully introduced in many fields, and models deployed as a service are deployed with black box environment that does not expose the model's information to protect intellectual property rights and data. In a black box environment, attackers try to steal data or parameters...
AI technology is being successfully introduced in many fields, and models deployed as a service are deployed with black box environment that does not expose the model's information to protect intellectual property rights and data. In a black box environment, attackers try to steal data or parameters used during training by using model output. This paper proposes a method of inferring the type of model to directly find out the composition of layer of the target model, based on the fact that there is no attack to infer the information about the type of model from the deep learning model. With ResNet, VGGNet, AlexNet, and simple convolutional neural network models trained with MNIST datasets, we show that the types of models can be inferred using the output values in the gray box and black box environments of the each model. In addition, we inferred the type of model with approximately 83% accuracy in the black box environment if we train the big and small relationship feature that proposed in this paper together, the results show that the model type can be infrerred even in situations where only partial information is given to attackers, not raw probability vectors.
AI technology is being successfully introduced in many fields, and models deployed as a service are deployed with black box environment that does not expose the model's information to protect intellectual property rights and data. In a black box environment, attackers try to steal data or parameters used during training by using model output. This paper proposes a method of inferring the type of model to directly find out the composition of layer of the target model, based on the fact that there is no attack to infer the information about the type of model from the deep learning model. With ResNet, VGGNet, AlexNet, and simple convolutional neural network models trained with MNIST datasets, we show that the types of models can be inferred using the output values in the gray box and black box environments of the each model. In addition, we inferred the type of model with approximately 83% accuracy in the black box environment if we train the big and small relationship feature that proposed in this paper together, the results show that the model type can be infrerred even in situations where only partial information is given to attackers, not raw probability vectors.
본 논문은 제안한 모델 종류 분류의 성능을 모델의 출력값만 사용했을 때보다 향상시키기 위해 데이터를 직관적이고 노이즈가 적어지게 하는 피쳐의 가공 방법도 함께 제안한다. 피쳐들은 모두 그레이 박스, 블랙 박스 환경에서 각각 얻을 수 있는 출력값을 사용해 가공할 수 있다.
제안 방법
본 논문은 정확도가 95% 이상인 이미지 분류기들을 타겟 모델로 두고 모델의 출력 확률 벡터를 얻을 수 있는 그레이 박스, 모델의 출력 확률 벡터를 얻을 수 없는 블랙 박스 환경에서 타겟 모델에 질의 해 얻을 수 있는 출력값을 이용하여 모델 종류를 추론하였고, 본 논문이 제안하는 피쳐 가공을 사용한 모델 종류 추론의 결과를 피쳐를 가공하지 않은 조건에서 모델 종류 추론 결과와 비교, 분석하였다.
2. 본 논문이 제안하는 피쳐 가공 방법을 통해 모델 종류 정보 추론의 성능을 높였다.
멤버십 추론 공격은 블랙 박스 환경에서 질의를 이용해 타겟 모델을 학습시키는 단계에서 특정 데이터가 사용되었는지 여부를 알아내는 공격이다. 타겟 모델과 유사한 여러 개의 그림자 모델을 생성하고, 해당 그림자 모델들의 학습에 사용된 데이터와 학습에 사용되지 않은 데이터를 각각 그림자 모델에 입력했을 때의 출력값을 훈련 데이터로, 해당 값들에 학습 데이터에 포함되었는지 여부를 정답 레이블로 학습시킨 멤버십 추론 공격 모델을 생성하는 방식이다.
본 논문은 타겟 모델의 훈련된 조건에 따라 쿼리 아웃풋이 다르다는 점을 이용한 멤버십 추론 공격의 방식에서 아이디어를 얻어, 데이터가 각기 다른 종류의 모델에서 학습되어 출력된 값들을 훈련 데이터로, 모델의 종류를 정답 레이블로 학습시킨 모델 종류 분류기를 공격 모델로 학습시켜 모델 종류를 분류한다.
피쳐들은 모두 그레이 박스, 블랙 박스 환경에서 각각 얻을 수 있는 출력값을 사용해 가공할 수 있다. 최종적으로 모델의 출력값과 그 출력값을 사용해 가공된 피쳐를 합친 데이터로 모델의 종류를 추론한다. 모델 종류 분류의 방법은 Fig.
Fig. 2.의 15열과 같이 모델별 출력 확률 벡터와 모델의 클래스별 확률의 내림차순 랭킹, 가공한 feature 1을 합친 데이터를 사용해 그레이 박스 환경에서 모델의 종류를 추론하는 MTC를 훈련시킨다.
Fig. 2.의 27열과 같이 모델의 출력 랭킹정보에 feature 2을 합친 학습 데이터를 사용해 블랙 박스 환경에서 모델의 종류를 추론하는 MTC를 훈련시킨다.
이때, MNIST 학습데이터 중 타겟 모델 학습에 쓰이지 않은 30,000개의 데이터를 타겟 모델에 입력해서 얻은 출력 확률 벡터를 MTC의 훈련 데이터로 사용한다. 한 모델마다 30,000개씩, 총 120,000개의 출력 확률 벡터로 MTC를 학습시킨다. 정답으로는 네 가지의 모델 정답 레이블을 사용한다.
공격자가 모델별 출력 확률 벡터와 클래스별 확률의 랭킹 정보를 훈련시킨 MTC를 통해 95% 이상의 분류 정확도를 가지는 AlexNet, ResNet, VGGNet, Simple ConvNet 모델에서 얻을 수 있는 확률 벡터들을 모델 종류에 따라 분류한다. 모델 종류 분류 결과는 Table 3.
대상 데이터
MTC는 실험에 사용된 CNN 모델로부터 얻은 벡터를 사용해 모델의 종류를 분류하는 모델이다. 모델 종류 분류기는 입력층, 출력층과 완전 연결 계층 두 개로 이루어져 있고, 은닉층의 활성화 함수는 ReLU를, 출력층의 활성화 함수는 소프트맥스를 사용한 MLP 모델이며, 학습데이터로 네 가지 모델의 확률 벡터를 사용한다. 이때, MNIST 학습데이터 중 타겟 모델 학습에 쓰이지 않은 30,000개의 데이터를 타겟 모델에 입력해서 얻은 출력 확률 벡터를 MTC의 훈련 데이터로 사용한다.
모델 종류 분류기는 입력층, 출력층과 완전 연결 계층 두 개로 이루어져 있고, 은닉층의 활성화 함수는 ReLU를, 출력층의 활성화 함수는 소프트맥스를 사용한 MLP 모델이며, 학습데이터로 네 가지 모델의 확률 벡터를 사용한다. 이때, MNIST 학습데이터 중 타겟 모델 학습에 쓰이지 않은 30,000개의 데이터를 타겟 모델에 입력해서 얻은 출력 확률 벡터를 MTC의 훈련 데이터로 사용한다. 한 모델마다 30,000개씩, 총 120,000개의 출력 확률 벡터로 MTC를 학습시킨다.
데이터처리
정답으로는 네 가지의 모델 정답 레이블을 사용한다. MTC를 학습시킬 때 학습률은 0.001, 옵티마이저(optimizer)는 RMSprop, 배치 사이즈(batch size)는 256, 에포크(epoch)는 100으로 설정하고 테스트 정확도와 훈련 정확도를 통해 MTC의 성능을 실험 조건별로 비교한다. 본 논문의 모든 실험은 동일한 모델에 동일한 파라미터를 고정해 사용하였다.
성능/효과
1. 블랙 박스 환경 모델의 출력값에서 모델의 종류 정보가 추론될 위험성을 최초로 보였다.
3. 모델의 확률 벡터를 얻을 수 없는 상황에서도 80% 이상의 정확도로 모델 종류 추론이 가능함을 보였다.
소프트맥스 레이어 이전의 로짓 값과 소프트맥스 레이어 이후의 출력 확률 벡터 값은 동일한 대소 관계를 가지므로 가장 큰 확률을 가지는 레이블을 정답으로 내놓으면 되기 때문이다. 따라서 현실적으로 모든 클래스별 확률 벡터보다는 확률값의 랭킹 정보에만 공격자가 접근 가능할 확률이 더 높기 때문에, 확률값의 랭킹 정보를 이용해 모델의 종류 정보를 추론할 수 있다면, 공격자가 비교적 적은 정보로도 수행할 수 있는 매우 효율적인 공격 방법이 된다. 본 논문은 클래스별 확률의 랭킹 정보에만 공격자가 접근할 수 있는 환경을 블랙 박스 환경이라고 정의하고, 블랙 박스 환경에서도 공격을 수행했다.
3장의 제안 방법을 사용해 모델 종류 추론 실험을 수행하고 결과를 통해 제안 방법이 모델의 종류 추론 공격 방법으로 유효한지 확인하였다.
8로, 공격자가 모델별 출력값을 이용해 모델의 종류를 추론할 위험성이 있음을 알 수 있다. 피쳐를 사용해 학습시킨 MTC의 정확도는 약 0.88로, 피쳐를 이용하면 더 효율적으로 모델의 종류가 추론됨을 확인할 수 있다. 또한, Fig.
또한, Fig. 3.의 AUC 및 정밀도-재현율 그래프를 기준으로 feature 1을 추가한 데이터를 MTC에 학습시켰을 시 성능이 향상되었다.
공격자가 모델에서 출력된 클래스별 확률의 랭킹 정보만을 알 수 있는 상황인 블랙 박스 모델 환경에서 MTC가 모델 종류를 정확하게 추론할 수 있다면 매우 큰 취약점이 될 수 있다. 실제로 공격자는 공격하고자 하는 모델을 블랙 박스 환경으로 제공 받을 가능성이 높기 때문이다.
의 Black box attack 열과 같다. 모델의 클래스별 랭킹정보만을 훈련시킨 MTC의 정확도가 약 0.66으로, 그레이 박스 환경에 비해 비교적 제한적인 정보를 제공 받으므로 모델 종류 추론의 성능이 낮다. 그러나 본 논문이 제안하는 피쳐 가공 방법을 사용한 결과, MTC의 정확도가 약 0.
66으로, 그레이 박스 환경에 비해 비교적 제한적인 정보를 제공 받으므로 모델 종류 추론의 성능이 낮다. 그러나 본 논문이 제안하는 피쳐 가공 방법을 사용한 결과, MTC의 정확도가 약 0.83으로 향상되는 것을 확인할 수 있으며, Fig. 4.
83으로 향상되는 것을 확인할 수 있으며, Fig. 4.의 ROC 곡선과 정밀도-재현율 그래프상으로도 피쳐 가공의 효용성을 확인할 수 있다. 공격자는 모델의 출력 확률 벡터 없이도 모델의 출력값과 간단한 피쳐 가공을 통해 블랙 박스 환경에서도 모델의 종류를 추론할 가능성이 있다.
본 논문은 CNN 모델별 출력 확률 벡터를 학습시킨 MTC를 이용해, 그레이 박스 및 블랙 박스 환경에서 모델의 출력값으로 모델의 종류 정보를 추론할 수 있음을 보였다. 또한 모델별 출력값의 특징을 표현한 피쳐를 가공해 함께 학습시키면 높은 정확도로 빠르게 수렴하는 개선된 MTC를 생성할 수 있음을 보였다.
본 논문은 CNN 모델별 출력 확률 벡터를 학습시킨 MTC를 이용해, 그레이 박스 및 블랙 박스 환경에서 모델의 출력값으로 모델의 종류 정보를 추론할 수 있음을 보였다. 또한 모델별 출력값의 특징을 표현한 피쳐를 가공해 함께 학습시키면 높은 정확도로 빠르게 수렴하는 개선된 MTC를 생성할 수 있음을 보였다. 추가로 모델의 출력 확률 벡터 없이, 모델별 출력 클래스의 랭킹 정보만으로도 모델의 종류 정보가 추론될 수 있다는 사실을 밝혔다.
또한 모델별 출력값의 특징을 표현한 피쳐를 가공해 함께 학습시키면 높은 정확도로 빠르게 수렴하는 개선된 MTC를 생성할 수 있음을 보였다. 추가로 모델의 출력 확률 벡터 없이, 모델별 출력 클래스의 랭킹 정보만으로도 모델의 종류 정보가 추론될 수 있다는 사실을 밝혔다.
모델의 정보 추론은 MTC의 파라미터나 구조, 데이터의 특성, 제공되는 정보의 양 등의 요소에 따라 성능이 달라질 수 있지만 성능이 40% 정도로 매우 저조한 MTC를 생성했을 때에도 본 논문에서 제안한 피쳐를 가공해 학습시켰을 때 모델 추론 성공률이 크게 높아짐과 동시에 빠르게 수렴하는 경향을 보였으며, 이는 본 논문의 제안 방법을 사용하면 더 높은 성능을 가진 MTC를 생성할 수 있음을 뜻한다.
의 Gray box attack 열과 같다. 모델의 출력 확률 벡터만을 훈련시킨 MTC의 정확도가 약 0.8로, 공격자가 모델별 출력값을 이용해 모델의 종류를 추론할 위험성이 있음을 알 수 있다. 피쳐를 사용해 학습시킨 MTC의 정확도는 약 0.
후속연구
이는 모델을 상용화할 때, 정확도가 높은 모델을 매우 제한적인 정보만 허용하는 상태로 배포해야 함을 뜻한다. 앙상블 학습을 통해 여러 모델을 합쳐 사용하는 것 또한 배포된 모델의 종류 정보가 추론되는 위험성에서 벗어나는 방법이 될 수 있을 것이다.
MNIST 데이터셋의 경우 열 개의 클래스로 이루어져 있기 때문에, 오답의 패턴을 아홉 개의 레이블 안에서 파악해야 하지만, CIFAR-100 등의 많은 수의 클래스를 가진 데이터 셋에서는 오답의 패턴이 담긴 레이블의 수가 훨씬 많기 때문에 더 많은 변수를 가질 것이다. 또한, CNN의 발전 과정에서 많은 종류의 모델들이 이미지 분류에 쓰이고 있으므로, 타겟 모델일 것이라고 예상되는 모델의 종류가 더 많은 상황을 설계해 실험을 수행하면 모델 추론 결과에 변수가 생길 수 있다는 한계가 있다.
향후 모델의 종류를 예측하는 데 가장 최적화된 노이즈를 포함하는 이미지 데이터를 생성해, 여러 번의 질의로 모델 종류를 추론하는 것보다 간단하게 모델의 종류 정보를 추론하는 방법을 연구할 예정이다.
참고문헌 (26)
M. Ribeiro, K. Grolinger and M. A. M. Capretz, "MLaaS: Machine Learning as a Service," 2015 IEEE 14th International Conference on Machine Learning and Applications (ICMLA), pp. 896-902, Dec 2015.
A. Ilyas, L. Engstrom, A. Athalye and J. Lin "Black-box Adversarial Attacks with Limited Queries and Information," Proceedings of the 35th International Conference on Machine Learning, PMLR vol. 80, pp. 2137-2146, Jul 2018.
K. Ren, T. Zheng, Z. Qin and X. Liu, "Adversarial Attacks and Defenses in Deep Learning," Engineering vol. 6, no. 3, pp.346-360, March. 2020.
A. Oseni, N. Moustafa, H. Janicke, P.Liu, Z. Tari and A. Vasilakos, "Security and Privacy for Artificial Intelligence: Opportunities and Challenges," arXiv, Feb. 2021.
O. Bastani, C. Kim, and H. Bastani."Interpreting Blackbox Models viaModel Extraction," arXiv, May. 2017.
M. kesarwani, B. Mukhoty, V. Aryaand S. Mehta. "Model ExtractionWarningin MLaaS Paradigm," arXiv, Nov. 2017.
M. Fredrikson, S. Jha and T. Ristenpart, "Model Inversion Attacks that Exploit Confidence Information andBasicCountermeasures," In Proceedings of the 22nd ACM SIGSAC Conference onComputer and Communications Security(CCS '15), pp. 1322- 1333, Oct 2015.
W. Brendel J. Rauber and M. Bethge"Decision-Based Adversarial Attacks:Reliable Attacks Against Black-BoxMachine Learning Models," International Conference on Learning Representations. Feb 2018.
R. Shokri, M. Stronati, C. SongandV. Shmatikov, "Membership InferenceAttacks Against Machine LearningModels," 2017 IEEE SymposiumonSecurity and Privacy (SP), pp. 3-18, June.2017.
J. Hayes, L. Melis, G. Danezis andE.D. Cristofaro, "LOGAN: Membershipinference attacks against generativemodels," arXiv, Aug, 2018.
S. Alfeld, X. Zhu and P. Barford, "Data Poisoning Attacks against Autoregressive Models," Proceedings of theAAAI Conference on Artificial Intelligence.vol.30, no.1, Feb 2016.
M. Jagielski et al, "Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning," 2018 IEEE Symposium on Security and Privacy (SP), pp. 19-35, May.2018.
B. Biggio. et al. "Evasion Attacks against Machine Learning at Test Time," In Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2013. Lecture Notes in Computer Scie nce, vol. 8190, pp. 387-402, Sep. 2013.
T. S. Sethi and M. Kantardzic, "Data driven exploratory attacks on black box classifiers in adversarial domains," Neurocomputing vol. 289, pp. 129-143, Mar. 2018.
A. Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet classification with deep convolutional neural networks," Association for Computing Machine ry, vol.60, 6 pp.84-90, June. 2017.
O. Russakovsky, J. Deng, H. Su et a l., "ImageNet Large Scale Visual Recognition Challenge," International Journal of Computer Vision 115, pp. 211-252, Apr. 2015.
N. Zhang, Y. Chen and J. Wang, "Image parallel processing based on GPU," 2010 2nd International Conference on Advanced Computer Control, pp. 367-370, June 2010.
A. F. Agarap, "Deep Learning using Rectified Linear Units (ReLU)," arXiv, Feb. 2019.
K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks forLarge-Scale Image Recognition," arXiv,Apr. 2015.
S. Hochreiter, "The vanishing gradientproblem during learning recurrent neural nets and problemsolutions," International Journal of Uncertainty, Fuzziness Knowledge-Based Systems. vol.6, no. 2, pp.107-116, April. 1998.
R. Pascanu, T. Mikolov and Y. Bengio,"On the difficulty of training recurrent neural networks," Proceedings of the30th International Conference onMachine Learning, PMLR, vol. 28 no. 3, pp. 1310-1318, Jun 2013.
K. He, X. Zhang, S. Ren andJ. Sun,"Deep Residual Learning for ImageRecognition," in 2016 IEEE ConferenceonComputer Vision and Pattern Recogniti on (CVPR), pp. 770-778, June 2016.
T. Fawcett, "An introduction to ROCanalysis," in Pattern RecognitionLetters, vol.27 no.8 pp. 861-874, Dec. 2005.
L. Deng, "The MNIST Database of Handwritten Digit Images for MachineLearning Research [Best of the Web]," in IEEE Signal Processing Magazine,vol. 29, no. 6, pp. 141-142, Nov. 2012.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.