Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.
Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.
Digitalization due to COVID-19 has rapidly developed artificial intelligence-based voice recognition technology. However, this technology causes unfair social problems, such as race and gender discrimination if datasets are biased against some groups, and degrades the reliability and security of art...
Digitalization due to COVID-19 has rapidly developed artificial intelligence-based voice recognition technology. However, this technology causes unfair social problems, such as race and gender discrimination if datasets are biased against some groups, and degrades the reliability and security of artificial intelligence services. In this work, we compare and analyze accuracy-based unfairness in biased data environments using VGGNet (Visual Geometry Group Network), ResNet (Residual Neural Network), and MobileNet, which are representative CNN (Convolutional Neural Network) models of artificial intelligence. Experimental results show that ResNet34 showed the highest accuracy for women and men at 91% and 89.9%in Top1-accuracy, while ResNet18 showed the slightest accuracy difference between genders at 1.8%. The difference in accuracy between genders by model causes differences in service quality and unfair results between men and women when using the service.
Digitalization due to COVID-19 has rapidly developed artificial intelligence-based voice recognition technology. However, this technology causes unfair social problems, such as race and gender discrimination if datasets are biased against some groups, and degrades the reliability and security of artificial intelligence services. In this work, we compare and analyze accuracy-based unfairness in biased data environments using VGGNet (Visual Geometry Group Network), ResNet (Residual Neural Network), and MobileNet, which are representative CNN (Convolutional Neural Network) models of artificial intelligence. Experimental results show that ResNet34 showed the highest accuracy for women and men at 91% and 89.9%in Top1-accuracy, while ResNet18 showed the slightest accuracy difference between genders at 1.8%. The difference in accuracy between genders by model causes differences in service quality and unfair results between men and women when using the service.
또한 [11]에서는 데이터 그룹 간의 격차를 줄이기 위해서 GFN(Group-adapted Fusion Network) 아키텍처로 심층 화자 인식의 알고리즘 공정성 탐색을 하며, 공정한 화자 인식 모델과 적절한 평가 프레임워크의 필요성을 강조하였다. 본 연구에서는 VoxCeleb1 데이터셋에서 성별 균형을 조작하여 불균형 훈련 데이터가 화자 검증 모델의 그룹 공정성에 미치는 영향을 분석하였다. 인공지능 화자 식별의 불공정성은 국가, 나이 또는 성별에 따라 공정하지 않은 서비스를 제공받을 수 있음을 의미한다.
본 장에서는 VoxCeleb을 이용한 화자 인식과 데이터 편향 및 공정성에 대해 알아보고자 화자 인식 선행연구 동향과 인공지능 정확도 및 공정성에 대해 분석하고자 한다.
제안 방법
본 연구에서는 음성 데이터셋인 VoxCeleb1을 사용하여 데이터셋의 분포를 살펴본다. 그리고 대표적인 컨볼루션 신경망(Convolutional Neural Network, CNN) 모델들을 대상으로 해당 데이터셋을 학습시킨 후 성별에 따른 Top1-accuracy, Top5-accuracy를 구하여 AI 공정성 관점으로 모델별에 따른 차이를 비교 및 분석한다.
[11]에서는 화자 검증 과정에서 특정한 성별과 국가의 데이터가 입력 값일 때, 성능 저하가 크고 모든 단계에 편향이 존재한다는 결과를 확인하였다. 또한, 화자 검증의 성능 격차를 정량화하기 위한 평가 프레임워크와 화자 인식의 편향을 해결하는 방안을 제안했다. 그러나, 공개적으로 사용 가능한 벤치마크 모델을 블랙박스 예측 변수로 사용하여 제한된 범위로 실험을 진행했기 때문에 모든 화자 검증 모델에 대한 일반적인 평가로 간주하기 어렵다는 한계점이 있다.
대상 데이터
본 연구에서 사용한 데이터셋은 VoxCeleb1으로 YouTube에 업로드된 동영상에서 1,251명의 유명인에 대한 1,000,000개 이상의 발언의 집합이다. 해당 데이터셋은 Kaggle에서 제공하고 있는 훈련 데이터셋인 dev(development dataset) 및 테스트 데이터셋인 test(test dataset)을 다운로드해 사용하였으며, 화자의 데이터로는 다양한 분포의 인종, 악센트, 직업, 나이를 포함하고 있다.
본 연구에서는 음성 데이터셋인 VoxCeleb1을 사용하여 데이터셋의 분포를 살펴본다. 그리고 대표적인 컨볼루션 신경망(Convolutional Neural Network, CNN) 모델들을 대상으로 해당 데이터셋을 학습시킨 후 성별에 따른 Top1-accuracy, Top5-accuracy를 구하여 AI 공정성 관점으로 모델별에 따른 차이를 비교 및 분석한다.
본 연구의 실험 환경은 Colab(Colaboratory) Pro 환경에서 오픈소스 머신러닝 프레임워크인 PyTorch를 사용하여 구현하였다. 그리고 VoxCeleb : a large-scale speaker identification dataset[12]의 VGG 기반 화자 식별 모델인 VGGVox를 학습 모델로 활용했다.
실험에서는 사용된 비교 모델로써 VGGNet[13], ResNet18, ResNet34, MobileNetV1, MobileNetV2이며, 음성을 푸리에 변환하여 시각화했을 때 이를 학습할 수 있는 CNN(Convolutional Neural Network)을 사용한다. VGG에 의해 개발된 모델인 VGGNet 네트워크의 깊이를 최적화하여 CNN 성능을 개선했다.
본 연구에서 사용한 데이터셋은 VoxCeleb1으로 YouTube에 업로드된 동영상에서 1,251명의 유명인에 대한 1,000,000개 이상의 발언의 집합이다. 해당 데이터셋은 Kaggle에서 제공하고 있는 훈련 데이터셋인 dev(development dataset) 및 테스트 데이터셋인 test(test dataset)을 다운로드해 사용하였으며, 화자의 데이터로는 다양한 분포의 인종, 악센트, 직업, 나이를 포함하고 있다. 해당 데이터셋은 표 1과 같이 데이터셋 순서를 0부터 시작하는 index로 표현하고 VoxCeleb1의 목소리의 식별값인 VoxCeleb1 ID, 화자를 구분하는 VGGFace1 ID와 함께 매칭되어 있었다.
데이터처리
실험에서는 사용된 비교 모델로써 VGGNet[13], ResNet18, ResNet34, MobileNetV1, MobileNetV2이며, 음성을 푸리에 변환하여 시각화했을 때 이를 학습할 수 있는 CNN(Convolutional Neural Network)을 사용한다. VGG에 의해 개발된 모델인 VGGNet 네트워크의 깊이를 최적화하여 CNN 성능을 개선했다. ResNet은 잔차 대표(residual representation) 함수를 학습함으로써 깊은 신경망을 가질 수 있다.
이론/모형
본 연구의 실험 환경은 Colab(Colaboratory) Pro 환경에서 오픈소스 머신러닝 프레임워크인 PyTorch를 사용하여 구현하였다. 그리고 VoxCeleb : a large-scale speaker identification dataset[12]의 VGG 기반 화자 식별 모델인 VGGVox를 학습 모델로 활용했다. VGGVox는 음성 데이터를 짧게 나눈 후 단편화된 음성 데이터를 STFT(Shorttime fouriertransform, 국소푸리에 변환) 기반의 전처리 방법을 사용하여 시간 도메인 음성 데이터를 푸리에 변환하여 분석한다.
본 연구에서는 VoxCeleb1을 이용하여 AI 공정성을 살펴보았다. 모델별로 데이터셋에 대한 정확도는 차이가 있었으며, 남성과 여성의 데이터는 각각 55%, 45%를 차지하여 남성의 데이터가 10% 비중이 높았다.
초기의 화자 인식 방식은 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 이후에 서포트 벡터머신(Support Vector Machine, SVM)이 사용되었다. 이후에는 CNN 형태의 딥러닝 방식으로 알고리즘이 발전되면서 딥러닝 모델을 활용하여 화자 인식의 성능을 개선하려는 변화가 나타났다.
평가지표로는 정확도인 Top1-accuracy과 Top5-accuracy를 사용하였다. Top1-accuracy는 모델의 예상답변 확률 중 가장 높은 것이 정답일 경우에 대한 정확도이며, Top5-accuracy는 모델의 예상 답변 확률 중 높은 5개에 정답이 포함될 경우에 대한 정확도이다.
성능/효과
이러한 실험을 통해 불균형한 데이터셋을 학습한 인공지능 모델 간 남녀별 화자 인식 정확도가 얼마나 상이한지 확인하였다. Top1-accuracy 측면에서 ResNet34가 MobileNetV2에 비해 성별 간의 정확도 차이가 가장 작은 반면, MobileNetV2는 남녀 간의 정확도 차이가 컸음을 확인하였다. 그리고 Top5-accuracy 측면에서는 MobileNetV1이 성별 간의 정확도 차이가 가장 작은 반면, ResNet18은 가장 정확도 차이가 컸다.
Top1-accuracy, Top5-accuracy를 나타낸 그림 2와 그림 3을 요약하여 정리한 표 2를 살펴보면, Top5-accuracy가 Top1-accuracy 대비 평균적으로 여성과 남성 각각 13.24%, 12% 더 높은 정확도를 가졌다. 이는 Top1-accuracy은 1개 데이터를 이용해 정확도를 계산하지만, Top5-accuracy는 5개의 데이터 중 하나만 해당되는 것이 있으면 되기 때문에 정확도가 높아진다.
Top1-accuracy 측면에서 ResNet34가 MobileNetV2에 비해 성별 간의 정확도 차이가 가장 작은 반면, MobileNetV2는 남녀 간의 정확도 차이가 컸음을 확인하였다. 그리고 Top5-accuracy 측면에서는 MobileNetV1이 성별 간의 정확도 차이가 가장 작은 반면, ResNet18은 가장 정확도 차이가 컸다. 즉, 서비스 이용자들은 성별에 따라 공정하지 않은 서비스를 받을 수 있으며, 이는 성별에 따라 저하된 서비스의 품질을 받을 수 있는 성차별로 이어진다.
또한 [10]에서는 VoxCeleb을 이용하여 Open-set Speaker Recognition의 손실함수에 대한 평가를 했다. 또한, vanilla triple loss로 훈련된 네트워크가 대부분의 AM-Softmax 및 AAM-Softmax 훈련된 네트워크에 비해 성능이 더 우수하다는 것을 증명하였다. 상술한 종래의 연구들은 주로 정확도 측정 및 성능 향상에만 초점을 두어 진행되었고 딥러닝 및 기계학습의 정확도가 공정성(Fairness)에 미치는 영향에 대해서는 다루지 않았다.
후속연구
또한, 화자 검증의 성능 격차를 정량화하기 위한 평가 프레임워크와 화자 인식의 편향을 해결하는 방안을 제안했다. 그러나, 공개적으로 사용 가능한 벤치마크 모델을 블랙박스 예측 변수로 사용하여 제한된 범위로 실험을 진행했기 때문에 모든 화자 검증 모델에 대한 일반적인 평가로 간주하기 어렵다는 한계점이 있다. 또한 [11]에서는 데이터 그룹 간의 격차를 줄이기 위해서 GFN(Group-adapted Fusion Network) 아키텍처로 심층 화자 인식의 알고리즘 공정성 탐색을 하며, 공정한 화자 인식 모델과 적절한 평가 프레임워크의 필요성을 강조하였다.
이 문제를 해결하여 정확하고 공정한 서비스를 제공하려면, 모델의 공정성을 정량적으로 측정하고 편향을 줄이는 관리 프레임워크가 필요하다. 또한, 데이터의 불균형으로 인한 AI 불공정성을 개선하기 위해 데이터를 인공지능에 학습시키기 전에 데이터가 성별, 인종, 국가 등 다양한 기준으로 분류된 비율에 대하여 데이터 불균형의 문제가 없는지 확인한 후 비율을 조정하는 기술에 관한 연구가 요구된다. 향후 연구에서는 성별에 관한 학습 데이터 셋의 비율을 다르게 조정하여, 데이터셋의 비율이 정확도에 미치는 영향을 평가하고, 결과에서 나타나는 편향을 줄이는 방안을 연구하고자 한다.
향후 연구에서는 성별에 관한 학습 데이터 셋의 비율을 다르게 조정하여, 데이터셋의 비율이 정확도에 미치는 영향을 평가하고, 결과에서 나타나는 편향을 줄이는 방안을 연구하고자 한다. 또한, 성별 간의 불공정성에 대한 정량화를 통해 편향을 줄이는 프레임워크를 연구할 계획이다.
인공지능 화자 식별의 불공정성은 국가, 나이 또는 성별에 따라 공정하지 않은 서비스를 제공받을 수 있음을 의미한다. 해당 연구는 화자 인식의 훈련 데이터셋에서 성별 간 불균형한 그룹 표현이 모델 불공정으로 이어질 수 있다는 직접적인 증거를 제공한다는 점에서 기여점이 있다. 하지만, ResNet 모델에만 적용되어 다른 딥러닝 모델에서는 동일한 결과를 확인할 수 없으며, 훈련된 GFN을 VoxCeleb 외의 데이터셋에는 적용할 수 없다는 한계점이 있다.
또한, 데이터의 불균형으로 인한 AI 불공정성을 개선하기 위해 데이터를 인공지능에 학습시키기 전에 데이터가 성별, 인종, 국가 등 다양한 기준으로 분류된 비율에 대하여 데이터 불균형의 문제가 없는지 확인한 후 비율을 조정하는 기술에 관한 연구가 요구된다. 향후 연구에서는 성별에 관한 학습 데이터 셋의 비율을 다르게 조정하여, 데이터셋의 비율이 정확도에 미치는 영향을 평가하고, 결과에서 나타나는 편향을 줄이는 방안을 연구하고자 한다. 또한, 성별 간의 불공정성에 대한 정량화를 통해 편향을 줄이는 프레임워크를 연구할 계획이다.
참고문헌 (14)
Mahata, A., Saini, N., Saharawat, S., & Tiwari.,?"Intelligent movie recommender system using machine?learning," Intelligent Human Computer Interaction,?Vol. 10127, pp. 94-110, 2016.
Qiu, J., Wu, Q., Ding, G., Xu, Y., & Feng, S., "A?survey of machine learning for big data processing,"?EURASIP Journal on Advances in Signal Processing,?Vol. 1, No. 67, pp. 1-16, 2016.
Markets and Markets, "Voice biometrics market by?component, type(active and passive), application?(authentication and customer verification, transaction?processing), authentication process, organization size,?deployment mode, vertical, and region - global?forecast to 2026," https://www.marketsandmarkets.com/Market-Reports/voicebiometrics-market-104503105.html,?2021.
Canbek, N. G., & Mutlu, M. E., "On the track of?artificial intelligence: Learning with intelligent personal?assistants," Journal of Human Sciences, Vol. 13, No.?1, pp. 592-601, 2016.
오원준, 연명흠. (2019). 스마트홈 환경에서 발생하는다중사용자 간 인터랙션 이슈 발굴 및 디자인 솔루션 제안 -제어 권한의 조절을 중심으로. Journal of?Integrated Design Research, 18(3), 77-90.
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K,.?& Galstyan. A., "A Survey on Bias and Fairness in?Machine Learning." ACM Comput. Surv. 54, 6, Article?115 (July 2022), 35 pages. 2021.
An, N. N., Thanh, N. Q., & Liu, Y., "Deep CNNs?with self-attention for speaker identification," IEEE?access, Vol. 7, pp. 85327-85337, 2019.
Chung, J. S., Huh, J., Mun, S., Lee, M., Heo, H. S.,?Choe, S., ... & Han, I., "In defence of metric learning?for speaker recognition," arXiv preprint, 2020.
Shen, H., Yang, Y., Sun, G., Langman, R., Han, E.,?Droppo, J., & Stolcke, A., "Improving fairness in?speaker verification via Group-adapted Fusion?Network," ICASSP 2022-2022 IEEE International?Conference on Acoustics, Speech and Signal?Processing (ICASSP), pp. 7077-7081, 2022.
Nagrani, A., Chung, J. S., & Zisserman, A., "VoxCeleb:?a large-scale speaker identification dataset," arXiv?preprint, 2017.
Fogliato, R., Chouldechova, A., & G'Sell, M., "Fairness?evaluation in presence of biased noisy labels,"?International Conference on Artificial Intelligence and?Statistics, pp. 2325-2336, 2020?
※ AI-Helper는 부적절한 답변을 할 수 있습니다.