최근 디지털 오디오 매체의 증가로 인해 소리 데이터의 규모와 다양성이 크게 확대되었으며, 이로 인해 디지털 포렌식 과정에서 소리 데이터 분석의 중요도가 증가하였다. 하지만 소리 데이터 분석에 대한 표준화된 절차나 가이드 라인이 부족하여 분석 결과의 일관성과 신뢰성에 문제가 발생하고 있다. 디지털 환경은 다양한 오디오 형식과 녹음 조건을 포함하고 있지만, 현재 오디오 포렌식 방법론은 이러한 다양성을 충분히 반영하지 못하고있다. 이에 본 연구에서는 모든 상황에서 효과적인 분석을 수행할 수 있도록 Life-Cycle 기반 소리 데이터 요소기술을 식별하여 소리 데이터 분석의 전반적인 가이드라인을 제시하였다. 이와 더불어, 식별한 요소 기술을 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발에 활용하기 위해 분석을 진행하였다. 본 연구에서 제시한 Life-Cycle별 소리 데이터 요소 기술 식별 체계의 효과성을 입증하기 위하여 소리 데이터 기반으로 응급상황을 검색할 수 있는 기술을 개발하는 과정에 대한 사례 연구를 제시하였다. 해당 사례 연구를 통해 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 과정에서 Life-Cycle 기반으로 식별한 요소 기술이 데이터 분석의 질과 일관성을 보장하게 하고 효율적인 소리 데이터 분석을 가능하게 함을 확인하였다.
최근 디지털 오디오 매체의 증가로 인해 소리 데이터의 규모와 다양성이 크게 확대되었으며, 이로 인해 디지털 포렌식 과정에서 소리 데이터 분석의 중요도가 증가하였다. 하지만 소리 데이터 분석에 대한 표준화된 절차나 가이드 라인이 부족하여 분석 결과의 일관성과 신뢰성에 문제가 발생하고 있다. 디지털 환경은 다양한 오디오 형식과 녹음 조건을 포함하고 있지만, 현재 오디오 포렌식 방법론은 이러한 다양성을 충분히 반영하지 못하고있다. 이에 본 연구에서는 모든 상황에서 효과적인 분석을 수행할 수 있도록 Life-Cycle 기반 소리 데이터 요소기술을 식별하여 소리 데이터 분석의 전반적인 가이드라인을 제시하였다. 이와 더불어, 식별한 요소 기술을 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발에 활용하기 위해 분석을 진행하였다. 본 연구에서 제시한 Life-Cycle별 소리 데이터 요소 기술 식별 체계의 효과성을 입증하기 위하여 소리 데이터 기반으로 응급상황을 검색할 수 있는 기술을 개발하는 과정에 대한 사례 연구를 제시하였다. 해당 사례 연구를 통해 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 과정에서 Life-Cycle 기반으로 식별한 요소 기술이 데이터 분석의 질과 일관성을 보장하게 하고 효율적인 소리 데이터 분석을 가능하게 함을 확인하였다.
The recent increase in digital audio media has greatly expanded the size and diversity of sound data, which has increased the importance of sound data analysis in the digital forensics process. However, the lack of standardized procedures and guidelines for sound data analysis has caused problems wi...
The recent increase in digital audio media has greatly expanded the size and diversity of sound data, which has increased the importance of sound data analysis in the digital forensics process. However, the lack of standardized procedures and guidelines for sound data analysis has caused problems with the consistency and reliability of analysis results. The digital environment includes a wide variety of audio formats and recording conditions, but current audio forensic methodologies do not adequately reflect this diversity. Therefore, this study identifies Life-Cycle-based sound data elemental technologies and provides overall guidelines for sound data analysis so that effective analysis can be performed in all situations. Furthermore, the identified elemental technologies were analyzed for use in the development of digital forensic techniques for sound data. To demonstrate the effectiveness of the life-cycle-based sound data elemental technology identification system presented in this study, a case study on the process of developing an emergency retrieval technology based on sound data is presented. Through this case study, we confirmed that the elemental technologies identified based on the Life-Cycle in the process of developing digital forensic technology for sound data ensure the quality and consistency of data analysis and enable efficient sound data analysis.
The recent increase in digital audio media has greatly expanded the size and diversity of sound data, which has increased the importance of sound data analysis in the digital forensics process. However, the lack of standardized procedures and guidelines for sound data analysis has caused problems with the consistency and reliability of analysis results. The digital environment includes a wide variety of audio formats and recording conditions, but current audio forensic methodologies do not adequately reflect this diversity. Therefore, this study identifies Life-Cycle-based sound data elemental technologies and provides overall guidelines for sound data analysis so that effective analysis can be performed in all situations. Furthermore, the identified elemental technologies were analyzed for use in the development of digital forensic techniques for sound data. To demonstrate the effectiveness of the life-cycle-based sound data elemental technology identification system presented in this study, a case study on the process of developing an emergency retrieval technology based on sound data is presented. Through this case study, we confirmed that the elemental technologies identified based on the Life-Cycle in the process of developing digital forensic technology for sound data ensure the quality and consistency of data analysis and enable efficient sound data analysis.
본 연구는 효율적인 오디오 포렌식을 위해 소리 데이터의 Life-Cycle에 기반하여 요소 기술을 식별한다. Life-Cycle은 소리 데이터가 수집되어 관리 및 사용되는 전 과정을 의미하며 수집, 저장, 처리, 분석, 응용의 다섯 단계로 구분한다.
본 장에서는 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 사용되는 디지털 포렌식 기술을 확인한 후, 디지털 포렌식 기술에 활용되는 소리 데이터 요소 기술을 식별하고자 한다. 디지털 포렌식 기술은 식별 기술, 복구 기술, 검색 기술, 수집 기술, 분석 기술로 정의하였으며 해당 기술별로 해당하는 소리 데이터 요소 기술을 확인한 후, Fig.
수집 기술은 디지털 증거 출처에서 디지털 포렌식의 요구사항을 충족하는 구성 요소들의 집합인 디지털 증거 후보군을 추출하는 기술이며 오디오 포렌식 과정에서는 디지털 증거 출처에서 소리 데이터를 수집하는 기술을 의미한다. 소리 데이터를 대상으로 하는 수집 기술의 목표는 소리 데이터를 오디오 콘텐츠에서 추출하는 것이며 이는 소리 데이터를 대상으로 하는 식별 기술이 구현하고자 하는 목표와 동일하다. 수집 기술과 식별 기술이 구현하고자 하는 목표가 동일하기에 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 수집 기술을 개발할 때는 4.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 활용되는 디지털 포렌식 기술을 개발할 때, 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술 식별 체계를 활용할 수 있는지 소리 데이터 기반 응급상황 검색 기술 개발 사례를 통해 확인하고자 한다.
그러나 단순히 인구 밀집도가 높은 상황과 같이 영상 기반 시스템만으로는 응급상황 여부 판단이 어려운 경우가 존재한다. 이에 디지털 포렌식 과정에서 응급상황을 소리 데이터를 활용하여 검색하는 기술을 개발하고자 한다. 소리 데이터 기반 응급상황 검색 기술을 개발하기 위해서는 여러 소리 데이터에서 응급상황과 관련된 소리 데이터를 탐지하는 AI 모델을 먼저 개발하여야 한다.
이에 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하는 데에 필요한 요소 기술을 소리 데이터 Life-Cycle 상에서 확인한 후, 이를 활용하여 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하고자 한다.
제안 방법
Life-Cycle은 소리 데이터가 수집되어 관리 및 사용되는 전 과정을 의미하며 수집, 저장, 처리, 분석, 응용의 다섯 단계로 구분한다. Life-Cycle에 기반하여 식별한 소리 데이터 요소 기술 중 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 시 필요한 요소 기술을 선별한다. 사례 연구를 통해 소리 데이터의 수집, 저장, 처리, 분석, 응용 단계에서 적절한 기술과 방법을 적용한다면 효율적인 오디오 포렌식이 가능함을 확인한다.
1과 같이 제시한다. Life-Cycle 기반의 접근은 기존 제안된 빅데이터 처리 과정인 수집, 저장, 처리, 분석, 표현 등[6]에 기초하여 소리 데이터의 특성에 맞게 Life-Cycle을 소리 데이터가 수집되어 관리 및 사용되는 전 과정을 의미할 수 있도록 수집, 저장, 처리, 분석, 응용의 다섯 단계로 재정의하였다. 재정의한 Life-Cycle을 기반으로 소리 데이터의 요소 기술을 식별하여 소리 데이터 분석이 필요한 문제를 해결하는 과정을 효과적으로 설명할 수 있도록 한다.
이러한 특징 추출과 학습 모델 선정의 과정을 통해 데이터의 특징을 파악하고 유용한 정보를 추출하여 분석을 수행한다. 이를 통해 데이터의 의미를 해석하고 해결해야 하는 사례에 적합한 학습 모델을 선정하여 다양한 분야에서 의사결정과 문제 해결에 활용할 수 있다.
본 장에서는 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 사용되는 디지털 포렌식 기술을 확인한 후, 디지털 포렌식 기술에 활용되는 소리 데이터 요소 기술을 식별하고자 한다. 디지털 포렌식 기술은 식별 기술, 복구 기술, 검색 기술, 수집 기술, 분석 기술로 정의하였으며 해당 기술별로 해당하는 소리 데이터 요소 기술을 확인한 후, Fig.2와 같이 표현하였다.
또한, 오디오 소스의 위치를 추정하는 기술을 개발하기 위해서는 오디오 소스의 위치에서 소리 데이터를 수집하여 라벨을 지정하여 저장한 후, 해당 소리 데이터의 특징을 추출한다. 추출한 특성을 전력 공급에 대한 지리적 환경 정보를 담고 있는 ENF(Electric Network Frequency) 데이터베이스와 비교하여 오디오 소스 위치 추정 기술 개발에 활용할 수 있다.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서는 화자 식별을 하기 위해 노이즈 제거 기술을 활용하여 음성 명료도 및 가청도를 향상한다. 음성 명료도 및 가청도를 향상한 후, 특징 추출 기술을 활용하여 소리 데이터를 추출한다. 추출한 소리 데이터를 바탕으로 응용 단계의 음성 텍스트 변환 기술, 화자 분할 기술 등을 활용하여 화자를 식별할 수 있다.
일반적으로 공개 데이터 세트는 표준화된 형식으로 저장되고, 연구자나 분석가들이 쉽게 활용할 수 있도록 설계된다. 따라서 본 실험의 저장 단계에서는 응급 상황 음성/음향 공개 데이터 세트와 도시 소리 데이터 세트의 구조와 특성을 정확히 파악하고, 이를 실험의 목적과 방향성에 맞게 준비하고 활용한다.
분석 단계는 앞서 처리된 데이터의 특성을 바탕으로 특징을 추출하고 최적화된 모델링 전략을 도출하는 과정이다. 먼저 데이터의 특징을 추출하고 이를 바탕으로 가장 적합한 모델 구조와 학습 방법을 선택하고 구축된 소리 데이터를 통해 모델을 업데이트 한다. 그리고 모델이 실제 환경에서 얼마나 잘 작동하는지를 측정하기 위해 정확도, 정밀도, 재현율 등의 다양한 지표를 이용하여 성능 평가를 수행할 수 있으며 모델의 전반적인 구조나 학습 전략을 수정하는 데에 활용될 수 있다.
또한, 원본 데이터를 직접 활용하면 변환 과정에서의 정보 손실을 최소화 할 수 있다. 이와 더불어 최신 딥러닝 모델은 성능 고도화를 위해 정보 손실을 최소화하며 원본 데이터에서 모델이 다양한 특징을 스스로 학습할 수 있도록 설계되고 있기에 원본 Waveform 데이터를 활용하여 분석을 진행하였다.
각 WAV 파일은 다양한 소리의 길이를 가지고 있어, 처리와 학습에 있어 일관성이 부족할 수 있다. 이러한 변동성을 해결하기 위해 본 실험에서는 Zero Padding, Time Stretching 기술을 사용하여 모든 소리 데이터의 길이를 고정된 값인 5초로 통일시키는 작업을 진행한다. 이렇게 함으로써 배치 처리를 통한 효율적인 학습이 가능하게 되고, 모델의 성능 변동성을 최소화할 수 있다.
시퀀스 데이터는 시간 순서에 따라 배열된 데이터 요소들로 구성되며, 소리 데이터의 경우 시간에 따라 변화하는 소리의 리듬, 강도, 주파수 등을 포함하고 있어 소리 데이터를 분석하는 경우에는 소리 데이터의 시퀀스적 특성을 고려해야 할 필요가 있다. 이러한 특성을 반영하여 학습 모델로 BEATs (Bidirectional Encoder represenation from Audio Transformers)를 선정하였으며 이를 활용하여 소리 데이터를 분류할 수 있는 모델을 설계하였다.
또한 해당 논문에서는 효과적으로 설계된 self-supervised pre-training 방식을 통해 얻은 사전 학습된 모델을 활용하면, fine-tuning 과정에서도 제한된 양의 데이터로 충분한 학습 효과를 볼 수 있다고 강조한다. 이러한 전이 학습 전략은 소리 데이터 분석의 실용적 측면에서 큰 장점을 가질 수 있기에 본 실험에서는 공개된 BEATs 아키텍처의 사전 학습 모델의 가중치를 기반으로 모델링을 수행한다.
본 실험에서의 모델은 데이터 세트의 구성에 따라 40개의 유형을 학습하여 각각을 식별할 수 있도록 설계된다. 따라서 모델은 소리 데이터 샘플을 입력받아 그 샘플이 어떤 소리 유형에 속하는지를 40개의 확률 값으로 출력한다.
사례 연구를 통해 응급상황 탐지 문제를 소리 데이터를 활용하여 해결하고자 본 연구에서 제시한 Life-cycle 기반으로 식별한 소리 데이터 요소 기술을 활용하여 분석을 진행하였다. 분석을 통해 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하였다.
사례 연구를 통해 응급상황 탐지 문제를 소리 데이터를 활용하여 해결하고자 본 연구에서 제시한 Life-cycle 기반으로 식별한 소리 데이터 요소 기술을 활용하여 분석을 진행하였다. 분석을 통해 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하였다. 이는 오디오 포렌식 과정에서 원하는 상황의 오디오 데이터를 찾는 데에 활용될 수 있다.
본 연구는 소리 데이터의 요소 기술을 수집, 저장, 처리, 분석, 응용 단계로 분류한 Life-Cycle에 맞게 식별하였다. 또한 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 필요한 기술을 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술과 매핑하였다.
또한 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 필요한 기술을 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술과 매핑하였다. 이를 바탕으로 응급상황을 탐지하는 문제를 해결하기 위해 소리 데이터를 대상으로 하는 디지털 포렌식 기술을 개발하는 과정을 사례 연구를 통해 제시하였다. 해당 사례 연구를 통해 본 연구에서 식별한 Life-Cycle 기반 소리 데이터 요소 기술을 분석에 활용하게 된다면 응급상황 탐지와 같은 실제 상황의 문제를 해결할 수 있음을 확인하였다.
대상 데이터
수집 단계는 데이터 분석 모델을 구축하는 데 활용되는 데이터를 확보하는 단계이다. 본 실험에서는 응급상황을 탐지하는 모델을 구축하기 위해 데이터 수집 단계에서 공개 데이터 세트를 활용한다.
한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼(AI-Hub)에서 제공하는 응급상황 소리 데이터와 도시 소리 데이터 세트를 공개 데이터 세트로 활용하였다[13][14]. 본 실험에서 활용하는 데이터 세트는 14종의 응급상황 관련 소리 데이터, 24종의 도시 소리/소음 관련 음향 데이터, 실내 소리 데이터, 그리고 실외 소리 데이터로 구성되어 있다.
한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼(AI-Hub)에서 제공하는 응급상황 소리 데이터와 도시 소리 데이터 세트를 공개 데이터 세트로 활용하였다[13][14]. 본 실험에서 활용하는 데이터 세트는 14종의 응급상황 관련 소리 데이터, 24종의 도시 소리/소음 관련 음향 데이터, 실내 소리 데이터, 그리고 실외 소리 데이터로 구성되어 있다. 구체적인 데이터 세트의 구성은 Fig.
각 WAV 파일의 재생 길이는 각각 다르며, 대략 3~15초 사이의 분포를 가지는 것으로 추정된다. Training 폴더에 할당된 학습 데이터의 개수는 441,519개이며 Validation 폴더에 할당된 검증 데이터 개수는 55,882개이다.
이와 유사하게 도시 소리 데이터는 24종의 도시 소리/소음 관련 음향 데이터를 포함하고 있으며 교통 소음, 생활소음, 사업장소음 3개의 대분류와 자동차, 이륜자동차, 항공기, 열차, 충격, 가전, 동물, 도구, 공사장, 공장 10개의 중분류, 그리고 구체적인 상황 및 환경을 나타내는 소분류로 표현되며 44.1 kHz의 WAV 포맷 파일과 각 파일에 대응하는 JSON 파일 쌍으로 구성되어 있다. 하지만 705kbps 이상의 높은 비트레이트로 기록되어 보다 고품질의 데이터로 형성되어 있다.
도시 소리 데이터도 마찬가지로 각 WAV 파일의 재생 길이는 각각 다르며, 대략 3~15초 사이의 분포를 가지는 것으로 추정된다. Trainig 폴더에 할당된 학습 데이터의 개수는 61,778개이며, Validation 폴더에 할당된 검증 데이터 개수는 6,015개다.
하지만, 본 사례 연구에서 활용하는 AI-Hub에 공개된 응급 상황 데이터는 이미 다양한 상황과 환경에서 수집된 데이터로 구성되어 있기에 신뢰성이 높아 분석에 적합하다. 따라서, 본 사례 연구에서는 처리 단계를 추가로 거치치 않고 AI-Hub에서 제공된 데이터를 분석에 활용하였다.
본 실험에서는 소리 데이터의 특징 추출에 활용되는 Mel-Spectrogram이나 MFCC를 분석에 사용하는 대신 원본 Waveform 데이터를 직접 소리 데이터 분석에 사용한다. Waveform 데이터는 복잡한 변환을 거치지 않은 소리의 원래 형태로, 데이터에 대한 직관적인 이해가 가능하다.
본 연구에서 사용하는 응급 상황 공개 데이터 세트에서 제공하고 있는 원본 WAV 파일은 44,100Hz의 sampling rate를 가지고 있어, 디테일한 소리 데이터의 정보를 포함하고 있다. 그러나 이렇게 높은 sampling rate는 모델 학습에 있어 많은 시간과 메모리를 소요시킬 수 있다.
본 실험에서 사용된 모델은 61,897개의 학습되지 않은 검증 데이터를 통해 평가되었다. 전체적인 성능 지표로는 정확도와 f1-score를 기반으로 검증하였고, 높은 정확도인 99.
데이터처리
위의 분석 결과를 바탕으로 소리 데이터 기반 응급상황 탐지가 가능함을 확인하였다. 실험에서는 다양한 지표를 기반으로 모델의 성능을 평가하였고, 매우 높은 정확도와 f1-score를 달성하였다. 해당 모델을 활용하여 응급상황 검색 기술을 개발한다면, 소리 데이터를 포함하고 있는 증거 중 응급상황과 관련된 소리 데이터 검색이 가능하여 효율적인 포렌식이 가능할 것이다.
이론/모형
Hand-crafted 피쳐 기반의 데이터 처리는 사전에 정의된 피쳐를 활용하여 모델을 학습시키는 방법이다. 소리의 비선형적이고 복잡한 특성을 모델링하기 위해서는 대량의 소리 데이터에서 효과적으로 유용한 특징을 자동으로 학습할 수 있는 CNN(Convolutional Neural Network)을 사용한다. 시간적으로 연속적인 소리 데이터의 특성을 모델링하기 위해서는 시퀀스 데이터를 처리하는데에 강점을 가지고 소리의 동적인 특성을 적절히 학습하여 모델의 예측 성능을 향상 시킬 수 있는 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과 같은 모델을 사용한다.
소리의 비선형적이고 복잡한 특성을 모델링하기 위해서는 대량의 소리 데이터에서 효과적으로 유용한 특징을 자동으로 학습할 수 있는 CNN(Convolutional Neural Network)을 사용한다. 시간적으로 연속적인 소리 데이터의 특성을 모델링하기 위해서는 시퀀스 데이터를 처리하는데에 강점을 가지고 소리의 동적인 특성을 적절히 학습하여 모델의 예측 성능을 향상 시킬 수 있는 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과 같은 모델을 사용한다.
성능/효과
따라서, 처리 단계에서는 데이터를 분석에 적합한 형태로 변환하는 전처리 작업을 중점적으로 수행한다. 하지만, 본 사례 연구에서 활용하는 AI-Hub에 공개된 응급 상황 데이터는 이미 다양한 상황과 환경에서 수집된 데이터로 구성되어 있기에 신뢰성이 높아 분석에 적합하다. 따라서, 본 사례 연구에서는 처리 단계를 추가로 거치치 않고 AI-Hub에서 제공된 데이터를 분석에 활용하였다.
BEATs는 2022년 12월에 공개된 Transformers 기반의 최신 아키텍처로 Google AudioSet과 같은 소리 데이터 분류 분야에서 가장 광범위하게 활용되는 데이터 세트에서 최상의 성능을 보여주었다. 또한 해당 논문에서는 효과적으로 설계된 self-supervised pre-training 방식을 통해 얻은 사전 학습된 모델을 활용하면, fine-tuning 과정에서도 제한된 양의 데이터로 충분한 학습 효과를 볼 수 있다고 강조한다. 이러한 전이 학습 전략은 소리 데이터 분석의 실용적 측면에서 큰 장점을 가질 수 있기에 본 실험에서는 공개된 BEATs 아키텍처의 사전 학습 모델의 가중치를 기반으로 모델링을 수행한다.
본 실험에서 사용된 모델은 61,897개의 학습되지 않은 검증 데이터를 통해 평가되었다. 전체적인 성능 지표로는 정확도와 f1-score를 기반으로 검증하였고, 높은 정확도인 99.66%와 98.99%의 f1-score를 달성하였다.
위의 분석 결과를 바탕으로 소리 데이터 기반 응급상황 탐지가 가능함을 확인하였다. 실험에서는 다양한 지표를 기반으로 모델의 성능을 평가하였고, 매우 높은 정확도와 f1-score를 달성하였다.
본 연구는 소리 데이터의 요소 기술을 수집, 저장, 처리, 분석, 응용 단계로 분류한 Life-Cycle에 맞게 식별하였다. 또한 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 필요한 기술을 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술과 매핑하였다. 이를 바탕으로 응급상황을 탐지하는 문제를 해결하기 위해 소리 데이터를 대상으로 하는 디지털 포렌식 기술을 개발하는 과정을 사례 연구를 통해 제시하였다.
이를 바탕으로 응급상황을 탐지하는 문제를 해결하기 위해 소리 데이터를 대상으로 하는 디지털 포렌식 기술을 개발하는 과정을 사례 연구를 통해 제시하였다. 해당 사례 연구를 통해 본 연구에서 식별한 Life-Cycle 기반 소리 데이터 요소 기술을 분석에 활용하게 된다면 응급상황 탐지와 같은 실제 상황의 문제를 해결할 수 있음을 확인하였다. 이와 같이 디지털 포렌식 과정에서 소리 데이터의 분석이 필요한 경우를 미리 식별하고 해당 케이스에 맞는 기술을 수집, 저장, 처리, 분석, 응용 단계에서의 적절한 요소 기술을 활용하여 개발한다면 정확하고 효율적인 오디오 포렌식을 실현할 수 있다.
후속연구
Life-Cycle에 기반하여 식별한 소리 데이터 요소 기술 중 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 시 필요한 요소 기술을 선별한다. 사례 연구를 통해 소리 데이터의 수집, 저장, 처리, 분석, 응용 단계에서 적절한 기술과 방법을 적용한다면 효율적인 오디오 포렌식이 가능함을 확인한다.
공개 데이터 세트는 소리 데이터 인식 기술, 소리 데이터 분리 기술, 음성 텍스트 변환 기술, 노이즈 제거 기술, 음성 및 음향 합성 기술 등 다양한 소리 데이터 기술에 매우 유용하게 활용될 수 있다. 공개 데이터 세트를 활용하여 음성을 텍스트로 변환하거나 분리하는 등 다양한 응용 프로그램을 개발하고, 소리 데이터를 인식하여 이벤트를 탐지하는 데 도움을 줄 수 있다.
또한, 오디오 소스의 위치를 추정하는 기술을 개발하기 위해서는 오디오 소스의 위치에서 소리 데이터를 수집하여 라벨을 지정하여 저장한 후, 해당 소리 데이터의 특징을 추출한다. 추출한 특성을 전력 공급에 대한 지리적 환경 정보를 담고 있는 ENF(Electric Network Frequency) 데이터베이스와 비교하여 오디오 소스 위치 추정 기술 개발에 활용할 수 있다.
먼저 데이터의 특징을 추출하고 이를 바탕으로 가장 적합한 모델 구조와 학습 방법을 선택하고 구축된 소리 데이터를 통해 모델을 업데이트 한다. 그리고 모델이 실제 환경에서 얼마나 잘 작동하는지를 측정하기 위해 정확도, 정밀도, 재현율 등의 다양한 지표를 이용하여 성능 평가를 수행할 수 있으며 모델의 전반적인 구조나 학습 전략을 수정하는 데에 활용될 수 있다.
실험에서는 다양한 지표를 기반으로 모델의 성능을 평가하였고, 매우 높은 정확도와 f1-score를 달성하였다. 해당 모델을 활용하여 응급상황 검색 기술을 개발한다면, 소리 데이터를 포함하고 있는 증거 중 응급상황과 관련된 소리 데이터 검색이 가능하여 효율적인 포렌식이 가능할 것이다.
이는 오디오 포렌식 과정에서 원하는 상황의 오디오 데이터를 찾는 데에 활용될 수 있다. 이처럼 디지털 증거 내에서 오디오 데이터를 수집, 분석 및 평가하기 위해 본 연구에서 제시한 Life-Cycle에 따라 목적에 맞는 기술을 개발하고 해당 기술을 Autopsy API와 같은 포렌식 도구와 함께 활용하게 된다면 효율적인 오디오 포렌식을 가능하게 할 것이다.
해당 사례 연구를 통해 본 연구에서 식별한 Life-Cycle 기반 소리 데이터 요소 기술을 분석에 활용하게 된다면 응급상황 탐지와 같은 실제 상황의 문제를 해결할 수 있음을 확인하였다. 이와 같이 디지털 포렌식 과정에서 소리 데이터의 분석이 필요한 경우를 미리 식별하고 해당 케이스에 맞는 기술을 수집, 저장, 처리, 분석, 응용 단계에서의 적절한 요소 기술을 활용하여 개발한다면 정확하고 효율적인 오디오 포렌식을 실현할 수 있다. 사례 연구를 통해 현대의 소리 데이터 분석 기법의 능력을 입증하였지만, 실제 복잡한 환경에서의 사례 연구에서 제시한 방법을 그대로 적용하는 과정에 있어서는 주의가 필요하다.
각 소리 데이터는 높은 품질의 포맷으로 제공되지만, 그 내용이 실제 상황에서 녹음되는 대신 작업자에 의해 연출되거나 합성되어 생성된 것이다. 따라서 이를 기반으로 구축한 모델은 현실 세계의 복잡성을 완전히 반영하지 못할 수 있으므로 실험 결과로써 특정 조건에서의 성능은 나타낼 수 있으나, 일반화를 하기에는 한계가 있다. 이러한 한계를 극복하기 위해서는 다양한 환경에서의 데이터 수집이 선행되어야 한다.
이에 자연 환경, 도시 환경, 실내 환경 등 다양한 환경에서 소리 데이터를 수집하여 모델의 일반화 능력을 향상시키는 향후 연구를 진행할 것이다. 또한, 소리 데이터 분석 기법에 대한 체계적인 정의화 표준화를 추진하기 위해 소리 데이터 분석에 활용되는 알고리즘과 모델의 개선과 연구를 진행할 계획이다.
이에 자연 환경, 도시 환경, 실내 환경 등 다양한 환경에서 소리 데이터를 수집하여 모델의 일반화 능력을 향상시키는 향후 연구를 진행할 것이다. 또한, 소리 데이터 분석 기법에 대한 체계적인 정의화 표준화를 추진하기 위해 소리 데이터 분석에 활용되는 알고리즘과 모델의 개선과 연구를 진행할 계획이다.
참고문헌 (14)
Z. Ali, M. Imran and M. Alsulaiman,"An Automatic Digital Audio Authentication/Forensics System,"?IEEE Access, vol. 5, pp. 2994-3007, 2017.
Watkinson, John. "An Introduction to digital audio," Taylor&Francis, 2002.
Doowon Jeong, "Introduction to Digital Forensics," Dongguk University Press, Seoul, 2023
Doowon Jeong, "Digital Forensics Framework Based on Digital?Evidence," Ph.D.diss., University of?Korea, Seoul, Feb. 2019.
Zakariah, Mohammed, Muhammad Khurram Khan, and Hafiz Malik,"Digital multimedia audio forensics:past, present and future," Multimedia tools and applications, vol. 77, pp.1009-1040, Jan, 2018
Bok, Gyeong-Su and Yu, Jae-Su, "Big Data in the Fourth Industrial?Revolution," Communications of the?Korean Institute of Information?Scientists and Engineers, 35(6), pp.?29-39, June. 2017.
AlZoubi, O., Tawalbeh, S. K., and?Mohammad, A. S., "Affect detection?from arabic tweets using ensemble?and deep learning techniques,"?Journal of King Saud University Computer and Information Sciences,?vol. 34, no. 6, pp. 2529-2539, June.?2022.
Nakano, F. K., Cerri, R., and Vens,?C., "Active learning for hierarchical?multi-label classification," Data?Mining and Knowledge Discovery, vol.?34, pp. 1496-1530, July. 2020.
S. Boll, "Suppression of acoustic noise?in speech using spectral subtraction,"?IEEE Transactions on Acoustics,?Speech, and Signal Processing, vol.?27, no. 2, pp 113-120, April. 1979.
Benesty, J., Makino, S., Chen, J.,?Benesty, J., Chen, J., Huang, Y., and?Doclo, S., "Study of the Wiener filter?for noise reduction," Speech?enhancement, pp. 9-41, Mar. 2005.
Sardy, S., Tseng, P., and Bruce, A."Robust wavelet denoising," IEEETransactions on Signal Processing, vol. 49, no. 6, pp. 1146-1152. June.2001.
Bachu, R. G., Kopparthi, S., Adapa,B., and Barkana, B. D., "Separation of voiced and unvoiced usingzerocrossing rate and energy of the speech signal," American Society for Engineering Education, pp. 1-7, June. 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.