휴대폰에서 사용하는 대화내용을 녹음하거나 음성으로 메모를 남기는 경우가 있는데 범죄의 은폐나 사용자의 실수로 중요한 음성 데이터를 삭제하는 경우가 있다. 음성 데이터는 어떤 사실에 대한 증거로써 영향력이 강하기 때문에 포렌식 조사를 위해서도 삭제된 음성 데이터를 복구해야 한다. 데이터가 조각나기 쉬운 플래시 메모리에 데이터를 저장하는 휴대폰의 특성상 음성 데이터를 복구하기 어렵다. 하지만 음성 데이터를 특정할 수 있는 패턴이 있다면 이 패턴으로 이미지를 조사하여 음성 데이터를 일정 이상 복원할 수 있다. 음성 데이터에는 여러 종류가 있고, 본 논문에서는 퀄컴의 QCP 파일 포맷에서 사용하는 EVRC, AMR코덱에 대하여 데이터를 복구할 수 있는 방안을 제안한다.
휴대폰에서 사용하는 대화내용을 녹음하거나 음성으로 메모를 남기는 경우가 있는데 범죄의 은폐나 사용자의 실수로 중요한 음성 데이터를 삭제하는 경우가 있다. 음성 데이터는 어떤 사실에 대한 증거로써 영향력이 강하기 때문에 포렌식 조사를 위해서도 삭제된 음성 데이터를 복구해야 한다. 데이터가 조각나기 쉬운 플래시 메모리에 데이터를 저장하는 휴대폰의 특성상 음성 데이터를 복구하기 어렵다. 하지만 음성 데이터를 특정할 수 있는 패턴이 있다면 이 패턴으로 이미지를 조사하여 음성 데이터를 일정 이상 복원할 수 있다. 음성 데이터에는 여러 종류가 있고, 본 논문에서는 퀄컴의 QCP 파일 포맷에서 사용하는 EVRC, AMR 코덱에 대하여 데이터를 복구할 수 있는 방안을 제안한다.
People leave voicemails or record phone conversations in their daily cell phone use. Sometimes important voice data is deleted by the user accidently, or purposely to cover up criminal activity. In these cases, deleted voice data must be able to be recovered for forensics, since the voice data can b...
People leave voicemails or record phone conversations in their daily cell phone use. Sometimes important voice data is deleted by the user accidently, or purposely to cover up criminal activity. In these cases, deleted voice data must be able to be recovered for forensics, since the voice data can be used as evidence in a criminal case. Because cell phones store data that is easily fragmented in flash memory, voice data recovery is very difficult. However, if there are identifiable patterns for the deleted voice data, we can recover a significant amount of it by researching images of it. There are several types of voice data, such as QCP, AMR, MP4, etc.. This study researches the data recovery solutions for EVRC codec and AMR codec in QCP file, Qualcumm's voice data format in cell phone.
People leave voicemails or record phone conversations in their daily cell phone use. Sometimes important voice data is deleted by the user accidently, or purposely to cover up criminal activity. In these cases, deleted voice data must be able to be recovered for forensics, since the voice data can be used as evidence in a criminal case. Because cell phones store data that is easily fragmented in flash memory, voice data recovery is very difficult. However, if there are identifiable patterns for the deleted voice data, we can recover a significant amount of it by researching images of it. There are several types of voice data, such as QCP, AMR, MP4, etc.. This study researches the data recovery solutions for EVRC codec and AMR codec in QCP file, Qualcumm's voice data format in cell phone.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
많은 음성 파일은 사람이 유효성을 검증해야 하는데 그렇게 하기에는 비효율적이다. 따라서 본 논문에서는 유효성 검사의 현실성을 고려하여 발견된 음성 파일의 헤더에 음성 패턴을 연결하는 방식을 연구하였다.
본 논문에서는 삭제되어 저장 위치를 알 수 없고, 데이터가 조각나 카빙이 어려운 음성 파일에 대하여 음성 파일 포맷에서 데이터 프레임이 구분할 수 있는 특정한 규칙을 가지는 경우 이 것을 패턴으로 데이터를 추출하고 특정한 규칙이 부합되는 데이터를 연결하여 음성 파일을 카빙하는 방법을 제안하였다. 국내 폰을 대상으로 복구를 시도하였고 AMR 코덱으로 저장된 휴대폰에서는 파일 시스템 상의 음성이 4개가 있었고, 파일 헤더가 없는 1개의 음성 내용을 추가로 발견하였다.
본 논문에서는 음성 파일 포맷 중 퀄컴에서 제안한 QCP 파일 포맷의 특징을 이용하여 물리 이미지에서 음성을 복구하는 방법을 제안한다.
제안 방법
“RIFF”만으로는 다른 멀티 미디어 파일 포맷과 구분할 수 없기 때문에 이 파일이 QCP 파일의 헤더인지 확실히 알기 위해서는 페이지 시작에서 0x08 위치에 있는 “QLCM” 시그니처를 확인하여 현재 파일이 QCP 파일인지 확인한다.
[그림 11]은 프레임 헤더로 끝난 경우 프레임 헤더에서 필요한 프레임 데이터가 전부 다음 페이지에 나온다. 그래서 페이지의 시작에서 프레임 헤더를 찾을 때, 가능한 최대 프레임 데이터 크기에 프레임 헤더 크기를 합하여 검사한다.
따라서 음성 데이터를 올바르게 복원하기 위해서 중복되는 음성 패턴을 제거해야 한다. 추출한 패턴 파일들은 페이지 단위로 뽑을 경우 그 페이지의 크기가 크지 않다면 직접 비교하는 것이 좋고, 비교해야 할 데이터의 크기가 크다면 해쉬 함수를 이용하여 해쉬 값을 구한 후 그 값을 비교하는 방법을 사용한다.
대상 데이터
‘Page1’의 필요 크기가 12이다. 그래서 시작 크기가 12인 음성 데이터를 찾는다. ‘Page2’와 ‘Page3’은 시작 크기가 14이므로 건너뛰게 되고 ‘Page4’의 시작 크기가 12이므로 ‘Page1’ 뒤에 ‘Page4’를 붙인다.
후속연구
하지만 휴대폰의 음성 데이터들은 대부분 어떤 정보를 기록하기 위하여 메모를 남기는 것이나 누군가와 통화를 녹음하기 위한 것이 대부분이고 이런 데이터는 1명 또는 2~3명 정도의 목소리가 기록된다. 또 하나의 페이지에 들어 있는 프레임 데이터에서 음성의 특징을 찾고 이를 바탕으로 서로 연결되는 페이지를 조합하여 음성 데이터 복원의 완성도를 높이는 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
휴대폰에서 사용하는 음성 코덱에는 어떤 것들이 있는가?
이렇게 디지털 신호로 저장할 때 압축하는 방식에 따라 음질이 결정되고 이런 압축 방법을 코덱이라 한다. 휴대폰에서 사용하는 음성 코덱에는 EVRC, QCELP, AMR, SMV 등이 있다.
음성 파일은 어떤 부분들로 나뉘는가?
음성 파일은 음성 신호를 해석하여 저장하는 데이터 부분과 전체 음성 데이터를 어떻게 저장할지를 결정하는 컨테이너 부분으로 나뉜다. 컨테이너는 음성 데이터에 대한 메타 정보들을 저장하고 음성 데이터는 지정된 코덱으로 압축, 저장한다.
QCP 파일 포맷이 지원하는 코덱으로는 어떤 것들이 있는가?
QCP 파일 포맷은 퀄컴에서 제안한 포맷으로 Resource Interchange File Format(RIFF)을 기반으로 구성되어 있으며 음성 녹음을 지원하는 국내 피쳐폰에서 주로 사용한다. 자체 코덱은 없지만 다른 음성 코덱을 지원할 수 있는 컨테이너 타입으로, 지원하는 코덱은 QLEP13K, AMR, EVRC, SMV가 있다. QCP 파일 포맷은 음성을 재생하는데 필요한 정보를 저장하는 헤더와 음성 데이터를 저장하는 데이터 영역으로 구분할 수 있다.
M.I.Cohen, "Advanced Jpeg Carving", e-Forensics08: Proceedings of the 1st international conference on Forensic applications and techniques in telecom-munications, information, and multimedia and workshop, pp. 1-6 ICST(Institute for Computer Sciences Social-Informatics and Telecommunications Engineering), January 2008. ISBN 978-963-9799-19-6.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.