[논문]국가기록원 음성 기록물의 복원과 분석

오세진; 강홍구

doi:10.7776/ask.2013.32.3.269

국가기록원 음성 기록물의 복원과 분석
Restoration for Speech Records Managed by the National Archives of Korea 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.32 no.3, 2013년, pp.269 - 278

오세진 (연세대학교 전기전자공학과) , 강홍구 (연세대학교 전기전자공학과)

초록
AI-Helper

국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 4가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다. 그 결과 음량은 음성 존재구간에 대해서 -26 dBov로 조정했고 SNR은 10 dB이상 상승하였다. 특히 기존에는 음성이 훼손된 부분을 순차적으로 청취하여 개별적으로 문제를 해결해야 했기 때문에 방대한 자료를 복원하기는 불가능 했지만 자동 복원 알고리즘을 도입하여 보다 효율적인 방식으로 복원할 수 있게 되었다.

Abstract ▼ AI-Helper

The speech recording of the National Archives of Korea contains very important traces which represent modern times of Korea. But the way to be recorded by analogue is easily contaminated as time goes by. So it has to be digitalized for management and services. Consequently, restoration method of distorted speech is needed. We propose the four classes for each distortion kind and apply restoration algorithms for the cases of speech level, stationary noise and abrupt noise. As a result, speech volume adjusts to -26 dBov for only on the speech region and SNR improves above 10dB. Especially, conventional way to remove the noise is almost impossible because we need to listen to all of them but it can be more effective by adaptation of auto restoration algorithm.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

소실 신호는 음성 부분의 소리가 작지 않고 정상 잡음 또한 많이 포함되어 있지 않기 때문에 지금까지 설명한 방법으로는 구분해 낼 수 없는 문제점을 지니고 있다. 그렇기 때문에 전체 에너지와 1 kHz 아래의 저대역 밴드의 에너지의 비로 소실 음성을 검출해 내는 방법을 제안한다.
국가기록원 음성자료는 우리나라의 근현대부터 현재까지의 중요하고 의미 있는 음성 자료들을 모아 놓은 것으로 이것을 분석하고 복원하는 것은 매우 큰 의의가 있다. 기존의 연구들은 특정한 잡음에 대한 실험을 하였으나,^[16,17] 본 논문은 축적된 매우 방대한 양의 데이터베이스에 대한 훼손 정도 분석과 복원을 한다.
본 논문은 주파수 축에서는 고대역 에너지를 이용하고 시간 축에서는 2차 미분 계수의 단구간 에너지를 이용한 돌발 잡음 검출방법을 사용하였다.^[12]
국가기록원 음성 기록물은 우리나라의 근현대사를 보존하는 기록물로 매우 중요한 성격을 띤다. 본 논문은 훼손된 음성 기록물의 신호 특성을 기준으로 크게 네 가지의 카테고리를 만들고, 각각의 카테고리에 맞는 검출 방법을 이용하여 구분하였다. 또한 음량, 정상 잡음, 돌발 잡음을 복원하였으며 이는 앞으로 음성 기록물을 관리하고 서비스 하는데 도움이 될 것이다.
소실 파일은 시작지점에서 30초 떨어진 지점에서 30초 동안의 구간에서의 에너지 비율을 측정하여 검출하였다. 전체 파일에서 899개가 소실 파일로 검출되었다.
pitch의 주기를 찾는 프레임 단위 M은 일반적으로 약 5 ms이다. 위의 식에서 피치의 주기를 자연수가 아닌 소수 값을 가지도록 하기 위해서 주어진 신호를 3배로 interpolation한 신호에 상관도를 구하여 더 정확하게 pitch 모델링을 하였다.^[13]
여기서 계산된 잡음의 파워 스펙트럼 정보는 신호 대 잡음비 추정기에 사용되고 여기서 계산된 선행 신호 대 잡음비, 사후 신호 대 잡음비 등의 정보는 이득 추정기에서 사용된다. 이 때, 신호 대 잡음비 추정기에서 추정된 선행 신호 대 잡음비(a priori SNR)값을 가지고 정상 잡음이 얼마나 포함 되어 있는지를 측정하였다.
일반적으로 돌발 잡음은 고대역에 자리 잡고 있기 때문에 본 논문에서는 15k에서 17k대역의 에너지를 파라미터로 사용하였다. 물론 대부분의 음성 자료가 48k나 혹은 44.

대상 데이터

실험에 사용한 데이터베이스는 국가기록원에서 현재 소장하고 있는 데이터로, 15,735개의 음성 파일이며 전체가 약 16000시간의 재생 시간을 가지고 있는 방대한 데이터베이스이다. 대부분이 음성만을 포함하고 있는 것이 특징이다.

이론/모형

배경 신호를 추정하고 그보다 급격하게 값이 튀는 부분을 찾기 위해서 RMF(Recursive Median Filter)를 이용한다. 배경 신호의 2차 미분 계수의 단구간 에너지 b[n]은 다음과 같다.
음성 신호는 정상 잡음이 더해진 형태로 나타나기 때문에 음성의 크기가 조절 된 이후에는 정상 잡음의 크기 또한 함께 변화하는 문제가 있다. 이 논문에서는 정상 잡음의 제거를 위해 MMSE 예측기를 사용한 OM-LSA(Optimally Modified Log-Spectral Amplitude) 방식을 도입하였다.^[2]잡음 추정기는 음질 향상 시스템의 전체 성능을 결정하는 핵심부분으로 잡음이 음성에 비해 상대적으로 느리게 변화한다는 가정에 근거하여, 일반적으로 음성이 존재하지 않는 구간에서 측정된 신호의 평균 파워를 잡음의 파워 스펙트럼으로 추정한다.

성능/효과

하단 그래프는 해당 프레임의 에너지 비를 나타낸 것으로 정상 신호와 소실 신호의 경향이 차이가 나는 것을 확인할 수 있다. 굵은 선으로 표시된 부분이 음성이 있는 부분으로 이 부분에서 에너지 비의 평균을 보면 정상은 26%이고 소실은 45%로 소실이 매우 높은 것을 확인 할 수 있다. 소실 음성 자료들의 평균값은 44%로 기준 값 40%가 넘는 파일은 소실로 분류하였다.
돌발 잡음은 전체 파일에 대해서 검색을 해야 정확한 자료를 얻을 수 있지만 알고리즘을 모든 대상에 대해서 적용하면 시간이 많이 걸리기 때문에 처음에서 30초 떨어진 지점에서 10분 동안의 구간에서 돌발잡음을 검출하였다.
전체 파일 중에서 1,580개의 파일에서 돌발 잡음이 검출 되었으며 0.2초보다도 짧은 돌발 잡음들이 41%를 차지하고 있었다. 특정 구간에서만 찾은 것이기 때문에 이 자료는 참고 수치로 생각하는 것이 바람직하다.
소실 파일은 시작지점에서 30초 떨어진 지점에서 30초 동안의 구간에서의 에너지 비율을 측정하여 검출하였다. 전체 파일에서 899개가 소실 파일로 검출되었다.

후속연구

본 논문은 훼손된 음성 기록물의 신호 특성을 기준으로 크게 네 가지의 카테고리를 만들고, 각각의 카테고리에 맞는 검출 방법을 이용하여 구분하였다. 또한 음량, 정상 잡음, 돌발 잡음을 복원하였으며 이는 앞으로 음성 기록물을 관리하고 서비스 하는데 도움이 될 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	디지털 방식으로 저장된 데이터의 장점은?	지난 백여 년간 음성 및 오디오 데이터를 효과적으로 저장하기 위한 기술은 매우 급격히 발전되어왔다. 특히, 디지털 방식으로 저장된 데이터는 아날로그 방식과는 달리 시간에 따른 열화 없이 반영구적으로 보존할 수 있으므로 그만큼 보관 및 관리하는데 드는 노력이 현저하게 줄어들며 언제든 처음 녹음 했을 때의 음질을 유지할 수 있다. 하지만 아날로그 방식은 시간이 지남에 따라 녹음된 LP판이나 자기테이프의 변형에 따른 데이터의 손실을 피할 수 없으며, 반복적으로 재생 할 경우에도 저장 매체의 변형이 따를 수밖에 없는 한계점을 지니고 있다.
	아날로그로 녹음된 방식의 단점은?	국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 4가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다.
	아날로그로 녹음된 방식의 단점은?	특히, 디지털 방식으로 저장된 데이터는 아날로그 방식과는 달리 시간에 따른 열화 없이 반영구적으로 보존할 수 있으므로 그만큼 보관 및 관리하는데 드는 노력이 현저하게 줄어들며 언제든 처음 녹음 했을 때의 음질을 유지할 수 있다. 하지만 아날로그 방식은 시간이 지남에 따라 녹음된 LP판이나 자기테이프의 변형에 따른 데이터의 손실을 피할 수 없으며, 반복적으로 재생 할 경우에도 저장 매체의 변형이 따를 수밖에 없는 한계점을 지니고 있다.

참고문헌 (17)

iZotopeRX, audio repair toolkit http://www.izotope.com/ products/audio/rx/.
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. on Acoust., Speech and Signal Process. 33, 443-445 (1985).

상세보기
I. Cohen and B. Berdugo, "Speech enhancement for nonstationary noise environments," Signal Process., 81, 2401-4218, (2001).
S. V. Vaseghi, Advanced digital signal processing and noise reduction, 2nd ed. (John Wiley & Sons, UK, 2000).
T. Kasparis and J. Lane, "Suppression of impulsive disturbances from audio signals," Electronics letters, 29, 1926-1927 (1993).

상세보기
A. J. Efron and H. Jeen, "Detection in impulsive noise based on robust whitening," IEEE Trans. on Signal Process.42, 1572-1576 (1994).

상세보기
S. R. Kim and A. Efron, "Adaptive robust impulse noise filtering," IEEE Trans. on Signal Process.43, 1855-1866 (1995).

상세보기
I. Kauppinen, "Methods for detecting impulsive noise in speech and audio signals," in Proc. IEEE Int Conf. on Digital Signal Process.2, 967-970 (2002).
T. F. Quatieri, Discrete-time speech signal processing, (Prentice Hall, New Jersey, 2001).
J. Beh, K. Kim and H. Ko, "Noise estimation for robust speech enhancement in transient noise environment," in Proc. KSCSP 2007, 24, 35-36 ( 2007).
ITU-T, ITU-T recommendation P. 56, ITU-T, 2011.
M. S. Kim, H. S. Sin, H. G. Kang, "Time-Frequency Domain Impulsive Noise Detection System in Speech Signal" (in Korean), J. Acoust. Soc. Kr. Suppl. 2(s) 30, 73-79 (2011).

원문보기 상세보기
ITU-T, ITU-T recommendation G. 729, ITU-T, 1996.
A. M. Kondoz, Digital speech-coding for low bit rate communication systems, (John wiley & sons, England, 1994).
M. Choi and H. Kang, "Transient noise reduction in speech signal with a modified long-term predictor," EURASIP Journal on Advances in Signal Processing (2011).
Y. H. Son, Y. S. Park, H. S. Ahn, S. M. Lee, "An Improved Speech Absence Probability Estimation based on Environmental Noise Classification" (in Korean), J. Acoust. Soc. Kr. Suppl. 7(s) 30, 383-389 (2011).

원문보기 상세보기
Y. G. Kim, H. J. Song, H. S. Kim, "Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments" (in Korean), J. Acoust. Soc. Kr. Suppl. 6(s) 28, 566-571 (2009).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증