$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

국가기록원 음성 기록물의 복원과 분석
Restoration for Speech Records Managed by the National Archives of Korea 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.32 no.3, 2013년, pp.269 - 278  

오세진 (연세대학교 전기전자공학과) ,  강홍구 (연세대학교 전기전자공학과)

초록
AI-Helper 아이콘AI-Helper

국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 4가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다. 그 결과 음량은 음성 존재구간에 대해서 -26 dBov로 조정했고 SNR은 10 dB이상 상승하였다. 특히 기존에는 음성이 훼손된 부분을 순차적으로 청취하여 개별적으로 문제를 해결해야 했기 때문에 방대한 자료를 복원하기는 불가능 했지만 자동 복원 알고리즘을 도입하여 보다 효율적인 방식으로 복원할 수 있게 되었다.

Abstract AI-Helper 아이콘AI-Helper

The speech recording of the National Archives of Korea contains very important traces which represent modern times of Korea. But the way to be recorded by analogue is easily contaminated as time goes by. So it has to be digitalized for management and services. Consequently, restoration method of dis...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 소실 신호는 음성 부분의 소리가 작지 않고 정상 잡음 또한 많이 포함되어 있지 않기 때문에 지금까지 설명한 방법으로는 구분해 낼 수 없는 문제점을 지니고 있다. 그렇기 때문에 전체 에너지와 1 kHz 아래의 저대역 밴드의 에너지의 비로 소실 음성을 검출해 내는 방법을 제안한다
  • 국가기록원 음성자료는 우리나라의 근현대부터 현재까지의 중요하고 의미 있는 음성 자료들을 모아 놓은 것으로 이것을 분석하고 복원하는 것은 매우 큰 의의가 있다. 기존의 연구들은 특정한 잡음에 대한 실험을 하였으나,[16,17] 본 논문은 축적된 매우 방대한 양의 데이터베이스에 대한 훼손 정도 분석과 복원을 한다
  • 본 논문은 주파수 축에서는 고대역 에너지를 이용하고 시간 축에서는 2차 미분 계수의 단구간 에너지를 이용한 돌발 잡음 검출방법을 사용하였다.[12]
  • 국가기록원 음성 기록물은 우리나라의 근현대사를 보존하는 기록물로 매우 중요한 성격을 띤다. 본 논문은 훼손된 음성 기록물의 신호 특성을 기준으로 크게 네 가지의 카테고리를 만들고, 각각의 카테고리에 맞는 검출 방법을 이용하여 구분하였다. 또한 음량, 정상 잡음, 돌발 잡음을 복원하였으며 이는 앞으로 음성 기록물을 관리하고 서비스 하는데 도움이 될 것이다.
  • 소실 파일은 시작지점에서 30초 떨어진 지점에서 30초 동안의 구간에서의 에너지 비율을 측정하여 검출하였다. 전체 파일에서 899개가 소실 파일로 검출되었다.
  • pitch의 주기를 찾는 프레임 단위 M은 일반적으로 약 5 ms이다. 위의 식에서 피치의 주기를 자연수가 아닌 소수 값을 가지도록 하기 위해서 주어진 신호를 3배로 interpolation한 신호에 상관도를 구하여 더 정확하게 pitch 모델링을 하였다.[13]
  • 여기서 계산된 잡음의 파워 스펙트럼 정보는 신호 대 잡음비 추정기에 사용되고 여기서 계산된 선행 신호 대 잡음비, 사후 신호 대 잡음비 등의 정보는 이득 추정기에서 사용된다. 이 때, 신호 대 잡음비 추정기에서 추정된 선행 신호 대 잡음비(a priori SNR)값을 가지고 정상 잡음이 얼마나 포함 되어 있는지를 측정하였다
  • 일반적으로 돌발 잡음은 고대역에 자리 잡고 있기 때문에 본 논문에서는 15k에서 17k대역의 에너지를 파라미터로 사용하였다. 물론 대부분의 음성 자료가 48k나 혹은 44.

대상 데이터

  • 실험에 사용한 데이터베이스는 국가기록원에서 현재 소장하고 있는 데이터로, 15,735개의 음성 파일이며 전체가 약 16000시간의 재생 시간을 가지고 있는 방대한 데이터베이스이다. 대부분이 음성만을 포함하고 있는 것이 특징이다.

이론/모형

  • 배경 신호를 추정하고 그보다 급격하게 값이 튀는 부분을 찾기 위해서 RMF(Recursive Median Filter)를 이용한다. 배경 신호의 2차 미분 계수의 단구간 에너지 b[n]은 다음과 같다.
  • 음성 신호는 정상 잡음이 더해진 형태로 나타나기 때문에 음성의 크기가 조절 된 이후에는 정상 잡음의 크기 또한 함께 변화하는 문제가 있다. 이 논문에서는 정상 잡음의 제거를 위해 MMSE 예측기를 사용한 OM-LSA(Optimally Modified Log-Spectral Amplitude) 방식을 도입하였다.[2] 잡음 추정기는 음질 향상 시스템의 전체 성능을 결정하는 핵심부분으로 잡음이 음성에 비해 상대적으로 느리게 변화한다는 가정에 근거하여, 일반적으로 음성이 존재하지 않는 구간에서 측정된 신호의 평균 파워를 잡음의 파워 스펙트럼으로 추정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
디지털 방식으로 저장된 데이터의 장점은? 지난 백여 년간 음성 및 오디오 데이터를 효과적으로 저장하기 위한 기술은 매우 급격히 발전되어왔다. 특히, 디지털 방식으로 저장된 데이터는 아날로그 방식과는 달리 시간에 따른 열화 없이 반영구적으로 보존할 수 있으므로 그만큼 보관 및 관리하는데 드는 노력이 현저하게 줄어들며 언제든 처음 녹음 했을 때의 음질을 유지할 수 있다. 하지만 아날로그 방식은 시간이 지남에 따라 녹음된 LP판이나 자기테이프의 변형에 따른 데이터의 손실을 피할 수 없으며, 반복적으로 재생 할 경우에도 저장 매체의 변형이 따를 수밖에 없는 한계점을 지니고 있다.
아날로그로 녹음된 방식의 단점은? 국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 4가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다.
아날로그로 녹음된 방식의 단점은? 특히, 디지털 방식으로 저장된 데이터는 아날로그 방식과는 달리 시간에 따른 열화 없이 반영구적으로 보존할 수 있으므로 그만큼 보관 및 관리하는데 드는 노력이 현저하게 줄어들며 언제든 처음 녹음 했을 때의 음질을 유지할 수 있다. 하지만 아날로그 방식은 시간이 지남에 따라 녹음된 LP판이나 자기테이프의 변형에 따른 데이터의 손실을 피할 수 없으며, 반복적으로 재생 할 경우에도 저장 매체의 변형이 따를 수밖에 없는 한계점을 지니고 있다. 
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. iZotopeRX, audio repair toolkit http://www.izotope.com/ products/audio/rx/. 

  2. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. on Acoust., Speech and Signal Process. 33, 443-445 (1985). 

  3. I. Cohen and B. Berdugo, "Speech enhancement for nonstationary noise environments," Signal Process., 81, 2401-4218, (2001). 

  4. S. V. Vaseghi, Advanced digital signal processing and noise reduction, 2nd ed. (John Wiley & Sons, UK, 2000). 

  5. T. Kasparis and J. Lane, "Suppression of impulsive disturbances from audio signals," Electronics letters, 29, 1926-1927 (1993). 

  6. A. J. Efron and H. Jeen, "Detection in impulsive noise based on robust whitening," IEEE Trans. on Signal Process.42, 1572-1576 (1994). 

  7. S. R. Kim and A. Efron, "Adaptive robust impulse noise filtering," IEEE Trans. on Signal Process.43, 1855-1866 (1995). 

  8. I. Kauppinen, "Methods for detecting impulsive noise in speech and audio signals," in Proc. IEEE Int Conf. on Digital Signal Process.2, 967-970 (2002). 

  9. T. F. Quatieri, Discrete-time speech signal processing, (Prentice Hall, New Jersey, 2001). 

  10. J. Beh, K. Kim and H. Ko, "Noise estimation for robust speech enhancement in transient noise environment," in Proc. KSCSP 2007, 24, 35-36 ( 2007). 

  11. ITU-T, ITU-T recommendation P. 56, ITU-T, 2011. 

  12. M. S. Kim, H. S. Sin, H. G. Kang, "Time-Frequency Domain Impulsive Noise Detection System in Speech Signal" (in Korean), J. Acoust. Soc. Kr. Suppl. 2(s) 30, 73-79 (2011). 

  13. ITU-T, ITU-T recommendation G. 729, ITU-T, 1996. 

  14. A. M. Kondoz, Digital speech-coding for low bit rate communication systems, (John wiley & sons, England, 1994). 

  15. M. Choi and H. Kang, "Transient noise reduction in speech signal with a modified long-term predictor," EURASIP Journal on Advances in Signal Processing (2011). 

  16. Y. H. Son, Y. S. Park, H. S. Ahn, S. M. Lee, "An Improved Speech Absence Probability Estimation based on Environmental Noise Classification" (in Korean), J. Acoust. Soc. Kr. Suppl. 7(s) 30, 383-389 (2011). 

  17. Y. G. Kim, H. J. Song, H. S. Kim, "Simultaneous Speaker and Environment Adaptation by Environment Clustering in Various Noise Environments" (in Korean), J. Acoust. Soc. Kr. Suppl. 6(s) 28, 566-571 (2009). 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로