본 논문에서는 노래반주기를 위한 고음질 오디오 시스템 구현에 관한 내용을 담고 있다. 노래반주기의 중요한 기능인 키/템포 변환 음질의 개선을 위하여 악기별 채널 분리를 수행하였다. 악기별로 채널을 분리하여 처리함으로 고음질의 변환이 수행됨을 상관계수의 변화와 MOS 평가를 통하여 확인할 수 있었다. 구현된 오디오 시스템은 TI사의 32비트 부동 소수점과 고정 소수점 연산이 모두 가능한 DSP인 TMS320C6747를 이용하였으며 다채널의 WMA 복호화, MP3 부호화와 복호화, wav, EQ 및 템포/키 변환을 실시간으로 수행 가능하다. WMA 10채널로 구성되어 악기별 분리 처리가 가능도록 하였다. 또한 MP3 부호화/복호화는 녹음과 재생 기능으로 이용되고 wav 채널은 효과음 등으로 사용 가능하다.
본 논문에서는 노래반주기를 위한 고음질 오디오 시스템 구현에 관한 내용을 담고 있다. 노래반주기의 중요한 기능인 키/템포 변환 음질의 개선을 위하여 악기별 채널 분리를 수행하였다. 악기별로 채널을 분리하여 처리함으로 고음질의 변환이 수행됨을 상관계수의 변화와 MOS 평가를 통하여 확인할 수 있었다. 구현된 오디오 시스템은 TI사의 32비트 부동 소수점과 고정 소수점 연산이 모두 가능한 DSP인 TMS320C6747를 이용하였으며 다채널의 WMA 복호화, MP3 부호화와 복호화, wav, EQ 및 템포/키 변환을 실시간으로 수행 가능하다. WMA 10채널로 구성되어 악기별 분리 처리가 가능도록 하였다. 또한 MP3 부호화/복호화는 녹음과 재생 기능으로 이용되고 wav 채널은 효과음 등으로 사용 가능하다.
This paper deals with the implementation of a high-quality audio system for karaoke. For improving the key/tempo changes performance, we separated the audio into many musical instrument channels. By separating musical instrument channels, high-quality key/tempo changes can be achieved and we confirm...
This paper deals with the implementation of a high-quality audio system for karaoke. For improving the key/tempo changes performance, we separated the audio into many musical instrument channels. By separating musical instrument channels, high-quality key/tempo changes can be achieved and we confirmed this using the cross-correlation distribution and the MOS evaluation. The improved audio system was implemented using the TMS320C6747 DSP with fixed/floating-point operations. The implemented audio system can perform the multi-channel WMA decoding, the MP3 encoding/decoding, the wav playing, the EQ, and the key/tempo changes in real time. The WMA channels used for processing the separated instrument channels. The audio system includs the MP3 encoding/decoding function for playing and recording and the wav channel for the effect sound.
This paper deals with the implementation of a high-quality audio system for karaoke. For improving the key/tempo changes performance, we separated the audio into many musical instrument channels. By separating musical instrument channels, high-quality key/tempo changes can be achieved and we confirmed this using the cross-correlation distribution and the MOS evaluation. The improved audio system was implemented using the TMS320C6747 DSP with fixed/floating-point operations. The implemented audio system can perform the multi-channel WMA decoding, the MP3 encoding/decoding, the wav playing, the EQ, and the key/tempo changes in real time. The WMA channels used for processing the separated instrument channels. The audio system includs the MP3 encoding/decoding function for playing and recording and the wav channel for the effect sound.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
악기별로 분리된 채널을 이용하여 오디오 알고리즘을 적용한 후 각 채널을 합치면 보다 좋은 음질의 오디오 시스템 구현이 가능하다는 것을 보여준다. 또한 본 논문에서는 다양한 오디오 압축 포맷으로 저장된 다채널 음악 데이터를 실시간 복원하면서 고음질의 키/템포 변환이 가능한 시스템을 TI사의 6747 DSP를 이용하여 구현한 내용을 담고 있다. 멀티 포맷, 멀티채널의 음악 데이터를 실시간 복원함과 동시에 키/템포 변환 및 EQ 기능을 수행할 수 있다.
본 논문에서는 기존의 오디오 키/템포 변환 기능의 개선을 위하여 악기별 채널 분리를 이용한 고음질 오디오 시스템을 구현하였다. 악기별로 분리된 채널을 이용하여 오디오 알고리즘을 적용한 후 각 채널을 합치면 보다 좋은 음질의 오디오 시스템 구현이 가능하다는 것을 보여준다.
제안 방법
다양한 악기 반주가 함께 믹싱된 채널에 템포 변환 알고리즘을 적용하는 기존의 방식과 악기 그룹별로 악기를 채널별로 분리하여 각각의 채널에 대하여 템포변환 알고리즘을 수행하는 제안된 방식에 대한 MOS 평가 문항과 결과를 Table 3과 Table 4에 나타내 었다. MOS 평가는 악기별 분리 처리를 하지 않은 기존의 방식과 제안된 방식으로 만든 테스트 오디오 샘플을 이용하여 순서를 바꾼 블라인드 테스트를 수행하였으며 두 방식에 대한 변화율별 음질 평가 방식으로 조사하였다. MOS 평가 결과 기존 방식보다 제안된 방식으로 음질 개선이 이루어졌음을 알 수있었으며 제안된 악기별 채널 분리를 이용한 변환이 고음질을 유지함을 알 수 있었다.
8은 오디오 시스템 프로그램 구성을 나타내고 있다. TI사에서 제공하는 커널인 BIOS를 이용하여 각 기능별 태스크(task)를 이용하여 구성하였다. 채널별 오디오 처리를 위한 MP3 부호화, MP3 복호화, WMA 복호화 기능은 개별 태스크로 수행하였다.
WMA와 MP3는 오디오 코딩 방식으로 널리 사용되고 있는 대표적인 오디오 압축 포맷이다. WMA 복호화 알고리즘은 Ittiam system사의 라이브러리를 이용하여 다채널로 구성되었으며 MP3 오디오 알고리즘은 DSP에 맞게 최적화 되었다. MP3 오디오 코딩의 특징은 특정 주파수 성분이 주변의 주파수 성분에 의해서 들지 않게 되는 현상인 마스킹(masking) 현상을 이용한다.
따라서 본 논문에서 제안된 방법을 적용하면 음질 개선을 통하여 라이브 노래반주기로서의 고음질 키/템포 변환이 포함된 기능이 가능하다. 고음질 키/템포 변환이 요구되는 노래반주기에 적용 될 수 있는 오디오 시스템을 구현하기 위하여 TI사의 6747 DSP를 이용한 고음질 오디오 시스템을 구현하였다. 이 과정에서 반주의 효율적인 저장을 위하여 WMA, MP3와 같은 다양한 포맷의 복원을 수행하였으며, 키/템포의 변환 알고리즘 개선을 통하여 고음질의 반주가 가능하도록 하였다.
기존의 템포 변환 알고리즘인 SOLA 알고리즘의 보완을 위하여 어택을 찾고 변환 알고리즘 수행 시점을 조정 하여 채널별 템포 변환의 음질을 개선시켰다. 그리고 다양한 악기가 함께 포함된 하나의 반주 음악 대신 악기 그룹별로 분리 녹음하여 각 채널로 할당한후 채널별 변환 알고리즘을 수행하였다. 이 과정에서 채널별 악기음에 포함된 악기별 피치의 수가 감소하여 변환 후 발생되는 음질의 저하를 개선시킬수 있었다.
키 변환은 샘플링 주파수를 조정하여 수행하였으며 이때 발생되는 템포의 변환 문제를 템포 변환 알고리즘을 이용하여 보정하였다. 그리고 음악의 장르나 사용자의 요청에 의하여 주파수별로 이득을 조정할 수 있는 EQ를 바이쿼드 필터(bi-quad filter)를 이용하여 구현하였다. 설정된 15개의 EQ 밴드별로 사용자가 이득을 조정할 수 있다.
이 과정에서 반주의 효율적인 저장을 위하여 WMA, MP3와 같은 다양한 포맷의 복원을 수행하였으며, 키/템포의 변환 알고리즘 개선을 통하여 고음질의 반주가 가능하도록 하였다. 기존의 템포 변환 알고리즘인 SOLA 알고리즘의 보완을 위하여 어택을 찾고 변환 알고리즘 수행 시점을 조정 하여 채널별 템포 변환의 음질을 개선시켰다. 그리고 다양한 악기가 함께 포함된 하나의 반주 음악 대신 악기 그룹별로 분리 녹음하여 각 채널로 할당한후 채널별 변환 알고리즘을 수행하였다.
다양한 악기 반주가 함께 믹싱된 채널에 템포 변환 알고리즘을 적용하는 기존의 방식과 악기 그룹별로 악기를 채널별로 분리하여 각각의 채널에 대하여 템포변환 알고리즘을 수행하는 제안된 방식에 대한 MOS 평가 문항과 결과를 Table 3과 Table 4에 나타내 었다. MOS 평가는 악기별 분리 처리를 하지 않은 기존의 방식과 제안된 방식으로 만든 테스트 오디오 샘플을 이용하여 순서를 바꾼 블라인드 테스트를 수행하였으며 두 방식에 대한 변화율별 음질 평가 방식으로 조사하였다.
고음질 키/템포 변환이 요구되는 노래반주기에 적용 될 수 있는 오디오 시스템을 구현하기 위하여 TI사의 6747 DSP를 이용한 고음질 오디오 시스템을 구현하였다. 이 과정에서 반주의 효율적인 저장을 위하여 WMA, MP3와 같은 다양한 포맷의 복원을 수행하였으며, 키/템포의 변환 알고리즘 개선을 통하여 고음질의 반주가 가능하도록 하였다. 기존의 템포 변환 알고리즘인 SOLA 알고리즘의 보완을 위하여 어택을 찾고 변환 알고리즘 수행 시점을 조정 하여 채널별 템포 변환의 음질을 개선시켰다.
이는 복잡하고 다양한 악기에 포함된 주파수 성분들을 모두 만족시키기 어렵기 때문이다. 이러한 부분에 대한 개선의 방안으로 본 논문은 악기별 분리를 통하여 주파수 성분의 피치의 단순화 및 복잡도를 낮춰서 고음질의 키/템포 변환이 가능함을 보였으며 이를 범용 DSP를 이용하여 구현하였다. 현재 라이브를 지원하는 노래반주기에는 키/템포 변환시 음질의 저하로 인하여 기능적인 제한이 발생하고 있다.
이러한 현상은 각 악기에서 최대의 상관계수를 가지는 위치가 각각 다르기 때문에 혼합된 경우 최대가 아닌 위치에 재배치 될 수 있기 때문에 음질 저하를 일으킬 수밖에 없다. 이러한 부분의 개선을 위하여 라이브 반주 녹음시 5개의 채널로 분리하여 악기를 녹음하여 저장한 후 악기 채널별로 템포변환을 수행하였다. 변환된 악기 채널별 최종 결과를 믹싱하여 하나, 혹은 다채널의 반주를 만들면 고음질의 템포 변환 가능한 오디오 시스템의 구현이 가능하다.
이는 그림에서 나타난 바와 같이 음질저하와 직결된다고 볼 수 있다. 이러한 상황을 개선하기 위하여 일정한 프레임 단위대신에 템포 변환 알고리즘 수행결과에 따라 다음 변환 시점을 결정하는 방식을 적용하였다. 템포 변환 알고리즘을 통하여 변환된 오디오 샘플의 수가 클 경우 다음 변환 시점은 멀고 변환된 오디오 샘플의 수가 작을 경우 가까운 위치에서 다시 템포 변환을 수행한다.
TI사에서 제공하는 커널인 BIOS를 이용하여 각 기능별 태스크(task)를 이용하여 구성하였다. 채널별 오디오 처리를 위한 MP3 부호화, MP3 복호화, WMA 복호화 기능은 개별 태스크로 수행하였다. 태스크로 구성하면 타임 스케줄에 의하여 독립적인 각각의 함수로 수행이 가능하다.
대상 데이터
오디오 시스템 구현을 위하여 사용된 TMS320C6747 DSP는 TI사의 고정소수점 코어인 C64x+와 부동소수점 코어인 C67x+ 코어를 조합하여 만든 C674x 고정/부동 소수점 DSP 코어를 사용하였다. 이 DSP는 계산량이 많은 오디오 알고리즘 구현에 있어서 한 사이클에 4회까지 가능한 16비트 고정 소수점 곱셈을 이용할 수 있으며, 정밀도가 요구되는 연산에는 부동 소수점 연산을 함께 수행함으로써 오디오 처리 알고리즘을 쉽게 구현할 수 있다.
데이터처리
이에 비하여 시간 영역 변환의 대표적인 방식인 SOLA(Synchronized-Overlap Add)인 경우 시간영역에서 일정한 크기의 프레임 단위로 오디오 신호를 분리하여 원하는 변환 위치에 재배열하는 방식으로 시간축 변환을 수행하다. 이 과정에서 재배열시 최적의 위치를 찾기 위하여 연속되는 두 프레임간의 상관관계 (cross-correlation) 값을 계산한다. 이 값의 결과가 최대가 되는 위치를 찾아 재배열을 하기 때문에 연결 부분의 왜곡(distortion)을 최대한 작게 할 수 있다.
이론/모형
일반적으로 128 kbps 전송률로 압축되고 고음질을 위하여 320kbps까지 더 높은 전송률로 압축되기도 한다. [9,10] 템포 변환을 위하여 사용된 알고리즘은 기존의 SOLA 알고리즘에서 어택을 찾고 템포 변환 시점을 조정하여 고음질의 템포 변환이 가능한 개선된 SOLA 알고리즘을 악기음 채널별로 적용시켰다. 이를 통해 고음질의 템포 변환 알고리즘 구현이 가능 하다.
오디오 시스템에는 WMA와 MP3 방식이 오디오 압축 알고리즘으로 사용되었다. WMA와 MP3는 오디오 코딩 방식으로 널리 사용되고 있는 대표적인 오디오 압축 포맷이다.
고음질 템포 변환을 위하여 반주음은 악기 그룹별로 분리되어 외부 메모리에 저장된다. 이 경우 한 곡 반주에 필요한 오디오 데이터양이 적지 않기 때문에 압축을 하게 되며, 이 때 사용할 압축 알고리즘으로 WMA를 사용하게 되었다. WMA는 MP3에 비하여 동일 음질 기준으로 약 두 배의 압축률을 가진다.
이러한 WMA 10채널은 각각 템포 변환 알고리즘을 독립적으로 수행하기 위하여 분리된 악기 채널이다. 이렇게 독립적으로 처리된 WMA 데이터를 이용하여 채널별로 템포 변환 알고리즘을 수행하게 된다. MP3 부호화는 사용자 노래 및 외부 입력을 녹음할 수 있고 MP3 복호화는 녹음된 노래 및 MP3 데이터를 재생시킬 수 있다.
이를 통해 고음질의 템포 변환 알고리즘 구현이 가능 하다. 키 변환은 샘플링 주파수를 조정하여 수행하였으며 이때 발생되는 템포의 변환 문제를 템포 변환 알고리즘을 이용하여 보정하였다. 그리고 음악의 장르나 사용자의 요청에 의하여 주파수별로 이득을 조정할 수 있는 EQ를 바이쿼드 필터(bi-quad filter)를 이용하여 구현하였다.
성능/효과
MOS 평가는 악기별 분리 처리를 하지 않은 기존의 방식과 제안된 방식으로 만든 테스트 오디오 샘플을 이용하여 순서를 바꾼 블라인드 테스트를 수행하였으며 두 방식에 대한 변화율별 음질 평가 방식으로 조사하였다. MOS 평가 결과 기존 방식보다 제안된 방식으로 음질 개선이 이루어졌음을 알 수있었으며 제안된 악기별 채널 분리를 이용한 변환이 고음질을 유지함을 알 수 있었다. 변화율별 결과를 분석해 보면 변화율이 -30%나 -18%의 경우, 원음에 비하여 템포를 빠르게 하는 경우이다.
멀티 포맷, 멀티채널의 음악 데이터를 실시간 복원함과 동시에 키/템포 변환 및 EQ 기능을 수행할 수 있다. 고음질 키/템포 변환을 위하여 음악을 그룹별로 채널을 분리하고 각 채널에 대한 키/템포 변환 알고리즘을 적용시켜서키, 템포 변환에 대한 음질 개선을 이루었음을 알 수있었다. 본 논문은 Ⅱ장에서 노래반주기용 오디오 시스템, Ⅲ장에서 악기별 분리처리를 통한 음질 개선, Ⅳ장에서 오디오 시스템 구현, Ⅴ장에서 결과, 그리고 Ⅵ장 결론으로 구성되어 있다.
현재 라이브를 지원하는 노래반주기에는 키/템포 변환시 음질의 저하로 인하여 기능적인 제한이 발생하고 있다. 따라서 본 논문에서 제안된 방법을 적용하면 음질 개선을 통하여 라이브 노래반주기로서의 고음질 키/템포 변환이 포함된 기능이 가능하다. 고음질 키/템포 변환이 요구되는 노래반주기에 적용 될 수 있는 오디오 시스템을 구현하기 위하여 TI사의 6747 DSP를 이용한 고음질 오디오 시스템을 구현하였다.
테스트 음악의 5가지 악기별 상관계수의 분포를 살펴보면 악기마다 상관계수의 분포가 다르며 Solo(trumpet)의 경우가 1 부근에 가장 높은 분포를 나타내고 있음을 알 수 있다. 또한 synthesizer, piano, guitar의 경우 상관계수 분포가 대부분 0.7이상으로 템포변환 후 좋은 음질을 유지할 수 있는 것을 나타났다. String의 경우 다른 악기에 비하여 약간 낮은 분포를 보인다.
이러한 현상은 상관계수의 분포와 MOS 평가를 통하여 확인할 수 있었으며 특히, 느리게 변환하는 경우 더욱 큰 개선의 효과가 나타났다. 본 논문에서 제안하는 악기별 채널분리 방식은 노래반주게에만 국한되지 않고 다양한 음악 분야에서도 적용이 가능하다. 현재 모바일 시장에서 음악에 대한 키/ 템포 변환은 거의 이용되지 않고 있다.
그 이유는 대부분 변환시의 음질이 사용자의 요구를 만족시키지 못하기 때문이다. 본 논문에서 제안한 악기별 분리를 통한 고음질 변환은 모바일이나 PC 음악 환경에서 메모리 용량의 증가와 CPU의 처리 속도의 증가로 인하여 현재의 스테레오에서 다채널로 변환이 가능하며 이 경우 악기 그룹별 처리에 적용이 가능하다.
본 논문에서는 기존의 오디오 키/템포 변환 기능의 개선을 위하여 악기별 채널 분리를 이용한 고음질 오디오 시스템을 구현하였다. 악기별로 분리된 채널을 이용하여 오디오 알고리즘을 적용한 후 각 채널을 합치면 보다 좋은 음질의 오디오 시스템 구현이 가능하다는 것을 보여준다. 또한 본 논문에서는 다양한 오디오 압축 포맷으로 저장된 다채널 음악 데이터를 실시간 복원하면서 고음질의 키/템포 변환이 가능한 시스템을 TI사의 6747 DSP를 이용하여 구현한 내용을 담고 있다.
이 과정에서 채널별 악기음에 포함된 악기별 피치의 수가 감소하여 변환 후 발생되는 음질의 저하를 개선시킬수 있었다. 이러한 현상은 상관계수의 분포와 MOS 평가를 통하여 확인할 수 있었으며 특히, 느리게 변환하는 경우 더욱 큰 개선의 효과가 나타났다. 본 논문에서 제안하는 악기별 채널분리 방식은 노래반주게에만 국한되지 않고 다양한 음악 분야에서도 적용이 가능하다.
이 값은 최대값이 1이고 1에 가까울수록 좋은 음질이라고 생각할 수 있다. 테스트 음악의 5가지 악기별 상관계수의 분포를 살펴보면 악기마다 상관계수의 분포가 다르며 Solo(trumpet)의 경우가 1 부근에 가장 높은 분포를 나타내고 있음을 알 수 있다. 또한 synthesizer, piano, guitar의 경우 상관계수 분포가 대부분 0.
질의응답
핵심어
질문
논문에서 추출한 답변
노래반주기 시스템이란 무엇인가?
오디오 시스템은 음악을 재생하고 녹음하여 사용자에게 들려줄 뿐만 아니라 다양한 효과음을 낼 수 있다. 또한 가수의 보컬이 포함되지 않고 사용자가 좋아하는 음악을 부를 수 있는 기능을 하는 것이 노래반주기 시스템이라고 할 수 있다. 이러한 노래반주기 시스템은 사용자의 편의를 위하여 자막을 영상 정보로 표시하여 줄 수도 있다.
오디오의 템포를 변환하는 방식으론 무엇이 있는가?
오디오의 템포를 변환하는 방식으로 크게 시간영역 변환과 주파수 영역 변환의 두 가지 방식이 있다. 주파수 영역 방식의 대표적인 방식이 페이즈 보코더 (phase vocoder)이다.
SOLA에서 시간축 변환 수행 시, 연속되는 두 프레임간의 상관관계값의 결과가 최대가 되는 위치를 찾아 재배열하면 어떤 효과가 있는가?
이 과정에서 재배열시 최적의 위치를 찾기 위하여 연속되는 두 프레임간의 상관관계 (cross-correlation) 값을 계산한다. 이 값의 결과가 최대가 되는 위치를 찾아 재배열을 하기 때문에 연결 부분의 왜곡(distortion)을 최대한 작게 할 수 있다. 오버랩 구간에 대해서는 가중치(weighting)을 주어서 더하게 된다.
참고문헌 (9)
M. Dolson, "The phase vocoder: a tutorial," J. Computer Music 10, 14-27 (1986).
S. Roucos and A. M. Wilgus, "High quality time-scale modification for speech," ICASSP, 493-496 (1985).
S. Yim and B. I. Pawate, "Computationally efficient algorithm for time scale modification(GLS-TSM)," ICASSP (1996).
K. N. Hamdy, A. H. Tewfik, Ting Chen, and S. Takagi, "Time-Scale Modification of Audio Signals With Combined Harmonic and Wavelet Representations," ICASSP (1997).
TMS320C6747 Fixed/Floating-Point Digital Signal Processor- Datasheet, Texas Instruments, 2008.
TMS320C6000 DSP Multichannel Buffered Serial Port (McBSP) Reference Guide, Texas Instruments, 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.