본 논문에서는 멀티채널 라이브 가라오케의 구현에 관한 내용을 담고 있다. TI사의 32비트 floating 연산 DSP인 TMS320C6713를 이용하여 6 채널의 MP3 복호화 및 템포/키 변환을 실시간으로 구현하였다. 6채널은 전면 L/R 악기, 후면 L/R 악기, 멜로디, 우퍼로 구성되며, 4 채널로 동작 시에는 후면 L/R 대신 드럼 L/R이 추가될 수 있다. 최종 출력 데이터는 5.1 채널 스피커에 맞춰서 출력된다. 템포 변환을 위하여 SOLA알고리즘을 적용시켰으며 시간영역에서 인터폴레이션(interpolation)과 데시메이션 (decimation)으로 키 변환을 수행하였다. 드럼 악기가 추가될 경우에는 일반악기와 분리하여 키 변환 시에 드럼 채널을 제외시키고, SOLA (Synchronized Overlap and Add) 수행 시에도 SOLA처리 단위인 프레임 사이즈를 다르게 두어 고음질의 템포 변환이 가능하도록 하였으며, 실시간 처리를 위하여 최적화를 하였다 6 채널을 이용하여 다양한 채널 구성이 가능하며 본 논문의 멀티채널 오디오 시스템은 고음질의 라이브 반주가 필요한 어느 곳에서나 효과적으로 적용될 수 있다.
본 논문에서는 멀티채널 라이브 가라오케의 구현에 관한 내용을 담고 있다. TI사의 32비트 floating 연산 DSP인 TMS320C6713를 이용하여 6 채널의 MP3 복호화 및 템포/키 변환을 실시간으로 구현하였다. 6채널은 전면 L/R 악기, 후면 L/R 악기, 멜로디, 우퍼로 구성되며, 4 채널로 동작 시에는 후면 L/R 대신 드럼 L/R이 추가될 수 있다. 최종 출력 데이터는 5.1 채널 스피커에 맞춰서 출력된다. 템포 변환을 위하여 SOLA알고리즘을 적용시켰으며 시간영역에서 인터폴레이션(interpolation)과 데시메이션 (decimation)으로 키 변환을 수행하였다. 드럼 악기가 추가될 경우에는 일반악기와 분리하여 키 변환 시에 드럼 채널을 제외시키고, SOLA (Synchronized Overlap and Add) 수행 시에도 SOLA처리 단위인 프레임 사이즈를 다르게 두어 고음질의 템포 변환이 가능하도록 하였으며, 실시간 처리를 위하여 최적화를 하였다 6 채널을 이용하여 다양한 채널 구성이 가능하며 본 논문의 멀티채널 오디오 시스템은 고음질의 라이브 반주가 필요한 어느 곳에서나 효과적으로 적용될 수 있다.
This paper deals with the realization of multi-channel live karaoke. In this study, 6-channel MP3 decoding and tempo/key scaling was operated in real time by using the TMS320C6713 DSP, which is 32 bit floating-point DSP made by TI Co. The 6 channel consists of front L/R instrument, rear L/R instrume...
This paper deals with the realization of multi-channel live karaoke. In this study, 6-channel MP3 decoding and tempo/key scaling was operated in real time by using the TMS320C6713 DSP, which is 32 bit floating-point DSP made by TI Co. The 6 channel consists of front L/R instrument, rear L/R instrument, melody, and woofer. In case of the 4 channel, rear L/R instrument can be replaced with drum L/R channel. And the final output data is generated as adjusted to a 5.1 channel speaker. The SOLA algorithm was applied for tempo scaling, and key scaling was done with interpolation and decimation in the time domain. Drum channel was excluded in key scaling by separating instruments into drums and non-drums, and in processing SOLA, high-quality tempo scaling was made possible by differentiating SOLA frame size, which was optimized for real-time process. The use of 6 channels allows the composition of various channels, and the multi-channel audio system of this study can be effectively applied at any place where live music is needed.
This paper deals with the realization of multi-channel live karaoke. In this study, 6-channel MP3 decoding and tempo/key scaling was operated in real time by using the TMS320C6713 DSP, which is 32 bit floating-point DSP made by TI Co. The 6 channel consists of front L/R instrument, rear L/R instrument, melody, and woofer. In case of the 4 channel, rear L/R instrument can be replaced with drum L/R channel. And the final output data is generated as adjusted to a 5.1 channel speaker. The SOLA algorithm was applied for tempo scaling, and key scaling was done with interpolation and decimation in the time domain. Drum channel was excluded in key scaling by separating instruments into drums and non-drums, and in processing SOLA, high-quality tempo scaling was made possible by differentiating SOLA frame size, which was optimized for real-time process. The use of 6 channels allows the composition of various channels, and the multi-channel audio system of this study can be effectively applied at any place where live music is needed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
논문에서는 상용 DSP를 사용하여 고음질 키, 템포 기능을 가진 6 채널 MP3 라이브 가라오케 시스템을 구현하였다. 이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다.
논문에서는 상용 DSP를 사용하여 고음질 키, 템포 기능을 가진 6 채널 MP3 라이브 가라오케 시스템을 구현하였다. 이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다.
본 논문에서는 MP3 복호화기, SOLA, 시간 영역에서 인터폴레이션/데시메이션을 통하여 고음질 및 효과적인 6 채널 라이브 가라오케를 구현할 수 있었다. 6 채널을 스테레오 MP3들로 구성함으로써 반주 시 다양한 형태의 채널 구성이 가능해지고, 또한 불필요한 채널을 사용하지 않을 수 있으므로 효과적인 구성이 가능했다.
본 논문에서는 MP3 복호화기, SOLA, 시간 영역에서 인터폴레이션/데시메이션을 통하여 고음질 및 효과적인 6 채널 라이브 가라오케를 구현할 수 있었다. 6 채널을 스테레오 MP3들로 구성함으로써 반주 시 다양한 형태의 채널 구성이 가능해지고, 또한 불필요한 채널을 사용하지 않을 수 있으므로 효과적인 구성이 가능했다.
본 논문은 이러한 고음질 라이브 반주기 시스템에 관한 것으로 멀티채널로 녹음된 실제 라이브 반주, 코러스, 멜로디를 재생하여 반주로 사용하는 시스템에 관한 내용을 소개한다. 또한 재생 시에 사용자의 요구에 따라 고음질 키, 템포 변환을 수행할 수 있다.
두 번째는 2번 동그라미 부분의 경우, 음이 어느 정도 일정하게 유지되는 부분에서 제안된 빙법이 피형의 형태에서 비교적 일정하게 됨을 알 수 있다. 이러한 결과는 본 논문에서 SOLA 수행 시 윈도우 크기를 다르게 적용함으로써 얻을 수 있는 결과이다. 즉, 어텍이 많은 드럼과 같은 악기는 윈도우 사이즈를 작게 하여 처리하고, 피아노, 현악기와 같은 악기는 윈도우 사이즈를 크게 하여 별도의 채널로 처리한 후 이 두 개를 믹싱하여 처리함으로써, 이와 같은 음질의 개선 효과를 얻을 수 있다.
제안 방법
SOLA 알고리즘은 주로 음성에 많이 적용되어 왔으나, 여기서는 고음질을 요하는 오디오에 적용시켜서 좋은 음질을 얻을 수 있었다. SOLA 수행은 계산 량을 줄이기 위하여 최대 Cross correlation인 위치 (km)를 찾는 과정을 두 단계로 나눠서 빠른 수행이 가능하도록 하였다. 이러한 수행으로 Cross correlation (Rm)을 찾는 계산량은 N과 M이라는 두 개의 변수를 이용하여 기존에 대비 12.
TI사의 32 비트 부동소수점 연산 DSP인 TMS320C6713을 사용하여 고음질의 키/템포 기능을 가진 6 채널 라이브 가라오케 시스템을 구현하였다. 최종 오디오 채널은 스피커 개수와 같은 6개로 믹싱 되며, 전면 L/R, 후면 L/R 또는 드럼 L/R, 멜로디, 우퍼로 구성된다.
TI사의 32 비트 부동소수점 연산 DSP인 TMS320C6713을 사용하여 고음질의 키/템포 기능을 가진 6 채널 라이브 가라오케 시스템을 구현하였다. 최종 오디오 채널은 스피커 개수와 같은 6개로 믹싱 되며, 전면 L/R, 후면 L/R 또는 드럼 L/R, 멜로디, 우퍼로 구성된다.
여기서 km는 연속된 프레임 간의 cross correlation이 최대가 되는 지점이다. km 값을 구하기 위하여 프레임을 이동시키면서 프레임간의 cross correlation을 구한다. 그 중에서 cross correlation 이 최대가 되는 지점이 km가 되며, 이 지점에서 프레임을 연결하면 가장 자연스럽게 연결된다고 생각할 수 있다.
여기서 km는 연속된 프레임 간의 cross correlation이 최대가 되는 지점이다. km 값을 구하기 위하여 프레임을 이동시키면서 프레임간의 cross correlation을 구한다. 그 중에서 cross correlation 이 최대가 되는 지점이 km가 되며, 이 지점에서 프레임을 연결하면 가장 자연스럽게 연결된다고 생각할 수 있다.
또한 키 변환 시에는 시간 영역의 인터폴레이션 및 데시메이션을 이용하여 구현하였으며, 그 결과 발생하는 템포 변환은 SOLA 알고리즘에서 미리 보상해주었다. 데시메이션 시에 발생하는 알리아싱을 방지하기 위하여 MP3 복호화 과정에서 알리아싱이 발생되는 서브밴드 값을 0으로 두어 앤티-알리아싱 필터를 없앴다. DSP는 225 MHz에서 동작되며 컨트롤러와 HPI를 통하여 부팅 및 컨트롤 플래그가 설정된다.
또한, 사용자에 맞는 편안한 반주를 위하여 가라오케 시스템의 필수 기능인 키/템포 변환 기능을 위하여 SOLA (Synchronized Overlap and Add) 알고리즘과 시간영역에서 인터폴레이션, 데시메이션을 적용하였다. 또한 실제 반주에 가까운 고음질 키템포 변환을 위하여 드럼과 드럼을 제외한 일반악기로 분리하여 처리할 수 있는 기능을 추가하였다. 구현된 채널의 수는 6개이며, 이러한 멀티채널 가라오케 시스템은 고음질 반주를 위하여 널리 이용될 수 있다.
또한, 사용자에 맞는 편안한 반주를 위하여 가라오케 시스템의 필수 기능인 키/템포 변환 기능을 위하여 SOLA (Synchronized Overlap and Add) 알고리즘과 시간영역에서 인터폴레이션, 데시메이션을 적용하였다. 또한 실제 반주에 가까운 고음질 키템포 변환을 위하여 드럼과 드럼을 제외한 일반악기로 분리하여 처리할 수 있는 기능을 추가하였다. 구현된 채널의 수는 6개이며, 이러한 멀티채널 가라오케 시스템은 고음질 반주를 위하여 널리 이용될 수 있다.
이러한 대용량의 필요성을 개선하기 위하여 현재 널리 사용되고 있는 오디오 압축 기술인 MP3을 이용하여 저장 용량을 줄였다. 또한, 사용자에 맞는 편안한 반주를 위하여 가라오케 시스템의 필수 기능인 키/템포 변환 기능을 위하여 SOLA (Synchronized Overlap and Add) 알고리즘과 시간영역에서 인터폴레이션, 데시메이션을 적용하였다. 또한 실제 반주에 가까운 고음질 키템포 변환을 위하여 드럼과 드럼을 제외한 일반악기로 분리하여 처리할 수 있는 기능을 추가하였다.
또한, 데시메이션 시에 발생하는 알리아싱(aliasing)을 제거하기 위하여 앤티-알리아싱(anti-aliasing) 필터가 필요하다. 본 논문에서는 MP3 복호화 과정에서 발생되는 32개 서브밴드 샘플을 이용하여 앤티-알리아싱 필터를 제거 할 수 있다. 32개의 서브밴드 샘플은 주파수 영역에서 균등하게 32등분을 한 데이터를 나타내고 있다.
2 Mbps가 필요하다. 이러한 대용량의 필요성을 개선하기 위하여 현재 널리 사용되고 있는 오디오 압축 기술인 MP3을 이용하여 저장 용량을 줄였다. 또한, 사용자에 맞는 편안한 반주를 위하여 가라오케 시스템의 필수 기능인 키/템포 변환 기능을 위하여 SOLA (Synchronized Overlap and Add) 알고리즘과 시간영역에서 인터폴레이션, 데시메이션을 적용하였다.
2 Mbps가 필요하다. 이러한 대용량의 필요성을 개선하기 위하여 현재 널리 사용되고 있는 오디오 압축 기술인 MP3을 이용하여 저장 용량을 줄였다. 또한, 사용자에 맞는 편안한 반주를 위하여 가라오케 시스템의 필수 기능인 키/템포 변환 기능을 위하여 SOLA (Synchronized Overlap and Add) 알고리즘과 시간영역에서 인터폴레이션, 데시메이션을 적용하였다.
최종 오디오 채널은 스피커 개수와 같은 6개로 믹싱 되며, 전면 L/R, 후면 L/R 또는 드럼 L/R, 멜로디, 우퍼로 구성된다. 저장 메모리를 용량을 줄이기 위하여 MP给를 이용하여 압축된 라이브 반주곡을 복호화하며, 키/템포 변환을 위하여 sola 알고리즘 및 시간 영역에서 인터폴레이션 및 데시메이션을 수행한다. TMS320C6713은 32비트 부동 소수점 연산을 하기 때문에 고음질을 유지할 수 있으며, MP3 복호화는 ISO에서 제시한 복호화 알고리즘과 같은 결과를 보였다 [1][2].
템포 변환은 SOLA 알고리즘을 적용시켰으며 빠른 계산을 위하여 최대 Cross correlation 위치를 찾는 과정을 두 단계로 나누어서 25%로 계산량을 줄였다. 키 변환에는 시간 영역에서 인터폴레이션, 데시메이션을 적용하였으며, 수행 후 템포 변화는 SOLA를 이용하여 보상하였다. 데시메이션 시에 발생하는 알리아싱은 MP3 복호화 과정에서 방지하여 앤티-알리아싱 필터를 필요 없게 하였다.
채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다. 템포 변환은 SOLA 알고리즘을 적용시켰으며 빠른 계산을 위하여 최대 Cross correlation 위치를 찾는 과정을 두 단계로 나누어서 25%로 계산량을 줄였다. 키 변환에는 시간 영역에서 인터폴레이션, 데시메이션을 적용하였으며, 수행 후 템포 변화는 SOLA를 이용하여 보상하였다.
채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다. 템포 변환은 SOLA 알고리즘을 적용시켰으며 빠른 계산을 위하여 최대 Cross correlation 위치를 찾는 과정을 두 단계로 나누어서 25%로 계산량을 줄였다. 키 변환에는 시간 영역에서 인터폴레이션, 데시메이션을 적용하였으며, 수행 후 템포 변화는 SOLA를 이용하여 보상하였다.
대상 데이터
따라서 드럼 채널의 경우 MP3 프레임의 샘플수인 H52의 반인 576개의 입력 샘플마다 SOLA를 수행하며 SOLA 프레임 사이즈는 576이다.
전체 시스템의 구성은 그림 5에서 보여준다. 멀티채널 라이브 가라오케 시스템의 구성은 곡 정보 및 라이브 MP3 데이터와 MIDI를 저장하는 메모리인 하드디스크, 전체 시스템을 제어하는 컨트롤러, 6 채널 MP3 복호화기 및 키, 템포 변환 알고리즘을 수행하기 위한 TI사의 WS 320C6713 DSP와 6 채널 DAC으로 구성된다[9][10]. 한 곡은 최대 6채널까지 구성될 수 있다.
논문에서는 상용 DSP를 사용하여 고음질 키, 템포 기능을 가진 6 채널 MP3 라이브 가라오케 시스템을 구현하였다. 이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다. 채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다.
논문에서는 상용 DSP를 사용하여 고음질 키, 템포 기능을 가진 6 채널 MP3 라이브 가라오케 시스템을 구현하였다. 이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다. 채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다.
이론/모형
반주의 템포 변환은 SOLA 알고리즘을 이용한다. SOLA 수행 과정에서 가장 많은 계산량이 필요한 부분은 프레임 간의 최대 Cross correlation을 가지는 위치 (km)를 구하는 부분이다 즉, 두 프레임 간에 가장 자연스럽게 붙일 수 있는 부분을 찾는 것이다.
성능/효과
본 논문에서는 MP3 복호화기, SOLA, 시간 영역에서 인터폴레이션/데시메이션을 통하여 고음질 및 효과적인 6 채널 라이브 가라오케를 구현할 수 있었다. 6 채널을 스테레오 MP3들로 구성함으로써 반주 시 다양한 형태의 채널 구성이 가능해지고, 또한 불필요한 채널을 사용하지 않을 수 있으므로 효과적인 구성이 가능했다. 이러한 멀티채널 오디오 시스템은 고음질 라이브 반주가 필요한 어느 곳에서나 효과적으로 적용될 수 있다.
본 논문에서는 MP3 복호화기, SOLA, 시간 영역에서 인터폴레이션/데시메이션을 통하여 고음질 및 효과적인 6 채널 라이브 가라오케를 구현할 수 있었다. 6 채널을 스테레오 MP3들로 구성함으로써 반주 시 다양한 형태의 채널 구성이 가능해지고, 또한 불필요한 채널을 사용하지 않을 수 있으므로 효과적인 구성이 가능했다. 이러한 멀티채널 오디오 시스템은 고음질 라이브 반주가 필요한 어느 곳에서나 효과적으로 적용될 수 있다.
첫째는 그림 7에서는 1, 3의 동그라미에서 표시된 부분에서 어텍이 두 번 발생하는 현상이 발생되었지만, 그림 8에서는 이러한 현상이 개선되었다. 두 번째는 2번 동그라미 부분의 경우, 음이 어느 정도 일정하게 유지되는 부분에서 제안된 빙법이 피형의 형태에서 비교적 일정하게 됨을 알 수 있다. 이러한 결과는 본 논문에서 SOLA 수행 시 윈도우 크기를 다르게 적용함으로써 얻을 수 있는 결과이다.
1 채널 하나로 묶는 것보다는 2 채널로 나눠서 처리하면 조금 더 다양한 조합뿐만 아니라 효율적인 관리가 될 수 있으며, 향후 필요 없는 채널의 데이터를 제거함으로써 메모리 관리에도 도움을 줄 수 있다. 또한 독립된 MP3 채널이 수행될 때 필요한 변수 및 메모리를 분석하여 다른 채널이 수행한 후에도 계속 그 값을 유지해야 할 변수와 그렇지 않은 변수로 분리하여 유지가 필요 없는 변수에 대해서는 모든 채널이 공통으로 사용하도록 하여 메모리 사용 효율을 높였다
이러한 한계는 실제 라이브 연주를 녹음하여 반주 시 재생함으로써 극복될 수 있다. 라이브 연주를 이용하면 코러스 및 다양한 효과음 요구를 충족시킬 수 있으며 멀티채널로 녹음하면 보다 좋은 공간감을 줄 수 있다.
이러한 한계는 실제 라이브 연주를 녹음하여 반주 시 재생함으로써 극복될 수 있다. 라이브 연주를 이용하면 코러스 및 다양한 효과음 요구를 충족시킬 수 있으며 멀티채널로 녹음하면 보다 좋은 공간감을 줄 수 있다.
후면 L/R 대신 드럼 L/R로도 구성할 수 있다. 이러한 6 채널의 데이터는 CD 음질을 유지하기 위하여 44.1 Khz 샘플링 주파수, 16비트 데이터로 만들어지며, 저장 메모리를 줄이기 위하여 오디오 압축이 필수적이며, 이를 위하여 MP3 알고리즘을 적용하였으며, 본 논문의 라이브 가라오케는 대부분 스테레오 320 kbps 압축으로 고음질을 유지할 수 있었다.
후면 L/R 대신 드럼 L/R로도 구성할 수 있다. 이러한 6 채널의 데이터는 CD 음질을 유지하기 위하여 44.1 Khz 샘플링 주파수, 16비트 데이터로 만들어지며, 저장 메모리를 줄이기 위하여 오디오 압축이 필수적이며, 이를 위하여 MP3 알고리즘을 적용하였으며, 본 논문의 라이브 가라오케는 대부분 스테레오 320 kbps 압축으로 고음질을 유지할 수 있었다.
SOLA 수행은 계산 량을 줄이기 위하여 최대 Cross correlation인 위치 (km)를 찾는 과정을 두 단계로 나눠서 빠른 수행이 가능하도록 하였다. 이러한 수행으로 Cross correlation (Rm)을 찾는 계산량은 N과 M이라는 두 개의 변수를 이용하여 기존에 대비 12.5 %로 계산량을 줄일 수 있었다. 또한 드럼과 드럼을 제외한 악기로 분리하여 실제 연주에서 키가 변하지 않는 악기는 드럼 채널로 분리하여 반주의 키 변환 시에 드럼 채널은 키가 변하지 않도록 하여 실제 연주한 것과 같은 현상을 유지 시켰다.
SOLA 수행은 계산 량을 줄이기 위하여 최대 Cross correlation인 위치 (km)를 찾는 과정을 두 단계로 나눠서 빠른 수행이 가능하도록 하였다. 이러한 수행으로 Cross correlation (Rm)을 찾는 계산량은 N과 M이라는 두 개의 변수를 이용하여 기존에 대비 12.5 %로 계산량을 줄일 수 있었다. 또한 드럼과 드럼을 제외한 악기로 분리하여 실제 연주에서 키가 변하지 않는 악기는 드럼 채널로 분리하여 반주의 키 변환 시에 드럼 채널은 키가 변하지 않도록 하여 실제 연주한 것과 같은 현상을 유지 시켰다.
데시메이션 시에 발생하는 알리아싱은 MP3 복호화 과정에서 방지하여 앤티-알리아싱 필터를 필요 없게 하였다. 이러한 제안된 방법을 기존 상용 오디오 에디터에서 제공하는 키, 템포 변환 결과와 비교하였으며, MOS 평가를 통하여 고음질을 유지함을 알 수 있었다.
데시메이션 시에 발생하는 알리아싱은 MP3 복호화 과정에서 방지하여 앤티-알리아싱 필터를 필요 없게 하였다. 이러한 제안된 방법을 기존 상용 오디오 에디터에서 제공하는 키, 템포 변환 결과와 비교하였으며, MOS 평가를 통하여 고음질을 유지함을 알 수 있었다.
이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다. 채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다. 템포 변환은 SOLA 알고리즘을 적용시켰으며 빠른 계산을 위하여 최대 Cross correlation 위치를 찾는 과정을 두 단계로 나누어서 25%로 계산량을 줄였다.
이를 위해서 TI사의 32비트 부동 소수점 연산 TMS320C6713을 사용하였다. 채널수의 증가에 따른 많은 연주 데이터는 MP3 압축을 이용하여 줄였고, 드럼과 드럼 이외의 악기로 분리 처리하여 키 변환 시에도 드럼의 키는 변화지 않게 하여 실제 연주되는 상황과 같이 처리하였으며, 또한 드럼과 드럼 이외의 악기의 윈도우 크기를 다르게 하여 SOLA 알고리즘이 수행됨으로 고음질로 구현될 수 있었다. 템포 변환은 SOLA 알고리즘을 적용시켰으며 빠른 계산을 위하여 최대 Cross correlation 위치를 찾는 과정을 두 단계로 나누어서 25%로 계산량을 줄였다.
특히, 저주파음이 많이 포함된 노래의 경우, 윈도우 사이즈가 충분히 크지 않으며, 음이 부드럽게 이어지지 못하고 끊어지는 현상이 발생될 수 있다. 표 1은 다양한 장르의 음악에 대한 변화율에 따른 MOS (Mean Opinion Score) 결과이며 제안된 방법이 더 좋은 음질을 유지함을 볼 수 있다. MOS는 1에서 5점까지 표시가능하며, 1이 가장 낮은 음질, 5가 가장 높은 음질을 나타내고 있다.
참고문헌 (12)
ISO/IEC IS, 11172-3, Coding of moving pictures and asso-ciated audio for digital storage media at up to about 1.5 Mbit/s-part3 : Audio, 1992
K. Brandenburg and G. Stall, "lSO-MPEG-1 audio: a generic standard for coding of high-quality digital audio," J. Audio Eng. Soc., vol.42, Oct. 1994, 780-792
S. Roucos and A.M. Wilgus, "High quality time-scale modi-fication for speech," Proc. IEEE lnt. Conf. Acoustics, Speech, and Signal Processing, 493-496, 1985
E. Moulines and F. Charpentier, "Pitch synchronous wave-form processing for text-to-speech synthesis using di-phones," Speech Communication, 9(5/6), 453-469, 1990
S. Yim and B.I.Pawate, "Computationally Efficient Algorithm for Time Scale Modification (GLS-TSM)," 1996 IEEE Inte-rnational Conference on Acoustics, Speech and Signal Pro-cessing Conference Processing, 1996
Hamdy, K.N. and Tewfik, A.H. etc. "Time-Scale Modification of Audio Signals With Combined Harmonic and Wavelet Representations," 1997 IEEE International Conference on Acousitcs, Speech, and Signal Processing, 1997
M. Dolson, "The phase vocoder: A tutorial," Computer Music Journal 10(4), 14-27, 1986
※ AI-Helper는 부적절한 답변을 할 수 있습니다.