[논문]천정형 배열 마이크를 이용한 강의용 광역 마이크 시스템

오우진

doi:10.6109/jkiice.2018.22.4.624

문제 정의

마이크 감도는 기기의 고정값이므로 실제로는 수신단에서 증폭 이득만 조정할 수 있다. 그러므로 본 논문에서는 수신 증폭을 조절하여 셀 내의 모든 사용자는 구분 없이 동시에 수신하고 다른 셀의 사용자는 감쇄되도록 제안할 것이다.
다른 셀의 신호에 대한 알아보자. 마이크는 사용자를 구분할 수 없으므로 인접 셀의 신호가 미약하더라도 현재 셀의 사용자 신호를 수신하고 있으면 동시에 수신될 것이다.
다수의 셀이 존재하는 경우에 다른 셀에 존재하는 사용자의 신호가 분리되는지 방안을 알아보자. 두 명의사용자가 각각 β와 γ에 있다고 가정하면 수신은 셀(A-B-C), (B-C-D), (C-D-E)로 구성된 모듈 1~3이 사용될 것이다.
단일 사용자가 이동하는 경우에 핸드오버에 관해 알아보자. 그림 5의 셀에서 사용자가 α에 있는 경우에 셀(A-B-C)의 모듈 1과 셀 (B-C-D)의 모듈 2에서 모두 수신된다.
마이크 셀에 대하여 알아보자. 그림 5와 같이 각 셀은 1개의 마이크로 이루어지며 셀 반경 r보다 이격거리d를 작게 설정하여 일부 겹치도록 한다.
마이크를 손이나 몸에 착용하지 않고 넓은 범위에서 사용하는 기존의 방법을 알아보자. 기존의 연구들은 화상회용으로 개발되어 고감도의 줌 마이크를 사용하거나 배열 구조의 빔포밍 기법이 많이 사용되고 있다[1].
먼저 무성음을 검출하는 방법을 알아보자. 기존에 피치 추출, 영점 검출 등과 같은 다양한 방법이 제시되어 왔으나 본 논문에서는 무성음의 자기상관 특성만 이용하므로 이를 적용하였다[5].
본 논문에서는 강의 시스템에 적용 가능한 저가의 광역 마이크를 제안하고자 한다. 강의 시스템은 수신 범위가 강단으로 한정되고 단일 또는 소수의 화자만 존재한다는 것과 화상회의와 달리 강연자가 이동할 수 있다는 특징이 있다.
본 논문에서는 강의시스템에 적합한 광역 마이크 기법을 제안하였다. 기존의 광역 마이크는 수십 개의 배열 마이크에 빔포밍 방식을 적용하여 원거리 수신하는 것으로 구현이 복잡하여 고가의 전문 화상회의 시스템에서 한정적으로 상용화되어 있다.
음성의 수신부인 마이크를 셀(cell)로 운영하고 핸드오버(Handover)를 지원하려면 이동통신의 의사 잡음과 같은 직교 부호의 신호가 필수적이다. 사람의 음성에 특수 부호를 넣는 것은 불가능하므로 본 논문에서는 음성 신호에서 무성음이 백색잡음과 유사한 상관 특성을 갖는 것에 착안하여 이를 활용하였다. 자기 상관(AutoCorrelation)이 임펄스(Impulse) 형태로 나타나면 무성음으로 판정하고 이 구간의 신호를 다수의 마이크에서 상호상관(Cross Correlation)으로 지연과 에너지를 검출하는 것이다.
천정에 부착하는 원거리 마이크를 사용하므로 전달 특성은 장애물이 없는 강한 LOS (Line-of-sight)의 자유공간 감쇄를 적용하였다. 이러한 환경에서 마이크 셀과 핸드오버에 대하여 적용 방안을 알아보겠다.

가설 설정

두 명의사용자가 각각 β와 γ에 있다고 가정하면 수신은 셀(A-B-C), (B-C-D), (C-D-E)로 구성된 모듈 1~3이 사용될 것이다.
먼저 β에 동기 되었다고 가정하면 β를 기준으로 상호상관을 구하므로 셀 B는 충분한 상호상관 값이 얻어져 정확한 지연으로 보상될 것이다.
무음 구간에서는 모든 신호가 없으므로 핸드오버나 제안된 방식은 동작하지 않을 것이다. 화자가 다시 발성을 시작하면 음성 데이터의 획득 시간인 20ms의 시간 지연 후에는 정상 동작하게 될 것이다.
본 논문은 첨단 강의실에 사용되는 마이크 시스템에 대한 광역화 방안이므로 동작환경을 다음과 같이 가정하였다. 적용 면적은 교실과 교단의 크기에 따라 설정하고 강단에 2명 이하의 화자만 존재한다고 가정하였다.
본 논문은 첨단 강의실에 사용되는 마이크 시스템에 대한 광역화 방안이므로 동작환경을 다음과 같이 가정하였다. 적용 면적은 교실과 교단의 크기에 따라 설정하고 강단에 2명 이하의 화자만 존재한다고 가정하였다. 천정에 부착하는 원거리 마이크를 사용하므로 전달 특성은 장애물이 없는 강한 LOS (Line-of-sight)의 자유공간 감쇄를 적용하였다.
4%를 무성음으로 판정하였다. 참고로 모의 실험에서는 셀의 범위를 제한하지 않고 모든 음원을 수신 가능한 것으로 가정하고 진행하였다. 그림 9c)는 마이크 C에서 검출된 지연과 그때의 첨두치이다.

제안 방법

강의 시스템을 위한 광역 마이크에 사용되는 모듈의 블록도는 그림 8과 같다. 3개의 마이크 셀로부터 신호를 수신하여 중앙의 셀에서 자기상관으로 무성음을 검출하고 해당 신호가 기준 신호이상이면 다른 셀의 신호와 상호상관을 구한다. 상관 값이 기준값 이상이면 지연과 크기에 따라 보정한 최종 출력이 얻어진다.
이동통신에서는 넓은 지역을 서비스하기 위하여 다수의 셀을 배치하고 사용자가 다른 셀로 이동해도 통화가 끊이지 않고 계속 이루어진다. 강의용 마이크 시스템에 이와 유사하게 강단 영역에 대하여 마이크에 셀 방식을 적용하여 마이크를 들거나 착용하지 않고 자유롭게 이동이 가능하게 제안한다. 이 방식은 천정에 부착된 마이크가 셀의 역할을 수행하고 소프트 핸드오버로 음성이 자연스럽게 전환되어 광역 마이크 서비스가 가능한 것이다.
그러므로 무성음 검출은 다음과 같이 지연이 0일 때의 상관 값과 나머지 구간의 최대값이 갖는 비율로 결정하였다
예를 들면 α에 사용자가 존재하면 셀 A와 B는 동시에 수신이 가능할 것이다. 동일 신호를 두 셀에서 수신될 때 이를 결합하는 것이 필요하여 그림 6과 같이 3개 셀이 연결된 모듈을 도입하였다. 모듈은 여러 셀의 신호를 지연-합(delay-sum)으로 결합하는 역할을 수행한다.
즉 모듈에서 20ms의 음성데이터를 획득하고 지연 d_k와 크기 w_k를 계산하는 동안에 수 cm 정도이동하므로 전달 특성 변화는 적을 것이다. 따라서 모듈에서 지연-합의 연산을 추정에 사용된 음성이 아닌 지연 적응필터(Delayed Adaptive Filter)처럼 현재의 수신 음성에 직접 적용하였다[9]. 식 (7)에서 연산 시간 M만큼 지연된 d_k(n-M)을 사용해도 문제가 없다는 것이다.
실시간 구현을 위하여 동작환경을 분석하여 자기상관과 상호상관의 지연 범위를 대폭 줄일 수 있었다. 또한 제안된 시스템의 입출력 지연을 줄이기 위하여 현재의 입력에 대해 지연-합 연산을 적용하였다.
마이크 셀은 음성 중에서 무성음이 백색잡음과 유사한 상관 특성을 갖는 것을 이용하여 구현하였다. 자기 상관의 임펄스 특성으로 무성음을 검출하고 다수의 마이크 간에 상호상관으로 지연과 에너지를 검출하여 다중 경로 수신기능이 가능함을 보였다.
실험에 사용된 음성은 EBU의 음성 품질 테스트용 파일 중에서 강의와 유사한 영어 음성인 트랙 49, 50번을 사용하였다[10]. 먼저 3개의 마이크 셀로 구성된 모듈로 모의실험을 하였으며, 그림 9a)에 화자와 마이크의 배치를 보였다. 3개의 마이크는 작은 사각형으로 표시하였으며 1.
또한 실시간 음성신호처리에서 요구되는 낮은 입출력 지연, 즉 레이턴시(Latency)를 줄이기 위하여 지연 적응 필터(Delayed Adaptive Filter) 방식을 적용하였다. 모의실험으로 단일 음원에 대하여 벽면 반사까지 포함하여 기능을 검증하였다. 실시간 동작을 검증하기 위하여 고속 MCU인 TMS320F28379D 3개와 Altera Cyclone III FPGA로 기능을 구현하였으며 강의실에서 6.
셀의 크기는 마이크의 최대 수신 거리이내에서 수신 증폭 이득으로 결정할 수 있다. 본 논문에서는 무성음 구간에서의 전력PUV을 이용하여 다음과 같이 설정하였다.
5ms가 될 것이다. 본 논문에서는 자기상관의 연산 범위를 첫 번째 부엽이 포함되도록 설정하였다. 표본 주파수가 44.
5m가 된다. 셀의 크기는 수신 마이크의 최대 수신 거리에 따라 결정되며 본 연구에서는 강단의 폭으로 결정하였다.
모의실험으로 단일 음원에 대하여 벽면 반사까지 포함하여 기능을 검증하였다. 실시간 동작을 검증하기 위하여 고속 MCU인 TMS320F28379D 3개와 Altera Cyclone III FPGA로 기능을 구현하였으며 강의실에서 6.3m x 1.5m의 영역에 대하여 동작을 확인하였다.
단일 셀보다 3개의 마이크 셀로 수신하면 더 우수한 품질을 얻을 수 있을 것이다. 이를 3개의 마이크를 이용한 빔 포밍으로 분석해보자. 전형적인 지연-합 빔 포밍의 주파수 응답특성은 다음과 같다[1].
강의용 마이크 시스템은 교육생에게 화자의 목소리와 스피커 소리가 동시에 들릴 수 있으므로 스피커 출력에 낮은 지연이 요구된다. 이를 위하여 음성프레임의 길이와 사람의 이동 속도를 살펴보자. 보통의 걸음이 4km/s이고 빠른 경우에도 8Km/s이하이므로 20ms동안 이동 거리는 최대 0.
강의 시스템은 수신 범위가 강단으로 한정되고 단일 또는 소수의 화자만 존재한다는 것과 화상회의와 달리 강연자가 이동할 수 있다는 특징이 있다. 제안하는 원거리 마이크 시스템은 이동통신의 기술을 적용하여 기지국과 같은 다수의 원거리 마이크를 셀과 같이 천정에 배치하여 사용 영역을 넓이고, 여러 셀을 연결하여 다중 경로 수신으로 핸드오버와 같이 이동시에도 끊임없이 자동으로 수신되도록 하는 것이다.
적용 면적은 교실과 교단의 크기에 따라 설정하고 강단에 2명 이하의 화자만 존재한다고 가정하였다. 천정에 부착하는 원거리 마이크를 사용하므로 전달 특성은 장애물이 없는 강한 LOS (Line-of-sight)의 자유공간 감쇄를 적용하였다. 이러한 환경에서 마이크 셀과 핸드오버에 대하여 적용 방안을 알아보겠다.

대상 데이터

마이크의 수신 범위는 일반적인 강의실의 강단인 6m x 1.5m이상이 되도록 그림 6과 같이 5개의 마이크를 1.2m 간격으로 직렬 배치하고 3개의 모듈로 구성하였다. 각 셀의 반경은 0.
시험에 사용된 보드 및 마이크를 그림 10에 보였다. 보드는 이전에 개발된 음성처리용 보드를 그대로 사용하였으며 보드는 3개의 TI사의 TMS320F28379D 실시간용 MCU와 1개의 Altera Cyclone III FPGA로 구성되어 있다[12]. 여기서 사용된 MCU는 듀얼 코어의 실시간 신호처리 및 제어를 위한 것으로 다양한 크기의 RAM과 프로그램 메모리와 다양한 확장기능을 제공한다.
실험에 사용된 음성은 EBU의 음성 품질 테스트용 파일 중에서 강의와 유사한 영어 음성인 트랙 49, 50번을 사용하였다[10]. 먼저 3개의 마이크 셀로 구성된 모듈로 모의실험을 하였으며, 그림 9a)에 화자와 마이크의 배치를 보였다.
실험에서는 음성 데이터를 20ms 동안 44.1kHz 표본화하여 사용하여 각 프레임은 880개의 데이터로 구성된다. 무성음 검출을 위한 자기 상관의 지연 범위는 880이지만 수식 (3)에서 설명한 바와 같이 44로 축소하여 연산 양을 95% 줄였다.

이론/모형

기존에 피치 추출, 영점 검출 등과 같은 다양한 방법이 제시되어 왔으나 본 논문에서는 무성음의 자기상관 특성만 이용하므로 이를 적용하였다[5].
제안된 알고리즘의 실시간 구현을 위하여 핵심 연산인 상관(Correlation)에 대해 신호와 동작 조건을 분석하여 계산량을 80%이상 줄였다. 또한 실시간 음성신호처리에서 요구되는 낮은 입출력 지연, 즉 레이턴시(Latency)를 줄이기 위하여 지연 적응 필터(Delayed Adaptive Filter) 방식을 적용하였다. 모의실험으로 단일 음원에 대하여 벽면 반사까지 포함하여 기능을 검증하였다.

성능/효과

상호 상관도 마이크 간의 이격거리 1.2m로부터 지연의 범위를 ±156로 한정하여 계산이 82.3% 감소되었다.
실험 결과 녹음된 평가 음원을 강단에서 이동하며 시행한 경우에는 음의 변화가 적고 정확한 검출이 가능하였다. 그러나 실제 사람으로 시험하는 경우에는 발성 방향에 따라 지향성이 존재하여 감쇄가 발생하였다.
제안된 시스템은 다수의 원거리 마이크를 이동통신의 셀과 같이 천정에 배치하여 사용 영역을 넓이고, 3개의 셀로 구성된 모듈을 제안하여 이동 시에 다중 경로 수신이 가능함을 보였다. 이를 이용하여 강단의 영역에서 마이크를 손에 들거나 몸에 착용하지 않아도 셀 간에 소프트 핸드오버로 자연스러운 음성 전환이 저가로 구현 가능함을 보였다.
마이크 셀은 음성 중에서 무성음이 백색잡음과 유사한 상관 특성을 갖는 것을 이용하여 구현하였다. 자기 상관의 임펄스 특성으로 무성음을 검출하고 다수의 마이크 간에 상호상관으로 지연과 에너지를 검출하여 다중 경로 수신기능이 가능함을 보였다. 실시간 구현을 위하여 동작환경을 분석하여 자기상관과 상호상관의 지연 범위를 대폭 줄일 수 있었다.
0이상으로 표시하였다. 제안된 검출 방식은 음성은 22초 동안 진행되는 전체 음성의 약 8.4%를 무성음으로 판정하였다. 참고로 모의 실험에서는 셀의 범위를 제한하지 않고 모든 음원을 수신 가능한 것으로 가정하고 진행하였다.
제안된 광역 마이크 시스템은 단일 음원에 대하여 벽면 반사까지 포함하여 모의실험으로 기능을 검증하고 신호처리 보드 구현하여 강의실에서 6.3m x 1.5m의 영역에 대하여 실시간 동작을 확인하였다. 화자가 발성방향을 일정하게 유지하며 이동할 때는 정상 동작하였으나 발성 방향이 변하는 경우에는 수신 음량이 10dB이상 급격히 변화하는 문제가 발생하였다.
기존의 광역 마이크는 수십 개의 배열 마이크에 빔포밍 방식을 적용하여 원거리 수신하는 것으로 구현이 복잡하여 고가의 전문 화상회의 시스템에서 한정적으로 상용화되어 있다. 제안된 시스템은 다수의 원거리 마이크를 이동통신의 셀과 같이 천정에 배치하여 사용 영역을 넓이고, 3개의 셀로 구성된 모듈을 제안하여 이동 시에 다중 경로 수신이 가능함을 보였다. 이를 이용하여 강단의 영역에서 마이크를 손에 들거나 몸에 착용하지 않아도 셀 간에 소프트 핸드오버로 자연스러운 음성 전환이 저가로 구현 가능함을 보였다.
제안된 알고리즘의 실시간 구현을 위하여 핵심 연산인 상관(Correlation)에 대해 신호와 동작 조건을 분석하여 계산량을 80%이상 줄였다. 또한 실시간 음성신호처리에서 요구되는 낮은 입출력 지연, 즉 레이턴시(Latency)를 줄이기 위하여 지연 적응 필터(Delayed Adaptive Filter) 방식을 적용하였다.

후속연구

따라서 각 모듈은 항상 동일한 단일 사용자에 대해서만 지연-합으로 결합될 것이다. 동기되지 못한 신호는 동작 셀에서 멀리 있어 전력이 낮고 실제 지연과 다른 값으로 합쳐지므로 분산된 작은 신호로 관찰될 것이다. 따라서 모듈 내에 2명의 사용자가 있는 경우에는 분리가 가능하다.
자기상관의 경우 유성음은 피치간격으로 반복적인 형태로 나타나지만 무성음은 백색잡음(White Noise)처럼 임펄스 형태를 보이고 있다. 또한 유성음에 비하여 사람의 발성에 따라 전력 변동 폭이 적기 때문에 이동통신의 파일럿 신호(Pilot Signal)처럼 활용하면 셀 구분이나 핸드오버를 가능하게 할 것이다.
그림 5의 셀에서 사용자가 α에 있는 경우에 셀(A-B-C)의 모듈 1과 셀 (B-C-D)의 모듈 2에서 모두 수신된다. 최종 결과는 두 모듈에서 각각 지연 합된 결과가 다시 지연-합한 것이 될 것이다. 모듈간의 시간 지연은 셀 B와 C의 지연과 동일하므로 결합이 가능하다.
향후 계획으로 음성 신호가 발음에 따라 나타나는 전력 변화와 동시에 발생하는 것에 대응하는 AGC와 음질을 판정하기 위한 PESQ(Perceptual Evaluation of Speech Quality) 방법을 적용할 예정이다.

핵심어	질문	논문에서 추출한 답변
	빔포밍이란?	빔포밍은 직선 또는 평면상에 배치된 다수의 마이크를 이용하여 특정 방향에 높은 수신 이득을 갖도록 조정하는 것이다. 이 방식은 무선통신 분야에서 활발히 연구되어 MIMO(multiple-input and multiple-output) 등과 연계하여 같은 고속 데이터 전송기법에 활용되고 있다.
	마이크에서 일반적인 빔포밍 기법과 다른 접근이 요구되는 이유는 무엇인가?	일반적인 빔포밍 기법은 그림 1과 같이 간격 d를 파장 λ의 1/2 또는 1/4로 안테나를 배열하여 지향성으로 수신하는 것이다. 그러나 마이크에서 수신하는 음성 신호는 무선통신과 달리 반송파가 없는 기저대역 신호이므로 주파수 변동 폭이 높아서 다른 접근이 요구된다. 예를 들면 무선통신에서 1GHz의 반송파에 10MHz의 대역폭을 사용하는 경우 주파수 변동 비율은 1%이지만 음성 신호는 20Hz~20kHz의 대역폭을 가지므로 1000배의 주파수 변화를 갖고 있다.
	음성 신호는 어떻게 구분되는가?	음성 신호는 유성음(Voiced), 무성음(Unvoiced), 무음(Silence)의 3가지로 구분하며 유성음과 무성음의 특성을 그림 4에 보였다. 유성음은 성대의 진동으로 만들어진 피치(Pitch)의 신호가 성도(Vocal tract)를 통과하며 만들어지며 주파수 특성이 저주파에 집중되고 다수의 첨두치를 갖는 특징을 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

천정형 배열 마이크를 이용한 강의용 광역 마이크 시스템
Wide Coverage Microphone System for Lecture Using Ceiling-Mounted Array Structure 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

천정형 배열 마이크를 이용한 강의용 광역 마이크 시스템 Wide Coverage Microphone System for Lecture Using Ceiling-Mounted Array Structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

오우진 (19)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

천정형 배열 마이크를 이용한 강의용 광역 마이크 시스템
Wide Coverage Microphone System for Lecture Using Ceiling-Mounted Array Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper