전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.
전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.
A telegram has been used to transmit the emergency news or celebration message. So, it has been very important media in our life. Although the telegram processing is more and more convenient, on the other hand, the telegram service contains only text message. The voice telegram is that delivering us...
A telegram has been used to transmit the emergency news or celebration message. So, it has been very important media in our life. Although the telegram processing is more and more convenient, on the other hand, the telegram service contains only text message. The voice telegram is that delivering user's voice with text message. So, the voice telegram can be delivered sender's emotions and feelings. However, since voice information contains lots of data, large memory size and high cost processor are needed to deliver itself. In this paper, we proposed a new speech waveform coding method that has low complexity and low cost implementation for the voice telegram system. First, we fixed one basic speech waveform per pitch period and measured the waveform similarity between basic and neighbor speech waveform. Second, if the similarity satisfied threshold values, we compress the neighbor speech waveform with pitch and magnitude value per pitch period and if not, we save speech waveform. When the compression is about 45%, we obtained about 4 point in MOS.
A telegram has been used to transmit the emergency news or celebration message. So, it has been very important media in our life. Although the telegram processing is more and more convenient, on the other hand, the telegram service contains only text message. The voice telegram is that delivering user's voice with text message. So, the voice telegram can be delivered sender's emotions and feelings. However, since voice information contains lots of data, large memory size and high cost processor are needed to deliver itself. In this paper, we proposed a new speech waveform coding method that has low complexity and low cost implementation for the voice telegram system. First, we fixed one basic speech waveform per pitch period and measured the waveform similarity between basic and neighbor speech waveform. Second, if the similarity satisfied threshold values, we compress the neighbor speech waveform with pitch and magnitude value per pitch period and if not, we save speech waveform. When the compression is about 45%, we obtained about 4 point in MOS.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 방법을 제안하였다. 먼저 NAMDF로 피치를 검색하여 기준 음성파형을 얻고 각 피치구간별로 유사도를 측정한다.
제안 방법
는 p번째 주기의 Cross NAMDF 파형의 면적이다. 구해진 면적과 기준 피치주기의 NAMDF 파형의 면적을 비교하여 유사도를 측정한다. 유사도 측정은 식 (4)와 같다.
한 주기 안에 나타나는 피크들의 특성을 비교하기 위하여 대해 (2)와 기준피치 구간을 정한다. 그리고 인근피치 주기에 Cross NAMDF를 수행하였다. Cross NAMDF는 식(2)와 같다.
그리고 인근피치 주기에 대해 Cross NAMDF를 수행하였다.
기준 면적이 구해지면 처리된 파형의 피치만큼 전진하여새로운 프레임을 잡고 NAMDF를 수행하여 피치를 구하고 진폭정보를 추출한다. 그 후 구해진 피치만큼의 파형을 기준 파형과 식 (2)처럼 Cross NAMDF 수행하여 식 (3)로 면적 Ap를 구한다.
기준 면적이 구해지면 처리된 파형의 피치만큼 전진하여새로운 프레임을 잡고 NAMDF를 수행하여 피치를 구하고 진폭정보를 추출한다. 그 후 구해진 피치만큼의 파형을 기준 파형과 식 (2)처럼 Cross NAMDF 수행하여 식 (3)로 면적 Ap를 구한다.
). 기준 파형의 진폭정보를 추출하고 기준 피치주기만의 NAMDF를 수행하여 기준면적을 구한다. 기준면적은 유사도가 문턱 값 이하로 되어 기준 파형이 달라질 때 새로이구해진다.
이러한 포만트의 정보는 한 피치주기 사이에 나타나는 피크의 수와 모양, 크기, 위치 등에 좌우된다. 따라서 유사도를 측정하기 위하여 인접한 피치 주기에 나타나는 피크들의 특성을 비교하였다.
본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 방법을 제안하였다. 먼저 NAMDF로 피치를 검색하여 기준 음성파형을 얻고 각 피치구간별로 유사도를 측정한다. 유사도의 문턱값을 정하여 음성파형의 압축 여부를 결정한다.
본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 방법을 제안하였다. 먼저 NAMDF로 피치를 검색하여 기준 음성파형을 얻고 각 피치구간별로 유사도를 측정한다. 유사도의 문턱값을 정하여 음성파형의 압축 여부를 결정한다.
본 논문에서 제안한 방법을 시뮬레이션하기 위해 IBM-PC/-Pentium-150MHz에 마이크 입력이 가능한 16비트 A/D변환기를 인터페이스하여 8k田의 표본화율로 16비트양자화하여 저장하였다. 시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다.
본 논문에서 제안한 방법을 시뮬레이션하기 위해 IBM-PC/-Pentium-150MHz에 마이크 입력이 가능한 16비트 A/D변환기를 인터페이스하여 8k田의 표본화율로 16비트양자화하여 저장하였다. 시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다.
본 논문에서는 NAMDF를 이용하여 피치를 검색하고 유사도 측정 구간을 정하였다. 그리고, 한 구간 안의 피크들의 변화는 Cross NAMDF법을 이용하여 측정할 수 있다.
본 논문에서는 NAMDF를 이용하여 피치를 검색하고 유사도 측정 구간을 정하였다. 그리고, 한 구간 안의 피크들의 변화는 Cross NAMDF법을 이용하여 측정할 수 있다.
본 논문에서는 피치단위로 기준 피치 파형과 인근 피치파형의 유사도를 측정하여 유사도가 높은 경우 피치정보와 진폭정보만을 전송하거나 저장하는 방법을 이용하여 음성을 압축하는 새로운 부호화 방법을 보이스 전보용음성압축 알고리즘으로 제안하였다. Cross Normalized AMDF로 유사도를 측정하여 압축하였고 PSOLA 기법을 사용하여 압축된 파형을 복원하였다.
본 논문에서는 피치단위로 기준 피치 파형과 인근 피치파형의 유사도를 측정하여 유사도가 높은 경우 피치정보와 진폭정보만을 전송하거나 저장하는 방법을 이용하여 음성을 압축하는 새로운 부호화 방법을 보이스 전보용음성압축 알고리즘으로 제안하였다. Cross Normalized AMDF로 유사도를 측정하여 압축하였고 PSOLA 기법을 사용하여 압축된 파형을 복원하였다.
대상 데이터
본 논문에서 제안한 방법을 시뮬레이션하기 위해 IBM-PC/-Pentium-150MHz에 마이크 입력이 가능한 16비트 A/D변환기를 인터페이스하여 8k田의 표본화율로 16비트양자화하여 저장하였다. 시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다. 실험에 사용한 음성 데이터는 표 1과 같이 분류한4가지의 메시지를 남, 여 화자가 발성하여 수집하였다.
본 논문에서 제안한 방법을 시뮬레이션하기 위해 IBM-PC/-Pentium-150MHz에 마이크 입력이 가능한 16비트 A/D변환기를 인터페이스하여 8k田의 표본화율로 16비트양자화하여 저장하였다. 시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다. 실험에 사용한 음성 데이터는 표 1과 같이 분류한4가지의 메시지를 남, 여 화자가 발성하여 수집하였다.
시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다. 실험에 사용한 음성 데이터는 표 1과 같이 분류한4가지의 메시지를 남, 여 화자가 발성하여 수집하였다.
시뮬레이션 시 피치분석 프레임단위를 256표본으로 하였으며, 피치주기 단위로 부호화하였다. 실험에 사용한 음성 데이터는 표 1과 같이 분류한4가지의 메시지를 남, 여 화자가 발성하여 수집하였다.
이론/모형
본 논문에서는 피치단위로 기준 피치 파형과 인근 피치파형의 유사도를 측정하여 유사도가 높은 경우 피치정보와 진폭정보만을 전송하거나 저장하는 방법을 이용하여 음성을 압축하는 새로운 부호화 방법을 보이스 전보용음성압축 알고리즘으로 제안하였다. Cross Normalized AMDF로 유사도를 측정하여 압축하였고 PSOLA 기법을 사용하여 압축된 파형을 복원하였다.
본 논문에서는 피치단위로 기준 피치 파형과 인근 피치파형의 유사도를 측정하여 유사도가 높은 경우 피치정보와 진폭정보만을 전송하거나 저장하는 방법을 이용하여 음성을 압축하는 새로운 부호화 방법을 보이스 전보용음성압축 알고리즘으로 제안하였다. Cross Normalized AMDF로 유사도를 측정하여 압축하였고 PSOLA 기법을 사용하여 압축된 파형을 복원하였다.
보이스 전보에서는 복잡도가 낮은 합성법을 사용해야 한다. 그래서 본 논문에서 사용한 합성 방법은 PSOLA(Pitch Synchronous OverLab Add) 방법이다. 이 방법은 음성신호를 복원할 때 스펙트럼 왜곡율과 복잡성이 낮은 장점이 있다[7][8].
본 논문에서는 NAMDF를 이용하여 피치를 검색하고 유사도 측정 구간을 정하였다. 그리고, 한 구간 안의 피크들의 변화는 Cross NAMDF법을 이용하여 측정할 수 있다. 본 논문에서는 Cross NAMDF법을 이용하여 파형의 유사도 측정에 적용하였다.
그리고, 한 구간 안의 피크들의 변화는 Cross NAMDF법을 이용하여 측정할 수 있다. 본 논문에서는 Cross NAMDF법을 이용하여 파형의 유사도 측정에 적용하였다.
그림 6은 제안한 부호화기의 블록도이다. 부호화단에서한 프레임에 대한 NAMDF법을 사용하여 피치를 구한다. 피치는 그림 3의 (b)에서 가장 먼저 영점에 가까워지는 Valley까지의 간격으로 정한다.
그림 6은 제안한 부호화기의 블록도이다. 부호화단에서한 프레임에 대한 NAMDF법을 사용하여 피치를 구한다. 피치는 그림 3의 (b)에서 가장 먼저 영점에 가까워지는 Valley까지의 간격으로 정한다.
성능/효과
제안한 음성파형 부호화법은 유성음만 압축을 수행하고있으나, 무성음 및 묵음에 대해서도 압축을 수행한다면, 좀더 높은 압축율을 얻을 수 있다. 본 논문에서 제안하는 음성파형 부호화법의 특징은 알고리즘이 매우 간단하다는 특징이 있다. 따라서 보이스 전보와 같이 음성 부호화법을 이용하여 상품화하려는 분야에 제안한 방법을 이용할 경우 저가의 범용칩을 이용하여 상품화할 수 있으므로 대외 경쟁력을 가질 수 있다.
압축할 경우에는 진폭과 피치정보만을 저장한다. 실험결과 전체 음성의 45%정도로 압축하여도 MOS 4.1을 유지하는 것을 볼 수 있었다.
압축할 경우에는 진폭과 피치정보만을 저장한다. 실험결과 전체 음성의 45%정도로 압축하여도 MOS 4.1을 유지하는 것을 볼 수 있었다.
이렇게 하여 음성을 압축하였을 경우 압축율에 따른 결과를 표 2에 나타내었다. 표 2에서 볼 수 있듯이 전체 음성의 45%로 압축 수행결과 약 4.1의 MOS를 얻었고 38.8%, 30.4%, 23.9% 일 때 각각 3.9, 3.7, 3.1의 MOS를 얻을 수 있었다.
이렇게 하여 음성을 압축하였을 경우 압축율에 따른 결과를 표 2에 나타내었다. 표 2에서 볼 수 있듯이 전체 음성의 45%로 압축 수행결과 약 4.1의 MOS를 얻었고 38.8%, 30.4%, 23.9% 일 때 각각 3.9, 3.7, 3.1의 MOS를 얻을 수 있었다.
후속연구
제안한 음성파형 부호화법은 유성음만 압축을 수행하고있으나, 무성음 및 묵음에 대해서도 압축을 수행한다면, 좀더 높은 압축율을 얻을 수 있다. 본 논문에서 제안하는 음성파형 부호화법의 특징은 알고리즘이 매우 간단하다는 특징이 있다.
제안한 음성파형 부호화법은 유성음만 압축을 수행하고있으나, 무성음 및 묵음에 대해서도 압축을 수행한다면, 좀더 높은 압축율을 얻을 수 있다. 본 논문에서 제안하는 음성파형 부호화법의 특징은 알고리즘이 매우 간단하다는 특징이 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.