[논문]포만트 공간에서의 주파수 변환을 이용한 이중 언어 음성 변환 연구

채의근; 윤영선; 정진만; 은성배

doi:10.13064/ksss.2014.6.4.133

문제 정의

기존의 연구들은 음성 변환에 사용되는 다양한 매개 변수를 조정하여 진행하였으며, 대부분 음성 변환 과정을 음성 합성 시스템 속에 구현하였다. 그러나 본 연구는 음성 합성 시스템의 내부 알고리즘이나 단위 선택의 과정을 변형하지 않고, 음성 합성의 결과를 직접 주파수 변환하여 음성을 변환하고자 하였다. 음성 합성 시스템과 독립적인 음성 변환 방법은 음성 합성 시스템에서 사용되는 다양한 조절 요인들을 사용할 수 없기 때문에 문제 해결이 더욱 어려워진다.
본 연구에서는 음성 합성기의 결과를 이용하여 다국어 음성 출력에 사용할 수 있는 음성 변환연구를 수행하였다. 변환된 음성의 음질 및 인지도를 향상시키기 위하여 주파수 직접 변환, 행렬 역변환에 의한 주파수 변환, LSF 특징 표현에 의한 음성 변환 등 여러 가지 방법을 사용하였다.
또한 음성 변환은 텍스트 입력을 음성으로 변환하는 음성 합성(TTS; Text-To-Speech) 장치에 포함되거나 음성 합성 장치의 일부 기법으로 사용된다. 본 연구에서는 일반적인 음성 변환연구와 달리 음성 합성 장치를 사용하기 어렵거나, 음성 합성의 결과만을 이용한 환경에서 서로 다른 언어의 발성화자 간의 음성 변환을 연구하였다.

제안 방법

)와 14차 LPC 기반의 선형 스펙트럼 주파수(LSF), 변환 방법에 따라 부분선형변환(PLW), 행렬 연산(MAT), 특징의 제약조건에 따라 (Magnitude-Mg, Phase-Ph), 포만트 공간의 제약 조건에 따라 (All, FS)로 구분하였다. LSF 특징의 경우 크기와 위상으로 분리되지 않기 때문에 모든 프레임 (All)과 포만트 공간(FS)에 포함된 프레임으로 구분하여 실험하였다.
사용하는 선형 예측 분석법(linear prediction analysis)을 이용하여 주파수의 직접 변환 대신 스펙트럼 포락(spectral envelope)를 나타내는 계수를 이동(변환)시켜 목적 화자의 음성을 얻는 방법을 제안한다. 기존 연구의 주파수 직접 변환 방법과 선형 스펙트럼 주파수 변환에 의한 음성 변환 방법을<그림 3>과 같이 비교하였다.
본 연구는 F1-F4의 포만트 벡터를 이용하여 화자의 발성 분포를 모델링하고, 원 화자와 목적 화자의 포만트 공간을 이용한 기존의 음성 변환 방법을 개선하였다[11]. 기존의 연구 방법이 가중 선형 주파수 변환에 의하여 크기나 위상, 또는 주파수 공간에 속한 원 화자의 음성을 대상으로 변환을 하였다면, 본 연구에서는 선형 스펙트럼 주파수(LSF; Line Spectral Frequencies)를 이용하며, 행렬 변환에 의한 직접 변환을 고려하였다.
따라서 본 연구에서는 음성 분석 및 합성, 신호처리 등에서 많이 사용하는 선형 예측 분석법(linear prediction analysis)을 이용하여 주파수의 직접 변환 대신 스펙트럼 포락(spectral envelope)를 나타내는 계수를 이동(변환)시켜 목적 화자의 음성을 얻는 방법을 제안한다. 기존 연구의 주파수 직접 변환 방법과 선형 스펙트럼 주파수 변환에 의한 음성 변환 방법을<그림 3>과 같이 비교하였다.
Matrix computation). 또한 입력 프레임을 목적 프레임으로 변환할 때 크기만 변환한 것인지, 위상까지 같이 고려하였는 지로 구분하였다 (Only Magnitude vs. Magnitude, Phase). 입력 프레임의 위치가 포만트 공간에 포함되었는지에 따라 다시 구분하였으며 (All frames vs.
이를 고려하여, 입력 프레임이 포만트 공간 밖에 위치하면 외삽 방법에 의하여 포만트 가중치를 근사하였다. 또한, 실험 환경에서 포만트 공간 안에 프레임이 존재하는 경우에는 음성 변환을 실시하고 포만트 공간 밖에 존재하면 음성 변환을 하지 않는 조건을 추가하였다 (FS: formant space 조건).
본 연구에서는 음성 합성기의 결과를 이용하여 다국어 음성 출력에 사용할 수 있는 음성 변환연구를 수행하였다. 변환된 음성의 음질 및 인지도를 향상시키기 위하여 주파수 직접 변환, 행렬 역변환에 의한 주파수 변환, LSF 특징 표현에 의한 음성 변환 등 여러 가지 방법을 사용하였다. 주파수 직접 변환의 경우 주파수 공간에서 크기와 위상의 적용 방법에 따라 음질 및 음성 변환의 성능 저하가 관측되었으며, LSF 방식의 경우 선형 예측 방법에 적용되는 계수에 직접적인 영향을 가해 음성 변환을 실시하였다.
본 연구는 F1-F4의 포만트 벡터를 이용하여 화자의 발성 분포를 모델링하고, 원 화자와 목적 화자의 포만트 공간을 이용한 기존의 음성 변환 방법을 개선하였다[11]. 기존의 연구 방법이 가중 선형 주파수 변환에 의하여 크기나 위상, 또는 주파수 공간에 속한 원 화자의 음성을 대상으로 변환을 하였다면, 본 연구에서는 선형 스펙트럼 주파수(LSF; Line Spectral Frequencies)를 이용하며, 행렬 변환에 의한 직접 변환을 고려하였다.
그림에서 살펴본 바와 같이 LPC 포락은 주파수 스펙트럼의 피크를 따라가면서 모델링하고 있고, LSF 변수는 주요 특징 위치에 존재함을 알 수 있다. 본 연구에서는 LSF 변수의 위치를 선행 연구에서 사용하였던 부분 선형 함수를 이용하여 변경한 후, LPC의 역변환을 거쳐 목적 화자의 음성을 생성한다.
본 연구에서는 각 적용 방법과 문장에 따른 효과를 분석하기 위하여 선행 연구와 달리 개별 문장에 대하여 ABX와 음질 평가를 진행하였으며, 실험 조건은 <그림 6>과 같이 총 10가지 방법으로 진행하였다. 실험 조건에서 (1)~(3) 방법은 선행 연구의 방법과 동일하다.
본 장에서는 기존의 연구인 가중 선형 주파수 변환을 요약하고 선형 스펙트럼 주파수를 이용한 주파수 변환 및 역행렬을 이용한 음성 변환 방법을 제안한다. 제안된 방법은 선행 연구가 진행된 후 방법론을 개선하여 직접 주파수를 변환하는 대신, 선형 스펙트럼 주파수를 이용하여 주파수의 크기와 위상을 같이 고려한 방법이다[14].
실험 대상자는 목적 화자 음성(한국어), 원 화자 음성(영어) 3 문장, 그리고 이중 언어를 사용하는 화자(Jennifer Clyde)의 인터뷰 동영상[16]을 시청한 후 평가를 진행하도록 하였다. 실험에 사용된 문장은 <표 3>과 같다.
실험 방법은 사용하는 음성 특징에 따라 주파수 직접 변환과 LSF로 구분하였으며 (Feature vs. LSF), 변환 함수의 종류에 따라 부분 선형 변환 함수와 행렬 역변환에 따라 구분하였다 (Piecewise linear transform vs. Matrix computation). 또한 입력 프레임을 목적 프레임으로 변환할 때 크기만 변환한 것인지, 위상까지 같이 고려하였는 지로 구분하였다 (Only Magnitude vs.
실험 결과는 <표4>와 같다. 실험에 사용된 특징에 따라 주파수 (Freq.)와 14차 LPC 기반의 선형 스펙트럼 주파수(LSF), 변환 방법에 따라 부분선형변환(PLW), 행렬 연산(MAT), 특징의 제약조건에 따라 (Magnitude-Mg, Phase-Ph), 포만트 공간의 제약 조건에 따라 (All, FS)로 구분하였다. LSF 특징의 경우 크기와 위상으로 분리되지 않기 때문에 모든 프레임 (All)과 포만트 공간(FS)에 포함된 프레임으로 구분하여 실험하였다.
음성 합성 시스템과 독립적인 음성 변환 방법은 음성 합성 시스템에서 사용되는 다양한 조절 요인들을 사용할 수 없기 때문에 문제 해결이 더욱 어려워진다. 연구의 제약조건으로 인하여 본 논문에서는 포만트 공간을 이용한 단순하면서도 직관적인 주파수 변환 방법을 이용하여 음성 변환을 시도하였다.
음성 변환 함수를 계산하기 위하여 원 화자의 음성(영어)과 목적 화자(한국어)의 음성에서 선형 예측 분석(LPC) 방식에 의하여 포만트를 4차까지 계산하였다. 영어와 한국어의 경우 모음 음소가 정확히 대응되지 않기 때문에 포만트 공간을 잘 표현할 수 있는 4개의 음소를 선택하였으며, 그 4개의 음소들 간의 부분 선형 정합 함수는 <그림 2>와 같다.
이를 고려하여, 입력 프레임이 포만트 공간 밖에 위치하면 외삽 방법에 의하여 포만트 가중치를 근사하였다. 또한, 실험 환경에서 포만트 공간 안에 프레임이 존재하는 경우에는 음성 변환을 실시하고 포만트 공간 밖에 존재하면 음성 변환을 하지 않는 조건을 추가하였다 (FS: formant space 조건).
일반적으로 F1-F2 다이어그램의 경우 입 모양과 혀의 위치 등을 고려하여 9~10개의 음소에 대한 평행사변형으로 표시하나, 본 연구에서는 영어와 한국어의 경우 일대일 정합이 정확하지 않기 때문에 평행사변형의 꼭지점에 해당하는 4개의 음소(/iy, oo, a, ae/)를 지정하고, 4개의 음소에 의한 다이어그램으로 단순화시켰다.
<그림 1>은 미국 영어의 전형적인 F1-F2 다이어그램[10]과 본 연구에서 사용한 한국어 화자와 영어 화자의 F1-F2 다이어그램을 표시한다. 일반적으로 포만트를 추출하는 방법은 LPC 방식이나 AR 방식을 많이 도입하나, 본 연구에서는 LPC 방식에 기초한 LSF 방식을 적용하기 때문에 LPC 방식을 적용하였다. 한국어와 영어의 음성은 모음이 포함된 단어를 생성한 후 해당 음모음을 분할한 후 LPC 방식을 적용하여 포만트를 계산하였다.
Magnitude, Phase). 입력 프레임의 위치가 포만트 공간에 포함되었는지에 따라 다시 구분하였으며 (All frames vs. In formant space), 주파수 직접 변환 특징의 경우에는 선행 연구와의 비교를 위해 크기 정보만을 적용하여 포만트 공간의 포함 여부를 실험하였다.
본 장에서는 기존의 연구인 가중 선형 주파수 변환을 요약하고 선형 스펙트럼 주파수를 이용한 주파수 변환 및 역행렬을 이용한 음성 변환 방법을 제안한다. 제안된 방법은 선행 연구가 진행된 후 방법론을 개선하여 직접 주파수를 변환하는 대신, 선형 스펙트럼 주파수를 이용하여 주파수의 크기와 위상을 같이 고려한 방법이다[14].
제안하는 방법은 음성 변환 함수 τ(ｆ)를 가중치의 합으로 계산하지 않고 대표 음소의 포만트 특성으로 표현된 행렬의역 행렬값으로 음성 변환 함수를 계산하는 방법이다.
변환된 음성의 음질 및 인지도를 향상시키기 위하여 주파수 직접 변환, 행렬 역변환에 의한 주파수 변환, LSF 특징 표현에 의한 음성 변환 등 여러 가지 방법을 사용하였다. 주파수 직접 변환의 경우 주파수 공간에서 크기와 위상의 적용 방법에 따라 음질 및 음성 변환의 성능 저하가 관측되었으며, LSF 방식의 경우 선형 예측 방법에 적용되는 계수에 직접적인 영향을 가해 음성 변환을 실시하였다. 실험 결과 LSF 특징에 기초한 변환 방법이 음질 면이나 인지도 면에서 좋은 결과를 보였다.
기존의 연구[9,12,13]와 다르게 선행 연구에서는 텍스트에 독립적인 음성 변환 방법을 사용하였다. 텍스트 정보를 이용하지 않기 때문에 기준이 되는 음향학적 특징이 필요하였으며, 4개의 대표 음소 (/iy, oo, a, ae/)를 선정하여 음성 변환의 지표로 삼았다. 가중 주파수 변환의 기본 알고리즘은 <표 1>에 개략적으로 정리하였다.
한국어와 영어는 2003과 2008년에 녹음된 음성을 사용하였으며, 한국 표준어와 미국 펜실베니아 지역성을 띄고 있다. 한국어 음성과 영어 음성은 피치 동기형 중첩 합성방식(PSOLA; Pitch Synchronous Overlap and Add)으로 합성되었으며, 16kHz로 생성되었다.
일반적으로 포만트를 추출하는 방법은 LPC 방식이나 AR 방식을 많이 도입하나, 본 연구에서는 LPC 방식에 기초한 LSF 방식을 적용하기 때문에 LPC 방식을 적용하였다. 한국어와 영어의 음성은 모음이 포함된 단어를 생성한 후 해당 음모음을 분할한 후 LPC 방식을 적용하여 포만트를 계산하였다.

대상 데이터

대부분 20대의 남성들로 (40대 남성 1명, 20대 여성 1명, 나머지 20대 남성) 구성된 총 17명의 실험 대상자가 ABX 실험에 참여하였으며, 그중 13명이 음질 평가에 참여하였다. 실험 결과는 <표4>와 같다.
본 연구에서는 보이스웨어의 TTS 시스템[15]에서 생성된 한국어와 영어 여자 음성을 사용하였다. 한국어와 영어는 2003과 2008년에 녹음된 음성을 사용하였으며, 한국 표준어와 미국 펜실베니아 지역성을 띄고 있다.
영어와 한국어의 경우 모음 음소가 정확히 대응되지 않기 때문에 포만트 공간을 잘 표현할 수 있는 4개의 음소를 선택하였으며, 그 4개의 음소들 간의 부분 선형 정합 함수는 와 같다.

성능/효과

주파수 직접 변환의 경우 주파수 공간에서 크기와 위상의 적용 방법에 따라 음질 및 음성 변환의 성능 저하가 관측되었으며, LSF 방식의 경우 선형 예측 방법에 적용되는 계수에 직접적인 영향을 가해 음성 변환을 실시하였다. 실험 결과 LSF 특징에 기초한 변환 방법이 음질 면이나 인지도 면에서 좋은 결과를 보였다. 추후 연구로는 단일 화자인 경우에도 포만트 특성이 변화하기 때문에, 현재의 단일 포만트 공간을 개선하여 통계적 방법을 적용한 포만트 공간을 고려한 음성 변환이 필요하다고 판단한다.
실험결과 선행 연구와 달리 주파수 직접 변환한 경우 음성 변환이 제대로 이뤄지지 않았다고 평가하였으며 (영어 화자 음성을 영어 화자가 발성한 것으로 평가), LSF의 경우 선행 연구보다 음성 변환의 잘 이뤄졌다고 평가하였다(영어 화자 음성을 한국 화자가 영어로 발성한 것으로 평가). 또한, LSF 특징을 이용한 경우가 주파수 특징을 사용한 경우보다 음질 면에서 우수한 평가를 받았다.
주파수 직접 변환에서 우수한 음질의 경우, 원 화자의 음성이 목적 화자의 음성과 유사하게 변환되지 않았으며, LSF 특징을 이용한 경우 음질의 저하는 크지 않으면서 음성 변환이잘 이뤄졌다고 평가되었다. 주파수 직접 변환의 경우 크기와 위상을 동시에 변환하는 경우 음질의 저하가 많이 발생하고, 위상은 원 화자의 위상을 사용하고, 크기 변환 또한 포만트 공간에 포함된 프레임만 허용하는 경우 음성 변환의 성능이 저하되어 음성 변환과 음질의 반비례관계가 형성된 것으로 판단한다.
행렬 연산에 의한 음성 변환 결과는 부분 선형 함수를 이용한 방법보다는 성능이 저하되었지만, 변환 과정이 간단하여 화자의 포만트 변이가 큰 경우에 사용할 수 있을 것이라고 판단한다. 특이할 점은 ABX 테스트에서 None의 비율이 높아졌다는 것이다. 즉, 원 화자의 음성과 목적 화자의 음성과 비교하였을 경우, 구별하기 어렵다는 평가가 증가하였다는 것이다.

후속연구

본 논문은 음성 합성기의 결과를 이용하여 연구되었으나, 화자의 포만트 정보는 동일한 음소라도 주위 음소나 감정 등에 의하여 변이가 심하기 때문에 통계적 모델링을 적용할 수 있다면 자연 음성에 적용할 수 있으며, 이 경우 몇 문장의 음성 샘플에 의하여 다중 언어 간의 음성 변환도 가능할 것으로 기대한다.
실험 결과 LSF 특징에 기초한 변환 방법이 음질 면이나 인지도 면에서 좋은 결과를 보였다. 추후 연구로는 단일 화자인 경우에도 포만트 특성이 변화하기 때문에, 현재의 단일 포만트 공간을 개선하여 통계적 방법을 적용한 포만트 공간을 고려한 음성 변환이 필요하다고 판단한다.
행렬 연산에 의한 음성 변환 결과는 부분 선형 함수를 이용한 방법보다는 성능이 저하되었지만, 변환 과정이 간단하여 화자의 포만트 변이가 큰 경우에 사용할 수 있을 것이라고 판단한다. 특이할 점은 ABX 테스트에서 None의 비율이 높아졌다는 것이다.

핵심어	질문	논문에서 추출한 답변
	대부분의 음성 변환연구의 목적은?	음성 변환(voice conversion) 기법은 발성 화자의 개인성을 변환하는 것으로서, 원 화자(source speaker)의 특성을 나타내는 음성 특징을 목적 화자(target speaker)의 음성 특징으로 변환하는 것을 말한다[1]. 대부분의 음성 변환연구는 동일한 언어 사용자 간의 화자 변환 등을 목적으로 한다. 즉, 동일한 언어 환경에서 남성 화자를 다른 남성 화자로 변환하거나, 남성 화자를 여성 화자, 또는 여성 화자를 남성 화자로 변환한다.
	음성 변환(voice conversion) 기법은 무엇인가?	음성 변환(voice conversion) 기법은 발성 화자의 개인성을 변환하는 것으로서, 원 화자(source speaker)의 특성을 나타내는 음성 특징을 목적 화자(target speaker)의 음성 특징으로 변환하는 것을 말한다[1]. 대부분의 음성 변환연구는 동일한 언어 사용자 간의 화자 변환 등을 목적으로 한다.
	포만트 주파수를 이용하여 음성 변환에 적용하는 연구에는 어떤 것들이 있는가?	포만트 주파수를 이용하여 음성 변환에 적용하는 연구는 많이 진행되고 있다. 대표적인 연구로는 부공간 코드북 변환[1], 신경회로망을 이용한 변환[3], 성도길이 정규화(VTLN; vocal tract length normalization)를 이용한 방법[4,5]등이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 포만트 공간에서의 주파수 변환을 이용한 이중 언어 음성 변환 연구
Bilingual Voice Conversion Using Frequency Warping on Formant Space 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 포만트 공간에서의 주파수 변환을 이용한 이중 언어 음성 변환 연구 Bilingual Voice Conversion Using Frequency Warping on Formant Space 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

채의근 (9) 윤영선 (29) 정진만 (20) 은성배 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 포만트 공간에서의 주파수 변환을 이용한 이중 언어 음성 변환 연구
Bilingual Voice Conversion Using Frequency Warping on Formant Space 원문보기

AI 본문요약
AI-Helper