본 논문은 ETRI 음성정보연구센터에서 추진하고 있는 공통음성 DB 구축에 관하여 기술한다. 총 3 년(2001 11-2004. 10) 동안 음성인식, 음성합성, 화자인식 등 다양한 용도의 음성 DB 를 수집할 예정이며, 1년차인 2002 년에는 총 14 종의 음성 DB 를 수집할 계획이다. 공통 음성 DB 는 다양한 통신망(마이크, 헤드셋, VoIP, 유무선 전화망), 지역, 성별, 발성환경(사무실, 지하철, 도로 등)을 고려하여 설계하였으며, 발성대상은 숫자, 단어, 문장이고, 발성방법은 자유발화, 대화체, 낭독체 등 다양한 스타일의 음성 DB 로 구성되어 있다. 이에 본 논문에서는 총 14 종에 해당하는 공통음성 DB 의 구축내역과 구축방안 및 DB 구축 일정에 관해 기술하고자 한다.
본 논문은 ETRI 음성정보연구센터에서 추진하고 있는 공통음성 DB 구축에 관하여 기술한다. 총 3 년(2001 11-2004. 10) 동안 음성인식, 음성합성, 화자인식 등 다양한 용도의 음성 DB 를 수집할 예정이며, 1년차인 2002 년에는 총 14 종의 음성 DB 를 수집할 계획이다. 공통 음성 DB 는 다양한 통신망(마이크, 헤드셋, VoIP, 유무선 전화망), 지역, 성별, 발성환경(사무실, 지하철, 도로 등)을 고려하여 설계하였으며, 발성대상은 숫자, 단어, 문장이고, 발성방법은 자유발화, 대화체, 낭독체 등 다양한 스타일의 음성 DB 로 구성되어 있다. 이에 본 논문에서는 총 14 종에 해당하는 공통음성 DB 의 구축내역과 구축방안 및 DB 구축 일정에 관해 기술하고자 한다.
(ㅇ) 전화망 구성에 관해서는 유선망의 경우 시내, 시외의 제한은 두지 않는다. 무선망의 경우 사업자별 분포가 (011, 017) : (016, 018, 019) 의 비율이 "60 : 40” 이 되도록 한다.
제안 방법
(ㅁ) VoIP DB 를 수집하기 위해 서로 다른 건물에 설치한 PC 를 초고속 통신망에 연결하고, 한 쪽 PC 에서 헤드셋을 통해 녹음한 음성인식용 단어, 숫자음성을 H.323 프로토콜을 이용한 VoIP 망을 통해 전송한다. 다른 쪽 PC 에서는 VoIP 로 전송된 음성을 저장한다.
대상 데이터
(ㅂ )전화망인 경우, 전화망 인터페이스 보드는 NMS 계열 및 Dialogic JCT 계열을 이용한다. "디지털보드:아날로그보드” = "50:50”비율로 수집한다. 유선전화기 사용을 유도하고, 무선전화기의 사용은 10% 미만이 되도록 한다.
(ㅂ )전화망인 경우, 전화망 인터페이스 보드는 NMS 계열 및 Dialogic JCT 계열을 이용한다. "디지털보드:아날로그보드” = "50:50”비율로 수집한다. 유선전화기 사용을 유도하고, 무선전화기의 사용은 10% 미만이 되도록 한다.
(ㄱ)0-9 사이의 숫자로 이루어진 2 연 숫자 100 개를 대상으로 하며, 각 화자는 임의로 추출된 20개를 발성한다.
(ㄴ)0~9 사이의 숫자로 이루어진 4 연 숫자 1000개를 대상으로 하며, 각 화자는 임의로 추출된 50개를 발성 한다.
(ㅂ)디지털 보드는 1 주 간격 시차 그룹에서 50 명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간 격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다.
헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다. 250 명의 화자를 125 명씩 분류해시 한쪽은 중가, 다른 한쪽은 저 가의 헤드셋으 로 DB 를 수집 한다.
250 명을 대상으로 마이크, 헤드셋, VoIP, 유/무선 전화망 환경에서 화자인식용 2 연, 4 연 숫자음 및 10 개의 질문에 대한 단답형 대답과 10 개의 단문을 수집한다.
250 명을 대상으로 마이크, 헤드셋, VoIP, 유/무선 전화망 환경에서 화자인식용 2 연, 4 연 숫자음 및 10 개의 질문에 대한 단답형 대답과 10 개의 단문을 수집한다.
헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다. 250 명의 화자를 125 명씩 분류해시 한쪽은 중가, 다른 한쪽은 저 가의 헤드셋으 로 DB 를 수집 한다.
(ㄹ)화자는 임의의 한 그룹에 소속되어 주어진 시차 간격대로 4차례 발성한다. 각 시차별 1명당 1 차례 발성량은 2 연 숫자 20 개 * 5 회=100 개 , 4연 숫자 50 개 * 5 회=250 개 및 10개의 단답형 대답과 10 개의 단문을 각 5 회씩 한번 발성시 총 450 개를 발성하게 된다. 전체적으로는 시차별 4차례 반복하여 발성하므로 1명당 1800번 발성한다.
(ㄹ)화자는 임의의 한 그룹에 소속되어 주어진 시차 간격대로 4차례 발성한다. 각 시차별 1명당 1 차례 발성량은 2 연 숫자 20 개 * 5 회=100 개 , 4연 숫자 50 개 * 5 회=250 개 및 10개의 단답형 대답과 10 개의 단문을 각 5 회씩 한번 발성시 총 450 개를 발성하게 된다. 전체적으로는 시차별 4차례 반복하여 발성하므로 1명당 1800번 발성한다.
첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
(ㄴ)한번 발성시 마이크 2 개와 헤드셋으로 동시에 수집한다. 마이크는 중가와 저가의 2종류로 수집하며 250 명 화자 모두 중가와 저가 마이크 DB 수집에 참여한다. 헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다.
(ㄴ)한번 발성시 마이크 2 개와 헤드셋으로 동시에 수집한다. 마이크는 중가와 저가의 2종류로 수집하며 250 명 화자 모두 중가와 저가 마이크 DB 수집에 참여한다. 헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다.
두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
시나리오 기반 대화음성은 1 인당 10대화씩 2500명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
(ㅂ)디지털 보드는 1 주 간격 시사 그룹에서 50명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다. 아날로그 보드는 이미 선발한 인원을 제외한 나머지 125명을 대상으로 한다.
(ㄷ) 중가 헤드셋을 위한 125 명은 1 주 간격 시차 그룹에서 50명 , 1달 간격 시차 그룹에서 50명, 3 달 간격 시차 그룹에서 25 명 선발한다. 저가 헤드셋을 위한 125명은 이미 선발한 인원을 제외한 나머지를 대상으로 한다.
중가 마이크는 2종류의 마이크 중 한 개를 선택하고, 저가 마이크는 5종류의 마이크를 206씩 비율로 사용한다. 중기의 헤드셋에 대해 80%인 800 명의 음성을 녹음하고, 저가의 베드셋에 대해 20%인 200명 의 음성 을 녹음한다 .
중가 마이크는 2종류의 마이크 중 한 개를 선택하고, 저가 마이크는 5종류의 마이크를 206씩 비율로 사용한다. 중기의 헤드셋에 대해 80%인 800 명의 음성을 녹음하고, 저가의 베드셋에 대해 20%인 200명 의 음성 을 녹음한다 .
(ㄷ ) 전체 250명을 4:4:2의 비율로 3그룹으로 나누어 관리한다. 첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다.
(ㄷ ) 전체 250명을 4:4:2의 비율로 3그룹으로 나누어 관리한다. 첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다.
대화체 문장음성 인식용 DB 는 크게 2 가지의 DB 를 수집한다. 첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
대화체 문장음성 인식용 DB 는 크게 2 가지의 DB 를 수집한다. 첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
(ㄱ)0-9 사이의 숫자로 이루어진 2 연 숫자 100개를 대상으로 하며, 각 화자는 임의로 추출된 20개를 발성한다.
(ㄴ)0~9 사이의 숫자로 이루어진 4 연 숫자 1000개를 대상으로 하며, 각 화자는 임의로 추출된 50개를 발성 한다.
(ㄷ)문장의 경우, 낭독체문장 50,(00 문장과 준 낭독체문장 50,000 문장 총 100,000 문장을 수집한다. 낭독체문장 발성목록은 방송뉴스에서 추출한다.
(ㅂ)디지털 보드는 1 주 간격 시사 그룹에서 50명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다. 아날로그 보드는 이미 선발한 인원을 제외한 나머지 125명을 대상으로 한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.