[논문]공통음성 DB 구축

김상훈; 오승신; 정호영; 전형배; 김정세

문제 정의

ETRI 음성 정보연구센터에서는 지속적으로 음성기술의 발전방향에 따라 요구되는 DB 를 시기적절하게 공급하여 국내업체의 경쟁력을 강화하고자 하며, 향후 각종 음성 언어정보의 체계적인 표준화작업을 수행하여 DB의 활용성을 높이는데 최선을 다하고자 한다.
ETRI 음성 정보연구센터에서는 지속적으로 음성기술의 발전방향에 따라 요구되는 DB 를 시기적절하게 공급하여 국내업체의 경쟁력을 강화하고자 하며, 향후 각종 음성 언어정보의 체계적인 표준화작업을 수행하여 DB의 활용성을 높이는데 최선을 다하고자 한다.
본 논문에서는 텍스트 DB 를 제외한 음싱 DB 구축내역에 관해 상세히 기술한다. 1 차년도（2001.
본 논문에서는 텍스트 DB 를 제외한 음싱 DB 구축내역에 관해 상세히 기술한다. 1 차년도（2001.
국내에서는 ETOI, © 둥에서 소규모 음성 DB 를 구축하여 배포한 적이 있으나 국내 음성정보처리 업계에 기여도가 미미한 실정이었고 음성정보기술산업지원센터 （SITEC, 원광대）에서 자동차 산업 둥 전통산업분야에 대한 지원을 위해 자동차 내에서의 환경이나 제조현장둥의 소음환경에 특화된 대규모 음성 DB 를 구축하고 있으나 여전히 통신망환경에서는 음성정보처리업계의 요구사항을 충분히 반영하고 있지는 못하고 있는 실정이다. 이에 ETRI 음성정보연구센터에서는 다양한 통신망환경에서 대규모 음성 DB 를 구축하여 국내업체에 경쟁력을 강화할 수 있는 기반을 마련하고자 한다.

가설 설정

(o) 전화망 구성에 관해서는 유선망의 경우 시내, 시외의 제한은 두지 않는다.
(ㄴ)유선전화 및 휴대폰 제조사의 모델은 특정하지 않는다.
（ㄴ）유선전화 및 휴대폰 제조사의 모델은 특정하지 않는다.
（ㅇ） 전화망 구성에 관해서는 유선망의 경우 시내, 시외의 제한은 두지 않는다. 무선망의 경우 사업자별 분포가 （011, 017） : （016, 018, 019） 의 비율이 "60 : 40” 이 되도록 한다.

제안 방법

（ㅁ） VoIP DB 를 수집하기 위해 서로 다른 건물에 설치한 PC 를 초고속 통신망에 연결하고, 한 쪽 PC 에서 헤드셋을 통해 녹음한 음성인식용 단어, 숫자음성을 H.323 프로토콜을 이용한 VoIP 망을 통해 전송한다. 다른 쪽 PC 에서는 VoIP 로 전송된 음성을 저장한다.

대상 데이터

（ㅂ ）전화망인 경우, 전화망 인터페이스 보드는 NMS 계열 및 Dialogic JCT 계열을 이용한다. "디지털보드:아날로그보드” = "50：50”비율로 수집한다. 유선전화기 사용을 유도하고, 무선전화기의 사용은 10% 미만이 되도록 한다.
（ㅂ ）전화망인 경우, 전화망 인터페이스 보드는 NMS 계열 및 Dialogic JCT 계열을 이용한다. "디지털보드:아날로그보드” = "50：50”비율로 수집한다. 유선전화기 사용을 유도하고, 무선전화기의 사용은 10% 미만이 되도록 한다.
(ㄱ)0-9 사이의 숫자로 이루어진 2 연 숫자 100 개를 대상으로 하며, 각 화자는 임의로 추출된 20개를 발성한다.
(ㄴ)0~9 사이의 숫자로 이루어진 4 연 숫자 1000개를 대상으로 하며, 각 화자는 임의로 추출된 50개를 발성 한다.
(ㅂ)디지털 보드는 1 주 간격 시차 그룹에서 50 명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간 격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다.
헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다. 250 명의 화자를 125 명씩 분류해시 한쪽은 중가, 다른 한쪽은 저 가의 헤드셋으 로 DB 를 수집 한다.
250 명을 대상으로 마이크, 헤드셋, VoIP, 유/무선 전화망 환경에서 화자인식용 2 연, 4 연 숫자음 및 10 개의 질문에 대한 단답형 대답과 10 개의 단문을 수집한다.
250 명을 대상으로 마이크, 헤드셋, VoIP, 유/무선 전화망 환경에서 화자인식용 2 연, 4 연 숫자음 및 10 개의 질문에 대한 단답형 대답과 10 개의 단문을 수집한다.
헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다. 250 명의 화자를 125 명씩 분류해시 한쪽은 중가, 다른 한쪽은 저 가의 헤드셋으 로 DB 를 수집 한다.
（ㄹ）화자는 임의의 한 그룹에 소속되어 주어진 시차 간격대로 4차례 발성한다. 각 시차별 1명당 1 차례 발성량은 2 연 숫자 20 개 * 5 회=100 개 , 4연 숫자 50 개 * 5 회=250 개 및 10개의 단답형 대답과 10 개의 단문을 각 5 회씩 한번 발성시 총 450 개를 발성하게 된다. 전체적으로는 시차별 4차례 반복하여 발성하므로 1명당 1800번 발성한다.
（ㄹ）화자는 임의의 한 그룹에 소속되어 주어진 시차 간격대로 4차례 발성한다. 각 시차별 1명당 1 차례 발성량은 2 연 숫자 20 개 * 5 회=100 개 , 4연 숫자 50 개 * 5 회=250 개 및 10개의 단답형 대답과 10 개의 단문을 각 5 회씩 한번 발성시 총 450 개를 발성하게 된다. 전체적으로는 시차별 4차례 반복하여 발성하므로 1명당 1800번 발성한다.
첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
（ㄴ）한번 발성시 마이크 2 개와 헤드셋으로 동시에 수집한다. 마이크는 중가와 저가의 2종류로 수집하며 250 명 화자 모두 중가와 저가 마이크 DB 수집에 참여한다. 헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다.
（ㄴ）한번 발성시 마이크 2 개와 헤드셋으로 동시에 수집한다. 마이크는 중가와 저가의 2종류로 수집하며 250 명 화자 모두 중가와 저가 마이크 DB 수집에 참여한다. 헤드셋의 경우도 중가와 저가의 2 종류로 수집 한다.
두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다. 세번째 그룹은 50 명이며, 3 달 간격으로 4 차례 정해진목록을 발성한다.
첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
시나리오 기반 대화음성은 1 인당 10대화씩 2500명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
（ㅂ）디지털 보드는 1 주 간격 시사 그룹에서 50명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다. 아날로그 보드는 이미 선발한 인원을 제외한 나머지 125명을 대상으로 한다.
（ㄷ） 중가 헤드셋을 위한 125 명은 1 주 간격 시차 그룹에서 50명 , 1달 간격 시차 그룹에서 50명, 3 달 간격 시차 그룹에서 25 명 선발한다. 저가 헤드셋을 위한 125명은 이미 선발한 인원을 제외한 나머지를 대상으로 한다.
중가 마이크는 2종류의 마이크 중 한 개를 선택하고, 저가 마이크는 5종류의 마이크를 206씩 비율로 사용한다. 중기의 헤드셋에 대해 80%인 800 명의 음성을 녹음하고, 저가의 베드셋에 대해 20%인 200명 의 음성 을 녹음한다 .
중가 마이크는 2종류의 마이크 중 한 개를 선택하고, 저가 마이크는 5종류의 마이크를 206씩 비율로 사용한다. 중기의 헤드셋에 대해 80%인 800 명의 음성을 녹음하고, 저가의 베드셋에 대해 20%인 200명 의 음성 을 녹음한다 .
（ㄷ ） 전체 250명을 4：4：2의 비율로 3그룹으로 나누어 관리한다. 첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다.
（ㄷ ） 전체 250명을 4：4：2의 비율로 3그룹으로 나누어 관리한다. 첫번째 그룹은 100명이며 , 1주 간격으로 4차례 정해진 목록을 발성한다. 두번째 그룹도 100 명이며, 1 달 간격으로 4 차례 정해진 목록을 발성한다.
대화체 문장음성 인식용 DB 는 크게 2 가지의 DB 를 수집한다. 첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
대화체 문장음성 인식용 DB 는 크게 2 가지의 DB 를 수집한다. 첫째로 음향모델링을 위한 시나리오 기반 call center 고객/상담원과의 대화음성과 대화체 언어모델링을 위한 call center 고객/상담원과의 7,500 대화문장을 수집한다. 시나리오 기반 대화음성은 1 인당 10 대화씩 250 명이 발성한 총 2,500 대화음성을 수집할 계획이며, 대화체 언어모델링용 텍스트 DB 는 실제 서비스되고 있는 상황을 전사한다.
（ㄱ）0-9 사이의 숫자로 이루어진 2 연 숫자 100개를 대상으로 하며, 각 화자는 임의로 추출된 20개를 발성한다.
（ㄴ）0~9 사이의 숫자로 이루어진 4 연 숫자 1000개를 대상으로 하며, 각 화자는 임의로 추출된 50개를 발성 한다.
（ㄷ）문장의 경우, 낭독체문장 50,（00 문장과 준 낭독체문장 50,000 문장 총 100,000 문장을 수집한다. 낭독체문장 발성목록은 방송뉴스에서 추출한다.
（ㅂ）디지털 보드는 1 주 간격 시사 그룹에서 50명 , 1 달 간격 시차 그룹에서 50 명 , 3 달 간격 시차 그룹에서 25 명, 총 125 명을 대상으로 한다. 아날로그 보드는 이미 선발한 인원을 제외한 나머지 125명을 대상으로 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

공통음성 DB 구축
Common Speech Database Collection 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

공통음성 DB 구축 Common Speech Database Collection 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

공통음성 DB 구축
Common Speech Database Collection 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper