[논문]VoiceXML을 이용한 음성 DB 수집 시스템 구현

김동현; 노용완; 홍광석

문제 정의

본 논문에서는 위에 언급된 문제점을 해결하기 위해 VoiceXML을 사용하여 음성 DB를 수집하는 시스템을 구현하였다. VoiceXML을 사용하면 음성 DB 수집시 VoiceXML 문서가 시스템으로부터 독립적으로 존재하고 있기 때문에 음성 DB 수집 시 나리오의 내용을 수정하거나 변경사항이 생기면 VoiceXML 문서만 수정하거나 변경하면되므로 새로운 기능을 첨가하는데 쉽다.

제안 방법

VoiceXML은 AT&T, IBM, Lucent Technol ogy, Motorola 등 4개 기업에 의해 설립된 Voice XML Forum에서 제안하여 W3C(Word Wide Consortium)에서 승인을 받았다. 1999년 8월에 VoiceXML forum에서 버전 0.9를 발표한 후, 2000년 3월 보완하여 버전 1.0을 제안하였다. 2000년 5월에 VoiceXML spec 1.
ID나 password가 일치하지 않으면 3번의 반복과정을 거쳐 사용자 인증 과정을 수행할 수 있게 하였다. 3번 연속으로 일치하지 않으면 강제로 프로그램을 종료하도록 설정해 놓았다. 이렇게 설정해 놓은 이유는 신규 회원 과정에서 user DB에 등록하지 않은 사용자이므로 인증되지 않은 사용자가 녹음하는 행위를 방지하기 위한 과정이다.
VoiceXML Interpreter Context에 의해 제어되며 하드웨어와 소프트웨어를 모두 포함하며, 전화 수신 기능, 전화호 전환 기능, 음성인식 기능, 음성합성 기능, 음성과 오디오 재생 기능, 음성과 오디오 녹음 기능 등을 수행한다.
VoiceXML 문서를 적재하고 그 내용을 해석해 실행하는 역할을 담당하고 VoiceXML 실행 환경의 가장 핵심적인 요소이다. VoiceXML 문서로 표현된 음성애플리케이션 시나리오를 해석하여 다이얼로그, 문법, 이벤트, 오디오출력, 콜 제어, 오디오 입력, 흐름 제어와 관련된 47종의 각 태그에 설정된 기능에 따라 문서 실행의 순차적 흐름을 제어하고, 음성 입출력 내용을 결정해 음성 플랫폼에 필요한 명령을 내린다. 또한 문서 서버를 통하여 필요한 자원을 다운로드하거나 다른 문서로 전이하는 등 VoiceXML 문서 실행을 총괄적으로 제어하는 역할을 한다.
사용자 인증과정과 폴더 검색 기능의 목적은 user DB에 등록하지않은 사람의 녹음행위를 방지하고, 사용자 한 사람마다 자신의 ID명의 폴더가 하나만 생성하기 위해서이다. 그리고, 그 폴더안에 다른 사람의 음성DB가 저장되지 않고 자신의 음성DB만 저장되게 하기위해 이러한 단계를 두었다.
폴더 생성 단계에서는 사용자 ID명의 폴더가 생성된다. 다른 사용자와의 구별을 위해서 폴더 생성시 기존의 동일한 폴더가 있는지 확인 하여 기존의 폴더가 존재하면 오류 메시지를 보내고 존재하지 않으면 사용자 ID명의 폴더가 생성되도록 설계하였다.
기존의 음성 DB 수집시스템에서는 DB 수집후 제대로 발성된 DB 인지 확인을 해야하는 단계를 가지고 있어 시간과 인력을 낭비하는 문제점을 가지고 있었으나, 본 시스템에서는 실시간으로 사용자가 발성한 소리를 확인하는 단계를 가지고 있어 시간과 인력의 낭비를 줄일 수 있는 장점을 가지고 있다. 또한, 저장단계에서 저장되는 파일이 다른 사용자가 녹음한 파일과의 섞이지 않도록 사용자의 ID명의 폴더에 저장되도록 구현하였다.
사용자 인증 과정에서는 다른 임의의 사용자가 녹음하는 행위를 방지하기 위해서 등록된 사용자만이 녹음을 할 수 있게 사용자 인증 과정을 두었다. 사용자의 ID와 password는 전화상의 인식의 오류를 줄이고, DTMF 입력 기능을 사용하기 위해서 숫자의 조합만 유효하도록 설정해 놓았다. 사용자는 신규회원 가입시 자신이 원하는 아이디와 패스워드를 전화기의 DTMF로 입력하거나 차례로 발성하면 DB에 자동 저장하게 된다.

대상 데이터

마지막으로 음성 DB를 수집하면서 실시간으로 녹음되는 음성을 확인후 저장되게 구현되어 있어 기존의 음성 DB 수집후 저장된 파일을 확인하지 않아도 되므로 인력과 시간의 낭비를 줄일 수 있는 장점을 제공한다. 본 시스템으로 수집된 음성 DB는 주식 상장사와 주식 거래에 관련된 문장 통합하여 1568개 음성 DB 목록을 선정하였고, 20명의 음성 DB를 수집하였다.
본 시스템의 발성화자 선정기준은 화자의 성별 (남.여), 발성자의 주거 지역(서울, 경기, 충청, 전 라, 경상), 화자의 연령 등의 균형을 고려하여 총 20명의 음성 데이터를 수집하였다.
마지막으로 사용자는 음성 DB 수집시 발성리스트를 보지 않고 전화기의 음성을 듣고 음성을 수집 할 수 있어 사용자는 편하게 음성을 수집할 수 있는 장점을 제공한다. 본 시스템의 성능을 테스트하기 위하여 발성자의 개인차, 지역차 등을 고루 흡수할 수 있는 전화 음성을 수집하였다. 선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다.
본 시스템의 성능을 테스트하기 위하여 발성자의 개인차, 지역차 등을 고루 흡수할 수 있는 전화 음성을 수집하였다. 선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다. 수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다.
선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다. 수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다. 현재 본 시스템으로 수집된 음성 DB는 증권 거래에 관련된 음성 DB이지만 앞으로 다양한 응용분야에 맞게 전화음성 DB를 수집할 예정이다.
전화 음성 DB 구축을 위한 수집대상 어휘는 증권 거래에 관련된 상장사 1558종목과 증권 거래에 관련된 문장 10문장을 선정하였다.

이론/모형

사용자 로그인 처리와 폴더의 생성과 파일의 이동을 위하여 ASP(Active Server Page)를 이용하여 시스템을 구축하고, 사용자가 발성한 목록을 DB로 저장하기 위해 Microsoft Access를 사용하였다. Call 제어를 위해서 Intel Dialogic 41JCT/LS를 사용하였고, Interpreter, 음성인식기와 합성기는 KT의 HUVOICE 1.0을 사용하였다.
0을 사용하였다. 사용자 로그인 처리와 폴더의 생성과 파일의 이동을 위하여 ASP(Active Server Page)를 이용하여 시스템을 구축하고, 사용자가 발성한 목록을 DB로 저장하기 위해 Microsoft Access를 사용하였다. Call 제어를 위해서 Intel Dialogic 41JCT/LS를 사용하였고, Interpreter, 음성인식기와 합성기는 KT의 HUVOICE 1.

성능/효과

또한 음성 DB 수집시 전화기에 나오는 발성목록을 듣고 따라하면 되기 때문에 사용자는 시선을 집중하지 않고 편하게 전화음성 DB를 수집할 수 있다. 마지막으로 음성 DB를 수집하면서 실시간으로 녹음되는 음성을 확인후 저장되게 구현되어 있어 기존의 음성 DB 수집후 저장된 파일을 확인하지 않아도 되므로 인력과 시간의 낭비를 줄일 수 있는 장점을 제공한다. 본 시스템으로 수집된 음성 DB는 주식 상장사와 주식 거래에 관련된 문장 통합하여 1568개 음성 DB 목록을 선정하였고, 20명의 음성 DB를 수집하였다.
본 시스템이 제공하는 주요 특징은 XML에 내포된 태그형식을 갖는 언어로써 쉽고, 간단한 문법 체계는 조금만 노력을 기울이면 손쉽게 작성할 수 있어 인력과 시간을 절약할 수 있는 장점을 가지고 있다. 또한 단지 웹서버에 연결된 DB의 내용만을 변경함으로써 다양한 전화 음성 DB를 수집할 수 있는 장점을 가지고 있다.

후속연구

따라서 사용자는 정확하지 못한 전화음성일 경우에는 발성 리스트를 보고 발성해야 하는 단점을 가지고 있다. 그러나, 앞으로 더욱 자연스러운 음성합성기가 제공된다면 사용자는 발성리스트를 보지 않고, 전화기의 음성을 듣고, 전화음성 DB를 수집할 수 있어 발성자에게 더욱 편리한 시스템이 될 것이다.
수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다. 현재 본 시스템으로 수집된 음성 DB는 증권 거래에 관련된 음성 DB이지만 앞으로 다양한 응용분야에 맞게 전화음성 DB를 수집할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

VoiceXML을 이용한 음성 DB 수집 시스템 구현
An Implementation of Speech DB Gathering System Using VoiceXML 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

VoiceXML을 이용한 음성 DB 수집 시스템 구현 An Implementation of Speech DB Gathering System Using VoiceXML 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

김동현 (2) 노용완 (9) 홍광석 (37)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

VoiceXML을 이용한 음성 DB 수집 시스템 구현
An Implementation of Speech DB Gathering System Using VoiceXML 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper