음성 DB는 음성학, 음성인식, 음성합성 등을 연구할 때 가장 기본적으로 필요한 요소이다. 음성 DB의 양과 질이 개발하고자하는 시스템의 성능을 좌우한다고 할 정도로 음성 DB의 중요성 및 역할은 막중하다. 최근 음성포탈을 비롯한 다양한 전화 서비스 기술의 발달로 인하여 전화 음성 DB 수집의 필요성이 시급한 상황이다. 기존 CTI 분야의 IVR 애플리케이션 전화음성 DB 수집 시스템은 C/C++언어나 전용 개발 도구를 사용하여 이루어져 왔으며, 이로 인하여 각 응용서비스간 자원의 재활용이 어려운 실정이며 많은 인력과 시간을 필요하다는 문제점을 가지고 있다. 그러나, VoiceXML의 전화 음성 DB 수집시스템은 XML에 내포된 태그형식을 갖는 언어로써 쉽고, 간단한 문법체계를 가지고 있어 조금만 노력을 기울이면 손쉽게 작성할 수 있어 인력과 시간을 절약할 수 있는 장점을 가지고 있다. 또한 단지 웹서버에 연결된 DB의 내용만을 변경함으로써 다양한 전화 음성 DB를 수집할 수 있는 장점을 가지고 있다. 본 논문에서는 음성인식이나 음성합성 등 음성정보처리기술의 개발에 가장 중요한 요소인 음성 DB를 Voiceful을 사용하여 전화 음성 DB를 수집하는 시스템을 소개한다.
음성 DB는 음성학, 음성인식, 음성합성 등을 연구할 때 가장 기본적으로 필요한 요소이다. 음성 DB의 양과 질이 개발하고자하는 시스템의 성능을 좌우한다고 할 정도로 음성 DB의 중요성 및 역할은 막중하다. 최근 음성포탈을 비롯한 다양한 전화 서비스 기술의 발달로 인하여 전화 음성 DB 수집의 필요성이 시급한 상황이다. 기존 CTI 분야의 IVR 애플리케이션 전화음성 DB 수집 시스템은 C/C++언어나 전용 개발 도구를 사용하여 이루어져 왔으며, 이로 인하여 각 응용서비스간 자원의 재활용이 어려운 실정이며 많은 인력과 시간을 필요하다는 문제점을 가지고 있다. 그러나, VoiceXML의 전화 음성 DB 수집시스템은 XML에 내포된 태그형식을 갖는 언어로써 쉽고, 간단한 문법체계를 가지고 있어 조금만 노력을 기울이면 손쉽게 작성할 수 있어 인력과 시간을 절약할 수 있는 장점을 가지고 있다. 또한 단지 웹서버에 연결된 DB의 내용만을 변경함으로써 다양한 전화 음성 DB를 수집할 수 있는 장점을 가지고 있다. 본 논문에서는 음성인식이나 음성합성 등 음성정보처리기술의 개발에 가장 중요한 요소인 음성 DB를 Voiceful을 사용하여 전화 음성 DB를 수집하는 시스템을 소개한다.
Speech DB is basically required factor when we are study for phonetics, speech recognition and speech synthesis and so on. The quantity and quality of speech DB decide the efficiency of system that we develop. therefore. speech DB has an extremely important factor, Recently, development of the vario...
Speech DB is basically required factor when we are study for phonetics, speech recognition and speech synthesis and so on. The quantity and quality of speech DB decide the efficiency of system that we develop. therefore. speech DB has an extremely important factor, Recently, development of the various telephone service technique such as voice portal. it is actual condition where the necessity of collection of telephone speech DB. The existing IVR application telephone speech DB collection system used C/C++ language or the exclusive development tool. Thus it is the actual condition where the recycle of each application service for resources is difficult and have a problem of many labors and time necessity. But. VoiceXML is a language having tag form ipredicated in XML. which has easy and simple grammar system. Therefore, if we make a few efforts we could draw up easily. it has a merit reducing labors and time, Also, VoiceXML has many advantages of various telephone speech DB gathering because of changing contents of DB. In this paper, we introduce telephone speech DB gathering system which is the mast important factor for development of speech information processing technique.
Speech DB is basically required factor when we are study for phonetics, speech recognition and speech synthesis and so on. The quantity and quality of speech DB decide the efficiency of system that we develop. therefore. speech DB has an extremely important factor, Recently, development of the various telephone service technique such as voice portal. it is actual condition where the necessity of collection of telephone speech DB. The existing IVR application telephone speech DB collection system used C/C++ language or the exclusive development tool. Thus it is the actual condition where the recycle of each application service for resources is difficult and have a problem of many labors and time necessity. But. VoiceXML is a language having tag form ipredicated in XML. which has easy and simple grammar system. Therefore, if we make a few efforts we could draw up easily. it has a merit reducing labors and time, Also, VoiceXML has many advantages of various telephone speech DB gathering because of changing contents of DB. In this paper, we introduce telephone speech DB gathering system which is the mast important factor for development of speech information processing technique.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 위에 언급된 문제점을 해결하기 위해 VoiceXML을 사용하여 음성 DB를 수집하는 시스템을 구현하였다. VoiceXML을 사용하면 음성 DB 수집시 VoiceXML 문서가 시스템으로부터 독립적으로 존재하고 있기 때문에 음성 DB 수집 시 나리오의 내용을 수정하거나 변경사항이 생기면 VoiceXML 문서만 수정하거나 변경하면되므로 새로운 기능을 첨가하는데 쉽다.
제안 방법
VoiceXML은 AT&T, IBM, Lucent Technol ogy, Motorola 등 4개 기업에 의해 설립된 Voice XML Forum에서 제안하여 W3C(Word Wide Consortium)에서 승인을 받았다. 1999년 8월에 VoiceXML forum에서 버전 0.9를 발표한 후, 2000년 3월 보완하여 버전 1.0을 제안하였다. 2000년 5월에 VoiceXML spec 1.
ID나 password가 일치하지 않으면 3번의 반복과정을 거쳐 사용자 인증 과정을 수행할 수 있게 하였다. 3번 연속으로 일치하지 않으면 강제로 프로그램을 종료하도록 설정해 놓았다. 이렇게 설정해 놓은 이유는 신규 회원 과정에서 user DB에 등록하지 않은 사용자이므로 인증되지 않은 사용자가 녹음하는 행위를 방지하기 위한 과정이다.
VoiceXML Interpreter Context에 의해 제어되며 하드웨어와 소프트웨어를 모두 포함하며, 전화 수신 기능, 전화호 전환 기능, 음성인식 기능, 음성합성 기능, 음성과 오디오 재생 기능, 음성과 오디오 녹음 기능 등을 수행한다.
VoiceXML 문서를 적재하고 그 내용을 해석해 실행하는 역할을 담당하고 VoiceXML 실행 환경의 가장 핵심적인 요소이다. VoiceXML 문서로 표현된 음성애플리케이션 시나리오를 해석하여 다이얼로그, 문법, 이벤트, 오디오출력, 콜 제어, 오디오 입력, 흐름 제어와 관련된 47종의 각 태그에 설정된 기능에 따라 문서 실행의 순차적 흐름을 제어하고, 음성 입출력 내용을 결정해 음성 플랫폼에 필요한 명령을 내린다. 또한 문서 서버를 통하여 필요한 자원을 다운로드하거나 다른 문서로 전이하는 등 VoiceXML 문서 실행을 총괄적으로 제어하는 역할을 한다.
사용자 인증과정과 폴더 검색 기능의 목적은 user DB에 등록하지않은 사람의 녹음행위를 방지하고, 사용자 한 사람마다 자신의 ID명의 폴더가 하나만 생성하기 위해서이다. 그리고, 그 폴더안에 다른 사람의 음성DB가 저장되지 않고 자신의 음성DB만 저장되게 하기위해 이러한 단계를 두었다.
폴더 생성 단계에서는 사용자 ID명의 폴더가 생성된다. 다른 사용자와의 구별을 위해서 폴더 생성시 기존의 동일한 폴더가 있는지 확인 하여 기존의 폴더가 존재하면 오류 메시지를 보내고 존재하지 않으면 사용자 ID명의 폴더가 생성되도록 설계하였다.
기존의 음성 DB 수집시스템에서는 DB 수집후 제대로 발성된 DB 인지 확인을 해야하는 단계를 가지고 있어 시간과 인력을 낭비하는 문제점을 가지고 있었으나, 본 시스템에서는 실시간으로 사용자가 발성한 소리를 확인하는 단계를 가지고 있어 시간과 인력의 낭비를 줄일 수 있는 장점을 가지고 있다. 또한, 저장단계에서 저장되는 파일이 다른 사용자가 녹음한 파일과의 섞이지 않도록 사용자의 ID명의 폴더에 저장되도록 구현하였다.
사용자 인증 과정에서는 다른 임의의 사용자가 녹음하는 행위를 방지하기 위해서 등록된 사용자만이 녹음을 할 수 있게 사용자 인증 과정을 두었다. 사용자의 ID와 password는 전화상의 인식의 오류를 줄이고, DTMF 입력 기능을 사용하기 위해서 숫자의 조합만 유효하도록 설정해 놓았다. 사용자는 신규회원 가입시 자신이 원하는 아이디와 패스워드를 전화기의 DTMF로 입력하거나 차례로 발성하면 DB에 자동 저장하게 된다.
대상 데이터
마지막으로 음성 DB를 수집하면서 실시간으로 녹음되는 음성을 확인후 저장되게 구현되어 있어 기존의 음성 DB 수집후 저장된 파일을 확인하지 않아도 되므로 인력과 시간의 낭비를 줄일 수 있는 장점을 제공한다. 본 시스템으로 수집된 음성 DB는 주식 상장사와 주식 거래에 관련된 문장 통합하여 1568개 음성 DB 목록을 선정하였고, 20명의 음성 DB를 수집하였다.
본 시스템의 발성화자 선정기준은 화자의 성별 (남.여), 발성자의 주거 지역(서울, 경기, 충청, 전 라, 경상), 화자의 연령 등의 균형을 고려하여 총 20명의 음성 데이터를 수집하였다.
마지막으로 사용자는 음성 DB 수집시 발성리스트를 보지 않고 전화기의 음성을 듣고 음성을 수집 할 수 있어 사용자는 편하게 음성을 수집할 수 있는 장점을 제공한다. 본 시스템의 성능을 테스트하기 위하여 발성자의 개인차, 지역차 등을 고루 흡수할 수 있는 전화 음성을 수집하였다. 선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다.
본 시스템의 성능을 테스트하기 위하여 발성자의 개인차, 지역차 등을 고루 흡수할 수 있는 전화 음성을 수집하였다. 선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다. 수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다.
선정된 발화성화자수는 20명이고, 수집대상어휘는 증권 거래에 관련된 1568문장을 선정하여 전화 음성 DB를 수집하였다. 수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다. 현재 본 시스템으로 수집된 음성 DB는 증권 거래에 관련된 음성 DB이지만 앞으로 다양한 응용분야에 맞게 전화음성 DB를 수집할 예정이다.
전화 음성 DB 구축을 위한 수집대상 어휘는 증권 거래에 관련된 상장사 1558종목과 증권 거래에 관련된 문장 10문장을 선정하였다.
이론/모형
사용자 로그인 처리와 폴더의 생성과 파일의 이동을 위하여 ASP(Active Server Page)를 이용하여 시스템을 구축하고, 사용자가 발성한 목록을 DB로 저장하기 위해 Microsoft Access를 사용하였다. Call 제어를 위해서 Intel Dialogic 41JCT/LS를 사용하였고, Interpreter, 음성인식기와 합성기는 KT의 HUVOICE 1.0을 사용하였다.
0을 사용하였다. 사용자 로그인 처리와 폴더의 생성과 파일의 이동을 위하여 ASP(Active Server Page)를 이용하여 시스템을 구축하고, 사용자가 발성한 목록을 DB로 저장하기 위해 Microsoft Access를 사용하였다. Call 제어를 위해서 Intel Dialogic 41JCT/LS를 사용하였고, Interpreter, 음성인식기와 합성기는 KT의 HUVOICE 1.
성능/효과
또한 음성 DB 수집시 전화기에 나오는 발성목록을 듣고 따라하면 되기 때문에 사용자는 시선을 집중하지 않고 편하게 전화음성 DB를 수집할 수 있다. 마지막으로 음성 DB를 수집하면서 실시간으로 녹음되는 음성을 확인후 저장되게 구현되어 있어 기존의 음성 DB 수집후 저장된 파일을 확인하지 않아도 되므로 인력과 시간의 낭비를 줄일 수 있는 장점을 제공한다. 본 시스템으로 수집된 음성 DB는 주식 상장사와 주식 거래에 관련된 문장 통합하여 1568개 음성 DB 목록을 선정하였고, 20명의 음성 DB를 수집하였다.
본 시스템이 제공하는 주요 특징은 XML에 내포된 태그형식을 갖는 언어로써 쉽고, 간단한 문법 체계는 조금만 노력을 기울이면 손쉽게 작성할 수 있어 인력과 시간을 절약할 수 있는 장점을 가지고 있다. 또한 단지 웹서버에 연결된 DB의 내용만을 변경함으로써 다양한 전화 음성 DB를 수집할 수 있는 장점을 가지고 있다.
후속연구
따라서 사용자는 정확하지 못한 전화음성일 경우에는 발성 리스트를 보고 발성해야 하는 단점을 가지고 있다. 그러나, 앞으로 더욱 자연스러운 음성합성기가 제공된다면 사용자는 발성리스트를 보지 않고, 전화기의 음성을 듣고, 전화음성 DB를 수집할 수 있어 발성자에게 더욱 편리한 시스템이 될 것이다.
수집된 전화음성 DB를 분석한 결과 전화망의 노이즈로 인하여 깨끗한 음질은 아니지만 전화망 환경에 적절한 음성DB를 수집하였다. 현재 본 시스템으로 수집된 음성 DB는 증권 거래에 관련된 음성 DB이지만 앞으로 다양한 응용분야에 맞게 전화음성 DB를 수집할 예정이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.