$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

신경망 기반의 동적 파라미터들을 이용한 음성 경계 추출
A Voice Boundary Detection Method Using Dynamic Parameters Based On Neural Network 원문보기

한국정보과학회 02 가을 학술발표논문집(2), 2002 Oct., 2002년, pp.616 - 618  

마창수 (숭실대학교) ,  김계영 (숭실대학교) ,  최형일 (숭실대학교)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 음성인식 성능을 높이기 위한 기본적 단계인 음성과 비음성 부분의 경계를 추출하는 음성 경계 추출 방법을 제안한다. 음성경계 추출을 위한 특징들로는 시간영역 분할 파라미터인 ZCR, MA를 사용하고 주파수 영역 분할 파라미터로 주파수 대역 파워 에너지 (Frequency band power energy), 포만트 계수 (Formant coefficient)를 사용하였고 각 파라미터들을 이용하여 음성 경계를 결정할 때 경험에 의해 임계치를 결정하는 단점을 보안하기 위해서 신경망을 이용한다. 신경망의 가중치와 임계치들은 지도 학습을 통해 최적화 되고, 학습을 통해 구성된 망을 음성과 비음성의 경계치 구분에 사용한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 또한 최대/최소값 들이 에너지 감소 방향으로 수렴하는 음량의 범위(dynamic)를 감소시키는 envelope의 경사도의 정의 도 경험적이기 때문에 문제가 될 수 있다. 따라서 본 논문에서는 고주파, 저주파 영역에서의 envelope 대신 에너지 제곱 누적 값 올 특징으로 사용한다.
  • 본 논문에서는 특징 파라미터들을 사용하는데 있어서 임계 값 을 경험적으로 정하는 불편함과 부정확성을 보완하기 위해 신경망을 이용한다. 신경망의 지도학습을 통해 각 노드에서의 임계값과 연결 가중치를 자동적으로 학습하여 오류를 최소화한다.
  • 이 중에서 ZCR, LCR, PVR 등은 초기 연구단계부터 사용되던 특징들로 시간 축 위에서 얻어지는 데이터들이며 잡음 등에 민감한 특성을 가지고 있다. 본 논문에서도 ZCR올 사용하지만 잡음에 민감한 단점을 감소시키기 위해 이동평균(Moving Average)를 사용하여 시간축 상에서의 음성 데이터의 추이 정보를 사용한다. 또한 Env이ope을 이용한 음성 경계 추출 방법[6]의 경우 특징들의 임계 값을 경험적으로 결정하고 조건 구성을 사람이 직접 해야 한다는 단점이 있다.

대상 데이터

  • 본 논문에서는 자체 수집한 20개의 5초~10 이내의 연속음성 문장을 사용하여 실험하였다. 16k니 z PCM 형식으로 녹음되었다. 신경망의 지도 학습을 위해서 10개의 문장이 사용되었고 음성의 경계 부분은 사람이 칙접 표시를 하였다.
  • 본 논문에서는 자체 수집한 20개의 5초~10 이내의 연속음성 문장을 사용하여 실험하였다. 16k니 z PCM 형식으로 녹음되었다.
  • 10 포인트 이동평균을 사용하였고 초기 9개의 데이터는 잡음으로 간주하여 0으로 초기화하였다. 주파수 변환을 위해서 DCT를 이용하였다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로