[특허]음성 전사를 위한 시스템 및 방법

음성 전사를 위한 시스템 및 방법 원문보기

IPC분류정보
국가/구분	한국(KR)/등록특허	크게보기
국제특허분류(IPC8판)	G10L-015/06 G10L-015/16 G10L-015/26
출원번호	10-2017-7008484 (2017-03-28)
공개번호	10-2017-0046751 (2017-05-02)
등록번호	10-1991733-0000 (2019-06-17)
우선권정보	미국(US) 62/092,251 (2014-12-15);미국(US) 62/093,057 (2014-12-17);미국(US) 14/735,002 (2015-06-09)
국제출원번호	PCT/US2015/065617 (2015-12-14)
국제공개번호	WO 2016/100231 (2016-06-23)
번역문제출일자	2017-03-28
DOI	http://doi.org/10.8080/1020177008484
발명자 / 주소	하눈, 아우니 / 미국, 캘리포니아 ***, 팔로 알토, 릴랜드 애비뉴 * 케이스, 칼 / 미국, 캘리포니아 ***, 샌프란시스코, 파르나수스 애비뉴 * 캐스퍼, 자레드 / 미국, 캘리포니아 ***, 서니베일, 윈게이트 드라이브 * 카탄자로, 브라이언 / 미국, 캘리포니아 ***, 쿠퍼티노, 노스 스텔링 로드 * 디아모스, 그레고리 / 미국, 캘리포니아 *, 산호세, 클로버힐 드라이브 엘센, 에리히 / 미국, 캘리포니아 *, 마운틴 뷰, 베틀로 애비뉴, 프렌저, 라이언 / 미국, 캘리포니아 *, 오클랜드, 휘트모어 플레이스 , 아파트먼트 사티쉬, 산지브 / 미국, 캘리포니아 *, 서니베일, 베르나르도 애비뉴 , 아파트먼트 ?하브라타 세굽타 / 미국, 캘리포니아 ***, 멘로 파크, 고든 애비뉴 코츠, 애덤 / 미국, 캘리포니아 *, 서니베일, 포플러 애비뉴, 응, 앤드류 / 미국, 캘리포니아 *, 마운틴 뷰, 래섬 스트리트, , 아파트먼스 *
출원인 / 주소	바이두 유에스에이 엘엘씨 / 미국 캘리포니아주 *** 서니베일 보르도 드라이브 **
대리인 / 주소	특허법인가산
심사청구여부	있음 (2017-03-28)
심사진행상태	등록결정(재심사후)
법적상태	등록

초록 ▼

본 명세서에는 단대단 심층 학습을 이용하여 개발된 최신의 음성 인식 시스템의 실시예가 제시된다. 실시예에 있어서, 힘들게 설계된 처리 파이프라인에 의존하는 종래의 음성 시스템에 비해, 모델 구조가 훨씬 간단할 뿐만 아니라, 잡음이 있는 환경에서 사용 시 이러한 종래의 시스템 또한 성능이 떨어지는 경향이 있다. 반대로, 본 시스템의 실시예는, 배경 잡음, 잔향 또는 발언자 변이를 모델링하기 위한 수작업으로 설계된 컴포넌트를 필요로하는 대신, 이러한 영향에 로버스트한 함수를 직접 학습한다. 음소 사전뿐만 아니라, 심지어 “음소”의 개념도 필요하지 않게 된다. 실시예는, 다수의 GPU를 이용할 수 있는 양호하게 최적화된 회귀성 신경망(RNN) 트레이닝 시스템 및 트레이닝을 위한 대량의 다양한 데이터를 효율적으로 획득하는 것을 허용하는 신규 데이터 합성 기법들을 포함한다. 본 시스템의 실시예는 또한 광범위하게 사용되는 최신 상업용 음성 시스템에 비해 도전적인 잡음 환경을 더욱 잘 처리할 수 있다.

대표청구항 ▼

발언 집합 중의 각 발언에 대해: 스펙트로그램 프레임 집합을 포함하는 발언을 하나 또는 다수의 스펙트로그램 프레임의 문맥과 함께 전사 모델의 제1층에 입력하되, 상기 전사 모델의 제1층은 상기 스펙트로그램 프레임 집합으로부터의 각 스펙트로그램 프레임을 평가하는 단계; 상기 전사 모델로부터 상기 발언에 대한 예측된 문자 또는 문자 확률을 출력하는 단계; 및 상기 발언에 대한 예측 중의 착오를 측정하도록 손실을 컴퓨팅하는 단계; 실지 검증(ground truth) 문자가 주어진 상기 전사 모델의 예측된 출력의 기울기를 평가하는 단계; 및 역전파를 이용하여 상기 전사 모델을 업데이터하는 단계;를 포함하되, 상기 전사 모델의 제1층에 입력되기 전에, 시간값을 수평 이동시키는 방식으로 상기 발언 집합 중의 적어도 일부 발언을 지터링하는 단계를 더 포함하고, 상기 전사 모델의 제1층에 입력되기 전에, 상기 발언 집합 중의 적어도 일부 발언을 지터링하는 단계는, 발언의 오디오 파일을 하나 또는 다수의 시간값만큼 수평 이동시켜 상기 발언에 대한 발언의 지터 집합을 생성하는 단계와, 상기 발언의 지터 집합과 상기 발언을 스펙트로그램 집합로 전환하는 단계와,상기 전사 모델 또는 전사 모델 집합으로부터 상기 스펙트로그램 집합에 대한 출력 결과를 획득하는 단계와, 상기 오디오 파일의 출력을 획득하도록 상기 스펙트로그램 집합에 대한 상기 출력 결과를 평균화하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.

이 특허에 인용된 특허 (5)

[미국] Method and system for real-time speech recognition | Sheikhzadeh-Nadjar, Hamid, Cornu, Etienne, Brennan, Robert L., Destrez, Nicolas L., Dufaux, Alain L.
상세보기
[미국] Apparatus and method for testing speech recognition in mobile environments | Aaron, Andrew, Das, Subrata K., Lubensky, David M.
상세보기
[미국] Noise playback enhancement of prerecorded audio for speech recognition operations | Charoenruengkit,Werayuth, T., Hanson,Gary, R., Palgon,Jon
상세보기
[미국] METHOD, DEVICE AND SYSTEM FOR SPEECH RECOGNITION | Sompolinsky, Haim, Guetig, Robert
상세보기
[미국] CONSERVATIVELY ADAPTING A DEEP NEURAL NETWORK IN A RECOGNITION SYSTEM | Yu, Dong, Yao, Kaisheng, Su, Hang, Li, Gang, Seide, Frank
상세보기

이 특허를 인용한 특허 (2)

[한국] 사운드 이벤트 탐지 모델 학습 방법 | 정석원, 박중배
상세보기
[한국] 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 | 유상현
상세보기

내보내기 메뉴

내보내기 구분

파일저장
인쇄
메일전송

구성항목

기본정보
상세정보

관리번호, 국가코드, 자료구분, 상태, 출원번호, 출원일자, 공개번호, 공개일자, 등록번호, 등록일자, 발명명칭(한글), 발명명칭(영문), 출원인(한글), 출원인(영문), 출원인코드, 대표IPC

저장형식

Text(ASCII format)
Excel format
PIAS분석(.xls)

메일정보

받는사람 (필수): @
보내는사람 (선택): @
제목
내용: KISTI 검색결과 이메일 서비스

안내

총 건의 자료가 검색되었습니다.

다운받으실 자료의 인덱스를 입력하세요. (1-10,000)

검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다.

데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요)

다운로드 파일은 UTF-8 형태로 저장됩니다.
파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오.

Text(ASCII format)
Excel format

AI-Helper ※ AI-Helper는 을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

IPC	Description
A	생활필수품
A62	인명구조; 소방(사다리 E06C)
A62B	인명구조용의 기구, 장치 또는 방법(특히 의료용에 사용되는 밸브 A61M 39/00; 특히 물에서 쓰이는 인명구조 장치 또는 방법 B63C 9/00; 잠수장비 B63C 11/00; 특히 항공기에 쓰는 것, 예. 낙하산, 투출좌석 B64D; 특히 광산에서 쓰이는 구조장치 E21F 11/00)
A62B-1/08	.. 윈치 또는 풀리에 제동기구가 있는 것

연합인증

음성 전사를 위한 시스템 및 방법 원문보기