[논문]청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화

최미애; 김승현; 조민애; 박동영; 김용호; 윤종후

제안 방법

“음성-자막 자동 변환 시스템의 인식률 성능의 객관적인 평가를 위해 평가용 오디오 DB를 구축하였고 학습 전/후 인식률과 구글, 네이버 음성 인식 솔루션과 인식률을 비교하였다.
음성-자막 자동 변환시스템의 음성인식률 고도화를 위해 자막방송 데이터와 뉴스 기사, 음향 전사 데이터를 활용하여 뉴스, 시사, 다큐, 예능, 드라마의 약 8,000시간 이상의 자막방송 콘텐츠로 440MB의 언어모델 데이터를 생성하였다. 국내 언어모델에 맞게 전문용어, 사투리 등은 텍스트 코퍼스를 추가하였다. 음향 데이터 전사 작업은 뉴스, 시사, 다큐 장르에 대해서 약 1072 시간 진행하였다.
급변하는 스마트미디어 환경에서의 청각장애인의 방송접근권 확대 및 정보 격차 해소에 기여하고자 단말(스마트폰 또는 태블릿)의 영상 콘텐츠에서 직접 음성을 인식하여 음성인식 서버 및 스마트폰 앱 간 연계를 통해 영상에 자막서비스를 제공하는 청각장애인용 음성-자막 자동 변환 시스템을 개발하였다. 이 시스템은 기존 음성인식 솔루션을 활용하여 국내 스마트미디어 및 언어 환경에 맞는 학습데이터를 생성하여 학습을 통해 음성 인식률을 향상 시켰다.
뉴스/시사/다큐 각 2시간씩 임의로 선택하여 학습 전(기본 모델)과 최종 학습 결과, 그리고 구글, 네이버의 총 4가지 엔진을 비교 평가하였다.
음성-자막 변환 시스템의 음성인식률을 평가하기 위해 음성 평가용 DB 100시간 중 무작위로 6시간을 선택하여 구글, 네이버의 음성인식 엔진과 비교하였고, 30시간을 선택하여 음성-자막 변환 시스템의 성능을 검증하였다. 또한 외래어, 줄임말, 신조어 등 특성어를 제작하여 음성-자막 변환 시스템의 국내 환경에 맞는 특성어에 대한 성능을 검증하였다. 아래의 음절 단위 인식률 식을 적용하여 음성 인식률을 계산하였다.
VOD·인터넷 미디어의 다양한 전송포장 방식(MP4, MPEG-2 TS, DASH 등), 음성 부호화 방식(AAC, AC-3 등)에 대응하는 음성 획득이 가능하다. 또한, 자막 On/Off, 화면 표시 방법 등 청각장애인 시청자가 사용하기에 용이한 UI를 적용하였다.
영상 콘텐츠의 다양한 장르 중 1차 개발로 뉴스/시사/다큐 장르의 음성에 대해 학습용 데이터를 제작하여 음향 모델과 언어 모델을 학습시켜 음성-자막 자동 변환시스템의 음성 인식률의 성능을 고도화시켰다.
음향 데이터 전사 작업은 뉴스, 시사, 다큐 장르에 대해서 약 1072 시간 진행하였다. 외래어, 전문용어, 신조어 등이 포함된 멀티미디어 콘텐츠의 인식 정확도를 높이기 위한 자연어 음성인식 학습 기술을 적용하여 학습하였다.
음성-자막 변환 시스템의 음성인식률을 평가하기 위해 음성 평가용 DB 100시간 중 무작위로 6시간을 선택하여 구글, 네이버의 음성인식 엔진과 비교하였고, 30시간을 선택하여 음성-자막 변환 시스템의 성능을 검증하였다. 또한 외래어, 줄임말, 신조어 등 특성어를 제작하여 음성-자막 변환 시스템의 국내 환경에 맞는 특성어에 대한 성능을 검증하였다.
음성인식 기반 자동 자막 생성 시스템의 객관적인 성능 평가 및 타시스템과 성능 비교를 위해 검증용 음성 DB를 제작하였다.
음성인식 서버는 양방향 LSTM 딥러닝 알고리즘을 적용한 음성인식엔진을 적용하였으며, 자연어 음성인식 기술이 적용된 높은 정밀도의 음성-문자 변환 인터페이스를 제공한다. 양방향 방식의 은닉층 뉴럴 네트웍은 기존 DNN 방식 및 포워드 방향만을 학습하는 단방향에 비해 입력 시퀀스의 앞뒤 양방향의 가중치를 모두 학습하기 때문에 학습을 통한 인식률의 향상률이 높다.
급변하는 스마트미디어 환경에서의 청각장애인의 방송접근권 확대 및 정보 격차 해소에 기여하고자 단말(스마트폰 또는 태블릿)의 영상 콘텐츠에서 직접 음성을 인식하여 음성인식 서버 및 스마트폰 앱 간 연계를 통해 영상에 자막서비스를 제공하는 청각장애인용 음성-자막 자동 변환 시스템을 개발하였다. 이 시스템은 기존 음성인식 솔루션을 활용하여 국내 스마트미디어 및 언어 환경에 맞는 학습데이터를 생성하여 학습을 통해 음성 인식률을 향상 시켰다. 본 논문에서는 평가용 오디오 DB에서 랜덤하게 오디오를 추출하여 네이버, 구글의 음성인식엔진과 비교하고 학습전보다 학습후의 음성인식률이 향상되었음을 평가 결과를 통해 보여 주었다.
좀 더 많은 데이터 평가로 객관성을 확보하여 음성-자막 변환 시스템의 음성인식률을 검증하기 위해서, 평가용 오디오 파일을 30시간으로 늘려 뉴스 10시간, 다큐 10시간, 시사 10시간을 평가하였다. 평가 결과는 표 2와 같다.
청각장애인용 음성-자막 자동 변환 시스템은 마이크로 취득한 음성이 아닌 재생되는 영상 콘텐츠의 음성을 직접 인식하여, 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 미디어 영상 콘텐츠에 대해 실시간으로 자막 서비스를 제공할 수 있도록 개발하였다.
청각장애인을 위한 음성-자막 자동 변환시스템 개발은 음성인식 전문 기술 솔루션 알파케이 음성 인식 엔진2)을 도입하고 사용자측 단말에서 미디어 재생 앱을 통해 처리하는 방식으로 영상 콘텐츠에서 직접 음성을 취득·인식하고 처리하는 시스템으로 그림 1과 같이 설계하였다.
평가용 음성 DB는 뉴스/시사/다큐 장르에서도 더 다양한 어휘와 방송 환경을 반영하기 위하여 시사, 경제, 역사, 자연, 스포츠 등 분야별로 구축하였고 국내 한국어의 특성에 자주 쓰이는 특성어를 포함, 평가용 음성-자막 DB를 구축하였다.
평가용 음성 DB는 표1과 같이 개별 30초, 혹은 2분 단위로 뉴스∙ 시사∙다큐∙드라마∙예능 장르와 줄임말∙고유명사∙외래어∙숫자∙ 신조어∙다수화자∙축약∙감탄사 등 분야/특성어 분류 체계로 총100시간 분량 DB를 제작하였다.
평가용 음성과 자막(답안) 등 평가용 DB를 이용하여 음성-자막 변환 시스템과 네이버나 구글 음성-자막 변환 시스템과 비교 평가를 하고 학습 전/후의 음성인식률을 비교할 수 있었다.

대상 데이터

음성-자막 자동 변환시스템의 음성인식률 고도화를 위해 자막방송 데이터와 뉴스 기사, 음향 전사 데이터를 활용하여 뉴스, 시사, 다큐, 예능, 드라마의 약 8,000시간 이상의 자막방송 콘텐츠로 440MB의 언어모델 데이터를 생성하였다. 국내 언어모델에 맞게 전문용어, 사투리 등은 텍스트 코퍼스를 추가하였다.

성능/효과

국내 동향에 맞게 이미 학습되어진 학습전 기본모델이 구글이나 네이버의 음성인식 엔진보다 음성 인식률이 높았으며, 뉴스/시사/다큐 분야의 학습을 통해 음성인식률 결과가 더 향상되어졌음을 표2와 같이 확인할 수 있었다.
뉴스/시사/다큐, 각 10시간 총 30시간의 음성인식률을 평가한 결과 91%의 인식률을 확인할 수 있다. 이는 평가용 오디오 DB에 따라 다소 차이가 날 수 있으나 평균적으로 90%가 넘었음을 확인 할 수 있었다.
이 시스템은 기존 음성인식 솔루션을 활용하여 국내 스마트미디어 및 언어 환경에 맞는 학습데이터를 생성하여 학습을 통해 음성 인식률을 향상 시켰다. 본 논문에서는 평가용 오디오 DB에서 랜덤하게 오디오를 추출하여 네이버, 구글의 음성인식엔진과 비교하고 학습전보다 학습후의 음성인식률이 향상되었음을 평가 결과를 통해 보여 주었다. 음성-자막 자동 변환 시스템은 청각장애인이 접근이 힘든 인터넷 영상, VOD 등에 대해 자막 서비스를 제공하는데 활용 할 수 있다.
특성어별 인식률도 국내환경에 맞게 학습시킨 음성-자막 변환 시스템이 구글, 네이버 음성인식 엔진보다 높았고 학습 결과 학습 전보다 5~10%정도 향상됐음을 알 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화
Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

제안 방법

대상 데이터

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화 Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화
Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper