$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

청각장애인을 위한 음성-자막 자동 변환 시스템 개발 및 음성 인식률 고도화
Development and Enhancement of Automatic Caption Generation System based on Speech-to-Text for the Hearing Impaired 원문보기

한국방송∙미디어공학회 2020년도 하계학술대회, 2020 July 13, 2020년, pp.465 - 468  

최미애 (한국정보통신기술협회) ,  김승현 (한국정보통신기술협회) ,  조민애 (한국정보통신기술협회) ,  박동영 (한국정보통신기술협회) ,  김용호 (한국정보통신기술협회) ,  윤종후 (한국정보통신기술협회)

초록
AI-Helper 아이콘AI-Helper

인터넷 미디어, OTT, VOD 등 신규미디어가 비장애인의 정보제공 매체로 널리 확대되나, 자막 서비스를 제공하지 않아 청각장애인의 정보 격차가 더욱 심화되고 있다. 청각장애인의 미디어 접근성 제고를 위해 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 음성을 인식하여 자동으로 자막을 생성하고 표시하는 음성-자막 자동 변환 시스템을 개발하였고 음성인식률을 높이기 위해 뉴스/시사/다큐 장르 영상 콘텐츠의 음성에 대해 학습용 데이터를 제작하여 음성인식 성능을 고도화 시켰다. 본 논문에서는 청각장애인을 위한 음성-자막 자동 변환시스템 구성과 음성인식률 비교 평가 결과를 보여준다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • “음성-자막 자동 변환 시스템의 인식률 성능의 객관적인 평가를 위해 평가용 오디오 DB를 구축하였고 학습 전/후 인식률과 구글, 네이버 음성 인식 솔루션과 인식률을 비교하였다.
  • 음성-자막 자동 변환시스템의 음성인식률 고도화를 위해 자막방송 데이터와 뉴스 기사, 음향 전사 데이터를 활용하여 뉴스, 시사, 다큐, 예능, 드라마의 약 8,000시간 이상의 자막방송 콘텐츠로 440MB의 언어모델 데이터를 생성하였다. 국내 언어모델에 맞게 전문용어, 사투리 등은 텍스트 코퍼스를 추가하였다. 음향 데이터 전사 작업은 뉴스, 시사, 다큐 장르에 대해서 약 1072 시간 진행하였다.
  • 급변하는 스마트미디어 환경에서의 청각장애인의 방송접근권 확대 및 정보 격차 해소에 기여하고자 단말(스마트폰 또는 태블릿)의 영상 콘텐츠에서 직접 음성을 인식하여 음성인식 서버 및 스마트폰 앱 간 연계를 통해 영상에 자막서비스를 제공하는 청각장애인용 음성-자막 자동 변환 시스템을 개발하였다. 이 시스템은 기존 음성인식 솔루션을 활용하여 국내 스마트미디어 및 언어 환경에 맞는 학습데이터를 생성하여 학습을 통해 음성 인식률을 향상 시켰다.
  • 뉴스/시사/다큐 각 2시간씩 임의로 선택하여 학습 전(기본 모델)과 최종 학습 결과, 그리고 구글, 네이버의 총 4가지 엔진을 비교 평가하였다.
  • 음성-자막 변환 시스템의 음성인식률을 평가하기 위해 음성 평가용 DB 100시간 중 무작위로 6시간을 선택하여 구글, 네이버의 음성인식 엔진과 비교하였고, 30시간을 선택하여 음성-자막 변환 시스템의 성능을 검증하였다. 또한 외래어, 줄임말, 신조어 등 특성어를 제작하여 음성-자막 변환 시스템의 국내 환경에 맞는 특성어에 대한 성능을 검증하였다. 아래의 음절 단위 인식률 식을 적용하여 음성 인식률을 계산하였다.
  • VOD·인터넷 미디어의 다양한 전송포장 방식(MP4, MPEG-2 TS, DASH 등), 음성 부호화 방식(AAC, AC-3 등)에 대응하는 음성 획득이 가능하다. 또한, 자막 On/Off, 화면 표시 방법 등 청각장애인 시청자가 사용하기에 용이한 UI를 적용하였다.
  • 영상 콘텐츠의 다양한 장르 중 1차 개발로 뉴스/시사/다큐 장르의 음성에 대해 학습용 데이터를 제작하여 음향 모델과 언어 모델을 학습시켜 음성-자막 자동 변환시스템의 음성 인식률의 성능을 고도화시켰다.
  • 음향 데이터 전사 작업은 뉴스, 시사, 다큐 장르에 대해서 약 1072 시간 진행하였다. 외래어, 전문용어, 신조어 등이 포함된 멀티미디어 콘텐츠의 인식 정확도를 높이기 위한 자연어 음성인식 학습 기술을 적용하여 학습하였다.
  • 음성-자막 변환 시스템의 음성인식률을 평가하기 위해 음성 평가용 DB 100시간 중 무작위로 6시간을 선택하여 구글, 네이버의 음성인식 엔진과 비교하였고, 30시간을 선택하여 음성-자막 변환 시스템의 성능을 검증하였다. 또한 외래어, 줄임말, 신조어 등 특성어를 제작하여 음성-자막 변환 시스템의 국내 환경에 맞는 특성어에 대한 성능을 검증하였다.
  • 음성인식 기반 자동 자막 생성 시스템의 객관적인 성능 평가 및 타시스템과 성능 비교를 위해 검증용 음성 DB를 제작하였다.
  • 음성인식 서버는 양방향 LSTM 딥러닝 알고리즘을 적용한 음성인식엔진을 적용하였으며, 자연어 음성인식 기술이 적용된 높은 정밀도의 음성-문자 변환 인터페이스를 제공한다. 양방향 방식의 은닉층 뉴럴 네트웍은 기존 DNN 방식 및 포워드 방향만을 학습하는 단방향에 비해 입력 시퀀스의 앞뒤 양방향의 가중치를 모두 학습하기 때문에 학습을 통한 인식률의 향상률이 높다.
  • 급변하는 스마트미디어 환경에서의 청각장애인의 방송접근권 확대 및 정보 격차 해소에 기여하고자 단말(스마트폰 또는 태블릿)의 영상 콘텐츠에서 직접 음성을 인식하여 음성인식 서버 및 스마트폰 앱 간 연계를 통해 영상에 자막서비스를 제공하는 청각장애인용 음성-자막 자동 변환 시스템을 개발하였다. 이 시스템은 기존 음성인식 솔루션을 활용하여 국내 스마트미디어 및 언어 환경에 맞는 학습데이터를 생성하여 학습을 통해 음성 인식률을 향상 시켰다. 본 논문에서는 평가용 오디오 DB에서 랜덤하게 오디오를 추출하여 네이버, 구글의 음성인식엔진과 비교하고 학습전보다 학습후의 음성인식률이 향상되었음을 평가 결과를 통해 보여 주었다.
  • 좀 더 많은 데이터 평가로 객관성을 확보하여 음성-자막 변환 시스템의 음성인식률을 검증하기 위해서, 평가용 오디오 파일을 30시간으로 늘려 뉴스 10시간, 다큐 10시간, 시사 10시간을 평가하였다. 평가 결과는 표 2와 같다.
  • 청각장애인용 음성-자막 자동 변환 시스템은 마이크로 취득한 음성이 아닌 재생되는 영상 콘텐츠의 음성을 직접 인식하여, 음성인식 서버 및 스마트 폰·태블릿 앱 간 연계를 통해 미디어 영상 콘텐츠에 대해 실시간으로 자막 서비스를 제공할 수 있도록 개발하였다.
  • 청각장애인을 위한 음성-자막 자동 변환시스템 개발은 음성인식 전문 기술 솔루션 알파케이 음성 인식 엔진2)을 도입하고 사용자측 단말에서 미디어 재생 앱을 통해 처리하는 방식으로 영상 콘텐츠에서 직접 음성을 취득·인식하고 처리하는 시스템으로 그림 1과 같이 설계하였다.
  • 평가용 음성 DB는 뉴스/시사/다큐 장르에서도 더 다양한 어휘와 방송 환경을 반영하기 위하여 시사, 경제, 역사, 자연, 스포츠 등 분야별로 구축하였고 국내 한국어의 특성에 자주 쓰이는 특성어를 포함, 평가용 음성-자막 DB를 구축하였다.
  • 평가용 음성 DB는 표1과 같이 개별 30초, 혹은 2분 단위로 뉴스∙ 시사∙다큐∙드라마∙예능 장르와 줄임말∙고유명사∙외래어∙숫자∙ 신조어∙다수화자∙축약∙감탄사 등 분야/특성어 분류 체계로 총100시간 분량 DB를 제작하였다.
  • 평가용 음성과 자막(답안) 등 평가용 DB를 이용하여 음성-자막 변환 시스템과 네이버나 구글 음성-자막 변환 시스템과 비교 평가를 하고 학습 전/후의 음성인식률을 비교할 수 있었다.

대상 데이터

  • 음성-자막 자동 변환시스템의 음성인식률 고도화를 위해 자막방송 데이터와 뉴스 기사, 음향 전사 데이터를 활용하여 뉴스, 시사, 다큐, 예능, 드라마의 약 8,000시간 이상의 자막방송 콘텐츠로 440MB의 언어모델 데이터를 생성하였다. 국내 언어모델에 맞게 전문용어, 사투리 등은 텍스트 코퍼스를 추가하였다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로