[논문]보조 자료와 음성 전사를 사용한 강의 검색 시스템

이동현; 이근배

보조 자료와 음성 전사를 사용한 강의 검색 시스템
A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION 원문보기

이동현 (포항공과 대학교 컴퓨터 공학과) , 이근배 (포항공과 대학교 컴퓨터 공학과)

음성 오디오 검색 시스템을 구축하기 위해서는 몇 가지 과정이 필요하다. 첫 번째 과정이 음성 인식기를 이용하여 음성 오디오를 텍스트 형태로 표현하는 것이다. 하지만, 음성 인식기에서 수반되는 음성 인식 오류를 피할 수는 없다. 음성 인식 오류를 최소화하기 위해서 음성 인식 출력의 lattice를 색인(index)해야 하는데, 보다 효과적인 처리를 위하여 압축된 형태를 사용한다. 본 연구에서는 특별히 한국어 강의를 대상으로 검색 시스템을 구축했다. 강의에서는 특별히 관련된 자료를 쉽게 구할 수 있는 데, 이런 자료를 언어 모델에 이용하여 음성 인식 성능을 향상 시킬 수 있다. 또한, 강의 자료를 이용한 추가 색인 테이블(index table)을 생성하여 검색 성능 향상에 도움을 준다. 실험에서 고등학교 과정 수학 강의 동영상을 이용하여 자동화된 강의 검색 시스템을 구축하고, 보조 자료를 이용해 성능을 향상 시키는 것을 보인다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 음성 전사와 보조 자료를 사용하여 강의 검색 시스템을 구현하였다. 일부 온라인 강의 시스템에서도 동영상 검색을 제공하는 데, 이는 대부분 수작업을 통해 색인한 것을 이용한다.
본 연구에서는 보조 자료와 음성 전사를 이용한 강의 검색 시스템을 개발하였다. 강의 보조 자료는 크게 두 가지 관점에서 사용하였다.

제안 방법

우선, 음성 인식 성능을 향상시키기 위한 언어 모델링에 강의 보조 자료를 이용한다. 그리고 검색 성능 향상을 위해, 보조 자료를 바탕으로 색인 테이블을 추가적으로 생성한다.
강의와 관련된 보조 자료는 쉽게 구할 수가 있을 뿐만 아니라, 잘 활용하면 성능 향상에도 도움이 될 수 있다. 보조 자료로부터 컨텐츠 테이블(Contents Table)과 매칭 테이블(Matching Table)을 생성했다. 그림 4는 이 두 테이블이 생성되는 과정을 보여준다.
여기서는 음성 전사와 보조 자료를 통해 자동으로 음성 전사 색인 테이블, 컨텐츠 테이블, 매칭 테이블을 생성했다. 세 가지 테이블을 이용해 검색 과정에서 연관 점수를 구했다. 실험 결과에서 보조 자료를 활용하는 것이 음성 문서 검색 성능 향상에 도움이 되는 것을 보였다.
강의에서는 주로 대화체의 형태로 발화가 이루어지기 때문에 기본적으로 언어 모델링을 대화체에 맞추어야 한다. 여기서는 강의에 사용된 대화체 내용을 기본으로 하여, 강의 내용에 맞는 보조 자료 내용을 결합하여 언어 모델링을 했다.
일부 온라인 강의 시스템에서도 동영상 검색을 제공하는 데, 이는 대부분 수작업을 통해 색인한 것을 이용한다. 여기서는 음성 전사와 보조 자료를 통해 자동으로 음성 전사 색인 테이블, 컨텐츠 테이블, 매칭 테이블을 생성했다. 세 가지 테이블을 이용해 검색 과정에서 연관 점수를 구했다.
그 이후 음성 인식기를 거쳐 오디오 신호는 텍스트로 전사되는 과정을 거쳤다. 이렇게 생성된 음성 전사로부터 음성 문서를 색인하고, 색인 테이블로부터 검색을 수행한다. 사용자는 음성 검색 시스템에 키워드를 입력하면, 시스템은 관련된 음성 문서를 사용자에게 제공해준다.
매칭 테이블은 특정 섹션에 분할된 음성 문서를 할당해준 뒤 그 정보를 저장한다. 이를 위해서 각 섹션마다 언어 모델을 생성한다. 분할된 음성 문서를 생성한 각각의 언어 모델에 적용해서 가장 높은 언어 모델 점수를 가지는 섹션으로 할당한다.

대상 데이터

본 연구에서는 보조 자료와 음성 전사를 이용한 강의 검색 시스템을 개발하였다. 강의 보조 자료는 크게 두 가지 관점에서 사용하였다. 우선, 음성 인식 성능을 향상시키기 위한 언어 모델링에 강의 보조 자료를 이용한다.
본 연구에서는 온라인 교육 사이트로부터 추출한 고등학교 과정의 수학 강의 동영상을 추출하여 음성 문서 검색 실험에 사용하였다. 실험 과정에서 사용한 보조 자료 역시 교육 사이트에서 제공한 강의 노트를 이용하였다.
대부분의 경우 방송 뉴스를 대상으로 이루어졌으며, 강의 비디오 데이터를 바탕으로 한 경우도 있었다. 예를 들면, TREC (Text REtrieval Conference) Spoken Document Retrieval evaluation[1]에서 방송 뉴스를 이용하였고, MIT Lecture browser[2]에서 MIT의 대학 강의를 이용하였다.
음성 문서 검색 성능 실험을 위해 총 50개의 텍스트질의를 사용했다. 자주 발생하는 n-gram 후보군 중에서 인위적으로 50개를 선택했다.
이 시스템은 발성 화자에 관계없는 음성 인식을 하는 화자 독립 시스템이다. 인식 단위로는 음소 기반의 유사음소단위(PLU, Phoneme Like Unit)를 사용하며, 48개로 구성된 유사음소단위 세트를 이용하였다.
음성 문서 검색 성능 실험을 위해 총 50개의 텍스트질의를 사용했다. 자주 발생하는 n-gram 후보군 중에서 인위적으로 50개를 선택했다. 각 텍스트 질의는 최소 1개의 단어에서 최대 3개의 단어를 포함하고 있다.

이론/모형

검색 성능의 평가 방법으로는 MAP(Mean Average Precision)과 R-Precision을 사용했다.
모든 히든 마코프 모델은 각각 세 개의 상태를 가지고, 각 상태의 출력 확률 값은 다수의 가우시안 혼합분포로부터 계산된다. 발음 모델은 연관 규칙(Association Rules)을 사용한 자소열-음소열 변환기(Grapheme to Phoneme Converter; G2P)[4]를 이용하여 생성했다. 언어 모델은 SRILM toolkit[5]을 이용하여 바이그램(bigram) 모델을 기본적으로 적용했고, 트라이그램(trigram) 모델도 점수 재조정(re-scoring)에 이용하였다.
본 연구에서 사용한 한국어 연속 음성 인식 시스템은 HTK(Hidden Markov Model Toolkit)[3]를 기반으로 하였다. 이 시스템은 발성 화자에 관계없는 음성 인식을 하는 화자 독립 시스템이다.
발음 모델은 연관 규칙(Association Rules)을 사용한 자소열-음소열 변환기(Grapheme to Phoneme Converter; G2P)[4]를 이용하여 생성했다. 언어 모델은 SRILM toolkit[5]을 이용하여 바이그램(bigram) 모델을 기본적으로 적용했고, 트라이그램(trigram) 모델도 점수 재조정(re-scoring)에 이용하였다.
강의와 같은 음성 파일은 길이가 1시간 정도 되는데, 효과적인 음성 인식을 위해서 문장 단위로 잘라내는 것이 필요하다. 여기서는 음성 툴인 Praat[6]을 이용하여 잘라낸 뒤 수작업을 거쳐 완성 했다.
텍스트 색인하는 방법에도 TF-IDF, 확률 모델 등 여러 가지가 있다. 여기에서는 Ad-hoc 모델(일명, early google model)[7]을 사용했다. Ad-hoc 모델은 Hit이라는 개념을 사용하는 데, Hit은 특정 문서에서 특정 단어가 나타난 것을 의미한다.
음성 인식 시스템에서는 크게 음향 모델(Acoustic Model), 발음 모델(Pronunciation Model), 언어 모델(Language Model) 등 3가지 모델을 사용한다. 음향 모델은 상태 공유의 연속 히든 마코프 모델을 사용하였다.
음향 모델, 발음 모델, 언어 모델을 이용하여 네트워크를 생성한 뒤 비터비(viterbi) 알고리즘을 이용하여 탐색을 수행한다. 음성 인식의 최종 출력은 크게 1-best와 lattice로 나누어 볼 수 있다.
음성 인식 시스템에서는 크게 음향 모델(Acoustic Model), 발음 모델(Pronunciation Model), 언어 모델(Language Model) 등 3가지 모델을 사용한다. 음향 모델은 상태 공유의 연속 히든 마코프 모델을 사용하였다. 모든 히든 마코프 모델은 각각 세 개의 상태를 가지고, 각 상태의 출력 확률 값은 다수의 가우시안 혼합분포로부터 계산된다.

성능/효과

각 텍스트 질의는 최소 1개의 단어에서 최대 3개의 단어를 포함하고 있다. 모든 텍스트 질의는 음성 인식기의 어휘에 포함된 단어들로 구성되었고, 평균 길이는 1.27이였다.
검색 성능의 평가 방법으로는 MAP(Mean Average Precision)과 R-Precision을 사용했다. 실험 결과를 보면, 보조 자료를 추가적으로 활용했을 경우에 검색 성능도 조금은 향상 되는 것을 확인할 수 있다.
세 가지 테이블을 이용해 검색 과정에서 연관 점수를 구했다. 실험 결과에서 보조 자료를 활용하는 것이 음성 문서 검색 성능 향상에 도움이 되는 것을 보였다.
그 이유는 중요한 단어는 반복되는 경향이 있고, 의미적으로 도움을 주는 단어들도 자주 나타나기 때문이다. 즉, 음성 인식 성능이 일정 수준 이상만 되면 검색 성능에는 큰 악영향을 주지 않았다. 하지만, 실제 음성 인식 환경에서는 단어 오인식율이 30%에서 심지어 50%까지 이른다.

후속연구

본 연구에서 개발한 시스템의 경우 고등학교 수학 강의를 검색하기 때문에, 관련된 보조 자료를 활용하면 어휘 선택과 언어 모델링에 큰 도움이 될 수 있다. 강의에서는 주로 대화체의 형태로 발화가 이루어지기 때문에 기본적으로 언어 모델링을 대화체에 맞추어야 한다.
하지만, 본 연구에서는 강인한 음성 문서 검색 시스템에서 필수적인 미등록어(Out-of-Vocabulary;OOV) 처리 부분이 고려되지 않았다. 앞으로는 사용자 질의에 미등록어가 포함되어 있을 경우에도 검색을 효과적으로 수행할 수 있는 방법을 연구할 계획이다. 추가적으로 지금보다 큰 규모의 데이터에 대해서 연구를 확장할 계획이다.
앞으로는 사용자 질의에 미등록어가 포함되어 있을 경우에도 검색을 효과적으로 수행할 수 있는 방법을 연구할 계획이다. 추가적으로 지금보다 큰 규모의 데이터에 대해서 연구를 확장할 계획이다.

핵심어

질문

논문에서 추출한 답변

본 연구의 한국어 연속 음성 인식 시스템은 어떤 모델을 사용하나?

음성 인식 시스템에서는 크게 음향 모델(Acoustic Model), 발음 모델(Pronunciation Model), 언어 모델(Language Model) 등 3가지 모델을 사용한다. 음향 모델은 상태 공유의 연속 히든 마코프 모델을 사용하였다.

음성 문서 검색은 어떻게 나뉠 수 있나?

그림 1 은 음성 문서 검색의 전반적인 과정을 보여주고 있다. 음성 문서 검색은 크게 3가지 부분으로 나눌 수 있는데, 첫째는 음성 웨이브를 텍스트로 표현하기 위한 음성 전사(speech transcription) 단계, 둘째는 음성 전사된 결과를 이용해 음성 문서를 색인(index)하는 단계, 셋째는 색인 테이블을 참고하여 사용자가 원하는 키워드에 맞추어 연관된 문서를 보여주는 단계이다.

한국어 연속 음성 인식 시스템이란?

본 연구에서 사용한 한국어 연속 음성 인식 시스템은 HTK(Hidden Markov Model Toolkit)[3]를 기반으로 하였다. 이 시스템은 발성 화자에 관계없는 음성 인식을 하는 화자 독립 시스템이다. 인식 단위로는 음소 기반의 유사음소단위(PLU, Phoneme Like Unit)를 사용하며, 48개로 구성된 유사음소단위 세트를 이용하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

보조 자료와 음성 전사를 사용한 강의 검색 시스템
A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

보조 자료와 음성 전사를 사용한 강의 검색 시스템 A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

보조 자료와 음성 전사를 사용한 강의 검색 시스템
A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper