[논문]한국어 오디오 캡션 시스템 개발

강태호; 김주희; 이준하

문제 정의

따라서 본 연구는 한글화된 오디오 캡셔닝 모델을 만드는 것을 목표로 한다. 다시 말해, 주어진 소리가 무엇인지 잘 설명하는 한국어 문장을 생성하는 것을 목표로 한다.
하지만 아직 한글로 오디오 캡셔닝을 수행하는 선행 연구가 없다. 따라서 본 연구는 한글화된 오디오 캡셔닝 모델을 만드는 것을 목표로 한다. 다시 말해, 주어진 소리가 무엇인지 잘 설명하는 한국어 문장을 생성하는 것을 목표로 한다.
본 연구는 궁극적으로 실험실을 벗어나 실생활에 적용될 수 있는 모델을 제시하는 것을 목표로 한다. 이 모델은 다양한 곳에서 활용될 가능성이 있다.
본 연구에서는 CNN 인코더(Encoder)와 트랜스포머 디코더 (Decoder)를 사용하는 모델을 만들고 세 단계의 학습 과정으로 모델을 학습시키고자 하였다. 구현한 오디오 캡셔닝 모델의 한글화를 위하여 번역 API를 사용할 것이다.

가설 설정

하였다. 구현한 오디오 캡셔닝 모델의 한글화를 위하여 번역 API를 사용할 것이다.

제안 방법

최적의 API 를 골라 사용하기 위해 구글 번역기와 파파고 번역기를 비교하였다. 10 명의 참여자가 10개의 원문과 그에 대응하는 각 10개의 번역문을 보고더 자연스러운 문장에 1점을 부여하는 방식으로 비교를 진행하였다.
각 오디오 데이터는 메타 데이터 (metadata)의 키워드로 구분되어 있으므로, 인코더가 키워드에 대한 정보를 잘 구분하면서 특징 추출을 해야 한다. 따라서 2.1의 메타 데이터 전처리에서 생성한 키워드 어휘를 이용해서 각 오디오 파일에 대한 실제 키워드들을 멀티- 핫 벡터(multi-hot vector)로 만들고 이를 이용해 멀티라벨 분류 (multilabel classification)를 학습한다. 손실 함수(loss function)으로는 비대칭 손실 함수(asymmetric loss)[6]를 사용했다.
9점을 얻었다. 따라서 연구진은 파파고 번역기의 API를 활용하여 본 캡셔닝결과를 한글화하였다.
때 인코더의 파라미터는 업데이트되지 않도록 고정시켰다. 또한 과적합(over fitting) 방지를 위해 ε=0.1인 라벨 스무딩 로스(label smoothing loss)[7]를 사용했다.
사전 학습, 디코더 학습, 파인 튜닝에서의 학습률은 각각 1×10-3, 3×10-4, 5×10-5이고, 학습 에포크 (epoch) 수는 각각 20, 100, 30이다. 또한 디코더의 성능 향상을 위해 빔(beam)크기가 3인 빔 탐색(beam search)를 이용해 최종 캡션 출력을 하였다.
각 컨볼루션블록들의 아웃풋 채널(output channel)은 각각 64, 128, 256, 512이다. 마지막으로 CNN10의 결과를 각각 512, 192크기의 2개의 완전 연결 레이어(fully-connected layer)를 사용해 최종 특징 시퀀스(feature sequence)를 생성하여 디코더로 넘긴다.
본 연구에서는 모델의 학습을 사전 학습, 디코더 학습, 파인 튜닝 총 3단계로 나누어 진행하였다.
대략적으로 분류한다. 중복되거나 무의미한 키워드들을 제거하기 위해 품사분류기(POS-tagger)로 각 키워드들의 품사를 구분하고 표제어 추출(Lemmatization)로 각 키워드들의 표제어만 저장한다. 이후 출현 빈도수가 10 이상인 키워드들만 남겨 최종적으로 355개의 키워드 어휘(keyword vocabulary)를 생성한다.
영어 캡션을 한글화하기 위해 번역 API를 사용하였다. 최적의 API 를 골라 사용하기 위해 구글 번역기와 파파고 번역기를 비교하였다. 10 명의 참여자가 10개의 원문과 그에 대응하는 각 10개의 번역문을 보고더 자연스러운 문장에 1점을 부여하는 방식으로 비교를 진행하였다.

대상 데이터

구현 결과, 캡션의 결과를 예측이 우수한 Good Case와 예측이 상대적으로 부정확한 Bad Case를 하나씩 선정하였다. [표 2]는 Good Case의 예시이고 [표 3]은 Bad Case의 예시이다.
디코더 : 트랜스포머[5] 모델의 디코더 레이어(decoder layer)를사용하였다. 임베딩 레이어(Embedding layer)를 통과한 캡션에 대해포지셔널 인코딩(Positional encoding)을 적용하여 단어의 위치 정보를 가지고, 첫번째 하위 레이어인 룩-어헤드 마스크(look-ahead mask)를적용한 멀티-헤드 셀프-어텐션(multi-head self-attention)을 수행하여 현재 시점과 그 이전 시점의 단어들만 참고한다.
두번째 하위 레이어에서는 인코더의 결과인 나온 시퀀스 특징 벡터(sequence features vector)를 이용한 인코더-디코더 어텐션(encoder-decoder attention)을 수행하여 이전 하위 레이어의 정보와 인코더의 정보를 함께 가진다. 디코더는 히든 디멘션(hidden dimension)이 192, num_heads가 4인 2개의 디코더 레이어(decoder layer)를 사용하였다.
구현하는데 사용한 프로그래밍 언어는 Python, 인공지능 모델링은 PyTorch 라이브러리를 사용했다. 오디오 데이터 전처리에서 log-mel spectrograme librosa 라이브러리를 사용했고, 메타데이터 전처리에서는 nltk 라이브러리를 사용해 구현했다. Metric을 측정할 때 자연어처리는 Stanford의 CoreNLP를 사용했다.
오디오 캡셔닝 모델의 구현을 위하여 Detection and Classification of Acoustic Scenes and Events (DCASE) 2020에서 제안하는 데이터셋(dataset)과 베이스라인을 참고하였다. DCASE 2020 에서는 Clotho Dataset[1]을 제안하였는데, 이는 각각 5개의 캡션 (caption)을 갖는 15~30초 길이의 4981개의 오디오 클립을 포함한다.
인코더 : CNN layer 10개를 사용하는 CNN10[4]을 인코더로 사용하였다. CNN10은 4개의 컨볼루션 블록(convolution block)이 있는데, 각 블록들은 2개의 3×3 컨볼루션 레이어(convolution layer)를 가지며 레이어 연산 후 ReLU 활성 함수(activation)와 배치 정규화(batch normalization)을 적용한다.

데이터처리

오디오 데이터 전처리 : 오디오 데이터는 로그-멜 스펙트로그램 (log-mel spectrogram)으로 전처리 하였다. 샘플링 레이트 (sampling rate)는 44.

이론/모형

오디오 데이터 전처리에서 log-mel spectrograme librosa 라이브러리를 사용했고, 메타데이터 전처리에서는 nltk 라이브러리를 사용해 구현했다. Metric을 측정할 때 자연어처리는 Stanford의 CoreNLP를 사용했다.
구현하는데 사용한 프로그래밍 언어는 Python, 인공지능 모델링은 PyTorch 라이브러리를 사용했다. 오디오 데이터 전처리에서 log-mel spectrograme librosa 라이브러리를 사용했고, 메타데이터 전처리에서는 nltk 라이브러리를 사용해 구현했다.
모든 학습 단계에서 배치 크기(batch size)는 16, 옵티마이저 (optimizer)는 Adam[8], Γ=0.98인 지수 학습률 스케줄러(exponential learning rate scheduler)를 사용하였다. 사전 학습, 디코더 학습, 파인 튜닝에서의 학습률은 각각 1×10-3, 3×10-4, 5×10-5이고, 학습 에포크 (epoch) 수는 각각 20, 100, 30이다.
1의 메타 데이터 전처리에서 생성한 키워드 어휘를 이용해서 각 오디오 파일에 대한 실제 키워드들을 멀티- 핫 벡터(multi-hot vector)로 만들고 이를 이용해 멀티라벨 분류 (multilabel classification)를 학습한다. 손실 함수(loss function)으로는 비대칭 손실 함수(asymmetric loss)[6]를 사용했다.
문장 단위로 쪼개어 코퍼스 (corpus)를 생성한다. 이 코퍼스로 Word2Vec model[3]을 사전에 훈련시켜 디코더의 워드 임베딩(word embedding)으로 활용한다.
이 오디오 클립의 약 60%는 학습 세트(training set)로, 20%는 평가 세트 (evaluation set)로, 그리고 나머지 20%는 테스트 세트(test set)로 활용하도록 한다. 이때 모델의 평가 기준으로는 SPIDEr[2] 방식을 사용할 것이다.

성능/효과

그 결과, 파파고 번역기는 평균 6.1점을, 구글 번역기는 평균 3.9점을 얻었다. 따라서 연구진은 파파고 번역기의 API를 활용하여 본 캡셔닝결과를 한글화하였다.
본 모델의 결과는 [표 1]에 나타냈다. 기존의 베이스라인 모델보다 월등한 성능 향상을 보이고, 최종 평가 방식인 SPIDEr 점수는 0.054에서 0.1977로 약 3.6배 향상되었다.

후속연구

미래의 로봇 산업에 이 시스템을 적용한다면 그 가치는 더욱 높아질 것이다. 또한, 기존 음성 인식 제품에 이 모델을 추가하면 기능을 향상할 수 있을 것이다. 목소리의 문장만을 인식하던 기존과 달리 감정, 건강 상태, 주변 상황 등도 인식할 수 있게 되면 제품의 기능이 향상될 수 있을 것으로 기대한다.
또한, 기존 음성 인식 제품에 이 모델을 추가하면 기능을 향상할 수 있을 것이다. 목소리의 문장만을 인식하던 기존과 달리 감정, 건강 상태, 주변 상황 등도 인식할 수 있게 되면 제품의 기능이 향상될 수 있을 것으로 기대한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 오디오 캡션 시스템 개발
Development of Korean Audio Caption System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 오디오 캡션 시스템 개발 Development of Korean Audio Caption System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 오디오 캡션 시스템 개발
Development of Korean Audio Caption System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper