본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제안한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다. 모든 음성은 기본적으로 16비트 해상도와 16 kHz 샘플링으로 저장되었다. 수집된 데이터는 총 166건의 대화로서 8시간 35분의 분량이다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 이와 같이 수집된 데이터를 이용하여 기본 베이스라인 실험을 통하여 응급의료 영역에서의 음성인식 문제를 실제로 확인할 수 있었다. 본 논문에서 제시한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용되고, 나아가 이 분야의 음성기반 시스템 개발에 기여할 수 있을 것으로 기대된다.
본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제안한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다. 모든 음성은 기본적으로 16비트 해상도와 16 kHz 샘플링으로 저장되었다. 수집된 데이터는 총 166건의 대화로서 8시간 35분의 분량이다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 이와 같이 수집된 데이터를 이용하여 기본 베이스라인 실험을 통하여 응급의료 영역에서의 음성인식 문제를 실제로 확인할 수 있었다. 본 논문에서 제시한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용되고, 나아가 이 분야의 음성기반 시스템 개발에 기여할 수 있을 것으로 기대된다.
This paper describes a method of building Korean conversational speech data in the emergency medical domain and proposes an annotation method for the collected data in order to improve speech recognition performance. To suggest future research directions, baseline speech recognition experiments were...
This paper describes a method of building Korean conversational speech data in the emergency medical domain and proposes an annotation method for the collected data in order to improve speech recognition performance. To suggest future research directions, baseline speech recognition experiments were conducted by using partial data that were collected and annotated. All voices were recorded at 16-bit resolution at 16 kHz sampling rate. A total of 166 conversations were collected, amounting to 8 hours and 35 minutes. Various information was manually transcribed such as orthography, pronunciation, dialect, noise, and medical information using Praat. Baseline speech recognition experiments were used to depict problems related to speech recognition in the emergency medical domain. The Korean conversational speech data presented in this paper are first-stage data in the emergency medical domain and are expected to be used as training data for developing conversational systems for emergency medical applications.
This paper describes a method of building Korean conversational speech data in the emergency medical domain and proposes an annotation method for the collected data in order to improve speech recognition performance. To suggest future research directions, baseline speech recognition experiments were conducted by using partial data that were collected and annotated. All voices were recorded at 16-bit resolution at 16 kHz sampling rate. A total of 166 conversations were collected, amounting to 8 hours and 35 minutes. Various information was manually transcribed such as orthography, pronunciation, dialect, noise, and medical information using Praat. Baseline speech recognition experiments were used to depict problems related to speech recognition in the emergency medical domain. The Korean conversational speech data presented in this paper are first-stage data in the emergency medical domain and are expected to be used as training data for developing conversational systems for emergency medical applications.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
있다. 나아가 최종적으로는 진찰에 필요한 정보를 객관적인 기준에 의해 저장하고 관리하는 음성 데이터베이스를 구축하여 의료정보화에 기여하고자 한다.
본 논문에서는 기본 베이스라인 실험을 통하여 응급의료 영역에서의 음성인식 문제를 실제로 확인할 수 있었다. 현재 기본 베이스라인 실험으로 Kaldi를 이용하였으나 이후 기본 성능을 높이기 위하여 종단간(end-to-end) 모델을 이용한 실험들을 진행할 계획이다.
이 두 데이터의 경우는 비교적 조용한 환경에서 수집된 데이터인데 반하여 본 연구는 의료 분야에서도 가장 분주하고 소음이 많은 환경에서 일어나는 환자와 의사 간의 대화 수집을 대상으로 한다. 본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제시한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다.
수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 본 연구에서는 대화음성에 대한전사 방법을 제안하고 있는데, 이는 응급의료 영역에서의 음성발화 정보를 텍스트로 기록하고 전사에 대한 체계적이고 표준화된 기준을 만들기 위함이다. 또한, 본 논문에서 제안한 방법에 따라 수집한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용될 수 있으며, 환자의 주요 임상정보의 종류와 분포를 구축된 텍스트 데이터를 통해 확인할 수 있다는 점에서 중요하다 할 수 있다.
이러한 연구는 응급영역에서의 음성대화 데이터 구축을 바탕으로 응급의료 영역의 음성인식 성능을 향상시켜 진료기록 자동화 및 임상정보 자동 추출 도구를 개발하는 것을 목표로 하고 있다. 나아가 최종적으로는 진찰에 필요한 정보를 객관적인 기준에 의해 저장하고 관리하는 음성 데이터베이스를 구축하여 의료정보화에 기여하고자 한다.
제안 방법
25 ms 길이의 음성 프레임에서 추출한 40개의 MFCC (mel frequency cepstral coefficients) 음향 특징을 차례로 모노폰과 트라이폰 단위 GMM에서 학습하고 LDA(linear discriminant analysis)와 MLLT(maximum likelihood linear transform)를 통해 정렬 과정을 거쳐 각 유사음성단위(phone-like-unit)의 음향 특징 구간을 학습하였다. 이때 2, 400시간 분량의 원본 데이터와 이를 기반으로 음성 열화(speech perturbation) 기법을 이용하여 생성한 0.
사용하였다. GMM 학습에서 유사음성단위당 3개의 HMM state를 사용하는 대신에 유사음성단위당 1개의 HMM state만 사용하는 방식으로 변경하였고, 이를 토대로 만들어진 토폴로지 (topology)는 체인 기반 트리(tree)를 생성하는데 사용하였다. 언어모델은 Google의 Sentencepiece Model(Kudo & Richardson, 2018)을 통해 인공신경망이 분절한 40만 개의 서브워드 사전을 만든 후, 이를 사용하여 HMM 기반 언어모델을 학습하였다.
데이터 전사를 위하여 전사 규칙 초안을 만들고 일부의 데이터에 대하여 전사자들이 다 같이 전사를 수행하여 전사 규칙을 수정 및 보완하였다. 두 개의 마이크를 사용하여 2채널로 수집된 초기 데이터의 경우 AV-CV-2 데이터와 AV-TR-2 데이터의 전사는 기본적으로 의사 위치의 채널을 통하여 수집된 음성을 사용하였고, 환자 위치의 채널 데이터를 참고하였다.
본 데이터는 대화체 발화 특성상 두 명 이상의 화자가 동시에 발화하는 발화 겹침이 발생하는데, 별도의 잡음 층위를 통해 발화 겹침 구간을 표시하였다. 또한, 추가적인 정보 파악을위해 환자 발화에 한하여 방언 발화 구간을 표시한 방언 층위와대화 내 각종 잡음을 표시한 잡음 층위도 함께 기록하였다. 마지막으로, 진단에 있어서 중요하다고 판단되는 단어를 검출하여 이에 해당하는 의료코드를 추가한다.
또한, 추가적인 정보 파악을위해 환자 발화에 한하여 방언 발화 구간을 표시한 방언 층위와대화 내 각종 잡음을 표시한 잡음 층위도 함께 기록하였다. 마지막으로, 진단에 있어서 중요하다고 판단되는 단어를 검출하여 이에 해당하는 의료코드를 추가한다. 주요 전사 지침은 아래에서 설명한다.
이때, 각 발화자의 발화는 표기법대로 전사하는 철자 전사(orthographic transcription)와 발음 나는 대로전사하는 음소 전사(phonemic transcription)로 구분하여 전사하였다. 본 데이터는 대화체 발화 특성상 두 명 이상의 화자가 동시에 발화하는 발화 겹침이 발생하는데, 별도의 잡음 층위를 통해 발화 겹침 구간을 표시하였다. 또한, 추가적인 정보 파악을위해 환자 발화에 한하여 방언 발화 구간을 표시한 방언 층위와대화 내 각종 잡음을 표시한 잡음 층위도 함께 기록하였다.
본 실험에서는 수집된 AV-CV-2, AV-TR-2, AV-TR-16 데이터에서 의사, 환자, 보호자 각각의 발화를 분절하여 개별적으로 저장한 다음 기본 인식 성능을 실험하였다. 실험에는 AC-CV-2 유형은 6, 378발화, AV-TR-2와 AV-TR-16 유형은 1, 973 발화를 사용하였고, 그 결과는 다음 표 5와 같다.
166건을 2채널과 16채널 마이크로 수집하였다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 본 연구에서는 대화음성에 대한전사 방법을 제안하고 있는데, 이는 응급의료 영역에서의 음성발화 정보를 텍스트로 기록하고 전사에 대한 체계적이고 표준화된 기준을 만들기 위함이다.
표시하였다. 이때, 각 발화자의 발화는 표기법대로 전사하는 철자 전사(orthographic transcription)와 발음 나는 대로전사하는 음소 전사(phonemic transcription)로 구분하여 전사하였다. 본 데이터는 대화체 발화 특성상 두 명 이상의 화자가 동시에 발화하는 발화 겹침이 발생하는데, 별도의 잡음 층위를 통해 발화 겹침 구간을 표시하였다.
한국어의 음소 전사는 기본적으로 음운현상에 따라 변동된 음소를 반영하게 되는데, 본 연구에서는 일관된 음소 전사를 위하여 발음열 생성기(KoG2P: Lee et al., 2018)를 사용하여 철자 전사로부터 음소를 자동으로 추출한 다음 그 결과를 수동으로 검토하였다.
따라서 문장을 단위로 분절하지 않고 일정 길이의 휴지를 기준으로 발화 단위를 분절한다. 현재 전체 수동으로 전사를 진행하고 있으므로 전사자가 음성을 직접 들으면서 휴지가 느껴지거나 Praat(Boersma & Weenink, 2018) 에서 보았을 때 육안으로 보이는 휴지 구간을 경계로 구분하였다. 전체 음성 데이터의 전사는 Praat의 Annotation 기능을 이용하여 수행하였다.
대상 데이터
두 개의 마이크를 사용하여 2채널로 수집된 초기 데이터의 경우 AV-CV-2 데이터와 AV-TR-2 데이터의 전사는 기본적으로 의사 위치의 채널을 통하여 수집된 음성을 사용하였고, 환자 위치의 채널 데이터를 참고하였다. 16채널로 수집된 AV-TR-16의 경우도 마찬가지로 기본적으로 의사 위치의 마이크 16번 채널을 통하여 수집된 음성을 사용하였고, 환자위치의 마이크 1번 채널을 통하여 수집된 음성을 참고하였다.
데이터 현황이다. AV-CV-2 데이터는 환자 침대 구역에서 환자와 의사의 대화를 의사와 환자 양쪽에 각각 1개의 마이크의 마이크를 이용하여 2채널로 수집된 초기 데이터로서 총 39건이 수집되었다. AV-TR-2 데이터는 환자 분류소에서 환자와 의사의 대화를 수집한 데이터로 초기에는 AC-CV-2 데이터와 마찬가지로 환자 위치와 의사 위치에 각각 설치된 2개의 마이크로 수집되었고, 이 환경에서 수집된 데이터는 총 19건이다.
AV-CV-2 데이터는 환자 침대 구역에서 환자와 의사의 대화를 의사와 환자 양쪽에 각각 1개의 마이크의 마이크를 이용하여 2채널로 수집된 초기 데이터로서 총 39건이 수집되었다. AV-TR-2 데이터는 환자 분류소에서 환자와 의사의 대화를 수집한 데이터로 초기에는 AC-CV-2 데이터와 마찬가지로 환자 위치와 의사 위치에 각각 설치된 2개의 마이크로 수집되었고, 이 환경에서 수집된 데이터는 총 19건이다. 이후 동일한 장소에 16채널 마이크를 설치하여 수집한 AV-TR-16의경우는 수집된 데이터 가운데 현재까지 108건으로 전체 대화는 총 166건이다.
그림 2와 같이 의사와 환자/보호자 사이에 거리가 있고, 서로 마주 보고 있는 상황에서 각 대화 참여자의 소리를 효과적으로 녹음하기 위해서는 여러 위치에서 녹음이 가능한 16 채널 마이크가 적합하다. 데이터 전사에는 16채널 가운데 음도가 강하게 들어오는 1번이나 2번, 그리고 15번이나 16번 채널을 통하여 수집된 발화를 추출하여 사용하였다. 모든 음성은 16비트의 해상도와 16 kHz 샘플링으로 저장되었다.
및 보완하였다. 두 개의 마이크를 사용하여 2채널로 수집된 초기 데이터의 경우 AV-CV-2 데이터와 AV-TR-2 데이터의 전사는 기본적으로 의사 위치의 채널을 통하여 수집된 음성을 사용하였고, 환자 위치의 채널 데이터를 참고하였다. 16채널로 수집된 AV-TR-16의 경우도 마찬가지로 기본적으로 의사 위치의 마이크 16번 채널을 통하여 수집된 음성을 사용하였고, 환자위치의 마이크 1번 채널을 통하여 수집된 음성을 참고하였다.
그리고 대화에 보호자가 등장한 63건에서 남성은 35명, 여성 보호자는 28명이 포함되어 있었다. 따라서 데이터에는 남성 116명, 여성 121명으로 총 237명의 화자가 포함되어 있다.
본 연구에서는 응급환자의 임상정보 추출을 목적으로 의료대화 166건을 2채널과 16채널 마이크로 수집하였다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다.
성능 실험을 위하여 비교 대상으로 대화체 자유 발화인 AIHub 문장 5,000개와 10, 000개를 각각 사용하여 실험하였다. 다음 표는 이에 대한 단어 오류율(word error rate, WER)로 나타낸 실험 결과이다.
다음 기본 인식 성능을 실험하였다. 실험에는 AC-CV-2 유형은 6, 378발화, AV-TR-2와 AV-TR-16 유형은 1, 973 발화를 사용하였고, 그 결과는 다음 표 5와 같다. 응급실 내 침대 위치에서의 단어 오류율은 71.
, 2020)와 방송 콘텐츠로 구성된 2,000시간 분량의 데이터가 있다. 이 두 데이터의 경우는 비교적 조용한 환경에서 수집된 데이터인데 반하여 본 연구는 의료 분야에서도 가장 분주하고 소음이 많은 환경에서 일어나는 환자와 의사 간의 대화 수집을 대상으로 한다. 본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제시한다.
25 ms 길이의 음성 프레임에서 추출한 40개의 MFCC (mel frequency cepstral coefficients) 음향 특징을 차례로 모노폰과 트라이폰 단위 GMM에서 학습하고 LDA(linear discriminant analysis)와 MLLT(maximum likelihood linear transform)를 통해 정렬 과정을 거쳐 각 유사음성단위(phone-like-unit)의 음향 특징 구간을 학습하였다. 이때 2, 400시간 분량의 원본 데이터와 이를 기반으로 음성 열화(speech perturbation) 기법을 이용하여 생성한 0.9배속과 1.1배속 데이터를 합친 총 7, 200시간 분량의 데이터를 GMM 학습에 사용하였다(Park et al., 2019).
AV-TR-2 데이터는 환자 분류소에서 환자와 의사의 대화를 수집한 데이터로 초기에는 AC-CV-2 데이터와 마찬가지로 환자 위치와 의사 위치에 각각 설치된 2개의 마이크로 수집되었고, 이 환경에서 수집된 데이터는 총 19건이다. 이후 동일한 장소에 16채널 마이크를 설치하여 수집한 AV-TR-16의경우는 수집된 데이터 가운데 현재까지 108건으로 전체 대화는 총 166건이다.
한국어 자유 발화 음성데이터로는 최근에 한국정보화진흥원의 주도로 구축된 AIHub 데이터(https://aihub.or.kr/) 가운데 조용한 환경에서 2,000여 명이 발성한 한국어 대화음성 969시간 분량의 데이터(Bang et al., 2020)와 방송 콘텐츠로 구성된 2,000시간 분량의 데이터가 있다. 이 두 데이터의 경우는 비교적 조용한 환경에서 수집된 데이터인데 반하여 본 연구는 의료 분야에서도 가장 분주하고 소음이 많은 환경에서 일어나는 환자와 의사 간의 대화 수집을 대상으로 한다.
이론/모형
GMM 학습에서 유사음성단위당 3개의 HMM state를 사용하는 대신에 유사음성단위당 1개의 HMM state만 사용하는 방식으로 변경하였고, 이를 토대로 만들어진 토폴로지 (topology)는 체인 기반 트리(tree)를 생성하는데 사용하였다. 언어모델은 Google의 Sentencepiece Model(Kudo & Richardson, 2018)을 통해 인공신경망이 분절한 40만 개의 서브워드 사전을 만든 후, 이를 사용하여 HMM 기반 언어모델을 학습하였다. 이때 Sentencepiece Model이 생성한 서브워드는 단어의 형태소 경계와 무관한, 단어 분절 빈도수를 계산하여 만든 단위이다.
음향모델은 단계별 GMM(Gaussian mixture model) 학습과 정렬(alignment) 과정을 통해 DNN 기반 음향 모델의 초기 값을 생성하였다. 25 ms 길이의 음성 프레임에서 추출한 40개의 MFCC (mel frequency cepstral coefficients) 음향 특징을 차례로 모노폰과 트라이폰 단위 GMM에서 학습하고 LDA(linear discriminant analysis)와 MLLT(maximum likelihood linear transform)를 통해 정렬 과정을 거쳐 각 유사음성단위(phone-like-unit)의 음향 특징 구간을 학습하였다.
현재 전체 수동으로 전사를 진행하고 있으므로 전사자가 음성을 직접 들으면서 휴지가 느껴지거나 Praat(Boersma & Weenink, 2018) 에서 보았을 때 육안으로 보이는 휴지 구간을 경계로 구분하였다. 전체 음성 데이터의 전사는 Praat의 Annotation 기능을 이용하여 수행하였다. 다음 그림 4는 Praat를 이용한 전사 예이다.
성능/효과
결론적으로, 본 연구는 실제 의료 상황에서 의사와 환자 간에 이루어진 대화를 수집한 데이터를 구축하는 구체적인 방법을 제안하고, 이러한 데이터를 기반으로 개발한 음성인식 시스템을 통하여 의료 대화를 전사하고 의료 정보를 추출하는 기초 연구라고 할 수 있다. 다른 한편으로는 이와 같은 의사와 환자 간에 실제로 일어나는 대화들을 이용하여 의사의 일부 역할을 기계가 대신하는 인공지능 의료 도우미 시스템을 개발하는데 있어서도 본 연구가 중요한 자료로 이용될 수 있을 것으로 기대한다.
표이다. 발화 수를 보면, 의사의 발화 수는 6, 977개, 환자의 발화 수는 4, 779개, 그리고 보호자의 발화 수는 853개로 총 발화 수는 12, 609개이다. 전체 166개의 대화 가운데 방언 전사 구간은 108 건으로 비교적 그 빈도가 높지 않았다.
본 연구를 위하여 개발한 대어휘 음성인식기는 전통적인 방식의 음성인식기로서 단어오류율 23% 정도의 성능을 보였는데, 이는 최근 AIHub 데이터 1,000시간 분량을 이용하여 종단간 (end-to-end) 방식으로 개발한 음성인식기(Bang et al., 2020)에 비하여 좀 더 높은 성능을 보였다. 그러나 응급의료 영역의 데이터를 사용한 경우에 크게 성능이 저하된 것을 볼 수 있었다.
발화 수를 보면, 의사의 발화 수는 6, 977개, 환자의 발화 수는 4, 779개, 그리고 보호자의 발화 수는 853개로 총 발화 수는 12, 609개이다. 전체 166개의 대화 가운데 방언 전사 구간은 108 건으로 비교적 그 빈도가 높지 않았다. 잡음 전사 구간은 총 4, 086건으로 대화 당 평균 24.
후속연구
본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제시한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다.
할 수 있다. 다른 한편으로는 이와 같은 의사와 환자 간에 실제로 일어나는 대화들을 이용하여 의사의 일부 역할을 기계가 대신하는 인공지능 의료 도우미 시스템을 개발하는데 있어서도 본 연구가 중요한 자료로 이용될 수 있을 것으로 기대한다.
본 연구에서는 대화음성에 대한전사 방법을 제안하고 있는데, 이는 응급의료 영역에서의 음성발화 정보를 텍스트로 기록하고 전사에 대한 체계적이고 표준화된 기준을 만들기 위함이다. 또한, 본 논문에서 제안한 방법에 따라 수집한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용될 수 있으며, 환자의 주요 임상정보의 종류와 분포를 구축된 텍스트 데이터를 통해 확인할 수 있다는 점에서 중요하다 할 수 있다.
또한, 응급의료 영역에서의 데이터 증강이나 기본 인식 단위 등 관련 이슈들에 대해서도 이후 연구가 필요한 실정이다. 특히, 다양한 잡음이 존재하는 환경에서 수집된 데이터를 이용하여 음성인식 성능을 향상시키기 위한 전처리 연구도 계속 진행될 계획이다. 뿐만 아니라, 환자와 의사간의 대화의 특성에 대한 언어학적 연구들도 진행될 예정이다.
음성인식 문제를 실제로 확인할 수 있었다. 현재 기본 베이스라인 실험으로 Kaldi를 이용하였으나 이후 기본 성능을 높이기 위하여 종단간(end-to-end) 모델을 이용한 실험들을 진행할 계획이다. 또한, 응급의료 영역에서의 데이터 증강이나 기본 인식 단위 등 관련 이슈들에 대해서도 이후 연구가 필요한 실정이다.
참고문헌 (25)
Bang, J. U., Yun, S., Kim, S. H., Choi, M. Y., Lee, M. K., Kim, Y. J., Kim, D. H., & Kim, S. H. (2020). KsponSpeech: Korean spontaneous speech corpus for automatic speech recognition. Applied Sciences, 10(19), 6936.
Boeddeker, C., Nakatani, T., Kinoshita, K., & Haeb-Umbach, R. (2020, May). Jointly optimal dereverberation and beamforming. Proceedings of the 2020?2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 216-220). Barcelona, Spain.
Boersma, P., & Weenink, D. (2018). Praat: Doing phonetics by computer (version 6.0.37) [Computer program]. Retrieved from http://www.praat.org/
Chapman, W. W., Aronsky, D., Fiszman, M., & Haug, P. J. (2000). Contribution of a speech recognition system to a computerized pneumonia guideline in the emergency department. Proceedings of the AMIA Symposium (p. 131).
Cho, B. J., Lee, J. M., & Park, H. M. (2019). A beamforming algorithm based on maximum likelihood of a complex Gaussian distribution with time-varying variances for robust speech recognition. IEEE Signal Processing Letters, 26(9), 1398-1402.
Cummins, N., Scherer, S., Krajewski, J., Schnieder, S., Epps, J., & Quatieri, T. F. (2015). A review of depression and suicide risk assessment using speech analysis. Speech Communication, 71, 10-49.
Grondin, F., & Glass, J. (2019, May). SVD-PHAT: A fast sound source localization method. Proceedings of the 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4140-4144). Brighton, UK.
Hernandez, A., Kim, S., & Chung, M. (2020). Prosody-based measures for automatic severity assessment of dysarthric speech. Applied Sciences, 10(19), 6999.
Higuchi, T., Ito, N., Yoshioka, T., & Nakatani, T. (2016, March). Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise. Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5210-5214). Shanghai, China.
Huang, Z., Epps, J., Joachim, D., Stasak, B., Williamson, J. R., & Quatieri, T. F. (2020). Domain adaptation for enhancing Speech-based depression detection in natural environmental conditions using dilated CNNs.Interspeech 2020 (pp. 4561-4565). Shanghai, China.
Kudo, T., & Richardson, J. (2018, August). Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 66-71).
Kubo, Y., Nakatani, T., Delcroix, M., Kinoshita, K., & Araki, S. (2019). Mask-based MVDR beamformer for noisy multisource environments: introduction of time-varying spatial covariance model. Proceedings of the 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), (pp. 6855-6859). Brighton, UK.
Laukka, P., Linnman, C., Ahs, F., Pissiota, A., Frans, O., Faria, V., Palmquist, A. M., & Furmark, T. (2008). In a nervous voice: Acoustic analysis and perception of anxiety in social phobics' speech. Journal of Nonverbal Behavior, 32(4), 195.
Lee, Y., Shon, S., & Kim, T. (2018). Learning pronunciation from a foreign language in speech synthesis network. arXiv. Retrieved from https://arxiv.org/abs/1811.09364
Mariani, C., Tronchi, A., Oncini, L., Pirani, O., & Murri, R. (2006). Analysis of the X-ray work flow in two diagnostic imaging departments with and without a RIS/PACS system. Journal of Digital Imaging, 19(1), 18-28.
Maryn, Y., Roy, N., De Bodt, M., Van Cauwenberge, P., & Corthals, P. (2009). Acoustic measurement of overall voice quality: A meta-analysis. The Journal of the Acoustical Society of America, 126(5), 2619-2634.
Park, D. S., Chan, W., Zhang, Y., Chiu, C. C., Zoph, B., Cubuk, E. D., & Le, Q. V. (2019). Specaugment: A simple data augmentation method for automatic speech recognition. Interspeech 2019 (pp. 2613-2617). Graz, Austria.
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., ... Vesely, K. (2011). The Kaldi speech recognition toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. Big Island, HI.
Seo, I., & Seong, C. (2013). Voice quality of dysarthric speakers in connected speech. Journal of the Korean Society of Speech Sciences, 5(4), 33-41.
Weiner, J., Engelbart, M., & Schultz, T. (2017). Manual and automatic transcriptions in dementia detection from speech. Interspeech 2017 (pp. 3117-3121). Stockholm, Sweden.
Xezonaki, D., Paraskevopoulos, G., Potamianos, A., & Narayanan, S. (2020). Affective conditioning on hierarchical attention networks applied to depression detection from transcribed clinical interviews. Interspeech 2020 (pp. 4556-4560). Shanghai, China.
Xu, H., Stenner, S. P., Doan, S., Johnson, K. B., Waitman, L. R., & Denny, J. C. (2010). MedEx: A medication information extraction system for clinical narratives. Journal of the American Medical Informatics Association, 17(1), 19-24.
Yoshioka, T., & Nakatani, T. (2012). Generalization of multi-channel linear prediction methods for blind MIMO impulse response shortening. IEEE Transactions on Audio, Speech, and Language Processing, 20(10), 2707-2720.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.