[논문]형태소 발음변이를 고려한 음성인식 단위의 성능

방정욱; 김상훈; 권오욱

doi:10.13064/ksss.2018.10.4.111

문제 정의

본 논문에서는 다양한 발음변이를 고려하면서 탐색 혼잡도를 감소시키기 위해서 그림 1과 같이 새로운 단위를 제안한다.
, 1994)이 존재한다. 본 논문에서는 발음사전에 다중발음을 추가하는 명시적 접근 방법에 중점을 두고자 한다.
본 논문에서는 발음사전에서 형태소 발음변이를 고려하기 위해서, 어절 단위 말뭉치를 토대로 의사형태소 단위의 새로운 발음열을 추출하고, 기존의 인식단위를 발음에 따라 세분화함으로써 발음이 고려된 새로운 단위를 제안한다. 제안된 방법은 발음 사전을 확장하여 형태소의 다양한 발음변이를 고려하면서, 인식단위를 세분화하여 다중발음이 많이 추가되었을 때 발생하는 음성인식 성능 하락 문제를 감소시키는 효과를 가진다.
본 논문에서는 형태소의 다양한 발음변이 현상을 음성인식에 반영시키기 위하여, 형태소 내부와 경계에서 다양하게 변이된 발음들을 데이터로부터 추출하고, 이를 의사형태소에 부착시켜 발음이 고려된 새로운 음성인식 단위를 제안하였다. 다양한 장르의 방송 데이터를 이용하여 음성인식 실험을 수행한 결과에서 제안된 방법은 4.

제안 방법

각 단위의 경계를 표현하기 위해서 발음열 추출 단계에서 단위 경계 기호 “WB”를 삽입하였다.
다음으로 두 번째 실험(‘PronPM’)에서는 기존의 형태소 단위의 언어모델을 사용하되 발음사전에서 형태소 경계에서 발생하는 변이된 발음을 반영하여 확장된 다중발음의 효과를 확인하였다.
두 번째 실험에서는 언어모델의 기본 단위로 ‘Baseline’ 실험과 동일한 형태소 단위를 사용하되, 발음사전에 형태소 내부와 경계에서 변이되는 발음을 모두 사용하였다.
마지막으로, 제안된 단위로 언어모델을 구축하고, 발음사전에 적용한 실험 (‘PronLMPM’)을 수행하여 음성인식 성능을 확인하였다.
먼저 각 단어의 대표 발음으로 구성된 단일발음 사전과 형태소 내부에서 발생하는 음운변화 규칙을 반영한 다중발음 사전을 사용하여 음성인식 성능을 확인하였다. 실험은 약 1억 형태소 단위 말뭉치로 언어모델을 구축한 열린 평가(open test) 실험과, 평가용 데이터의 정답 텍스트로 언어모델을 학습시킨 닫힌 평가(closed test) 실험으로 나누어 수행하였다.
반면에 제안된 방법으로 정렬할 경우에는 발음기호 ‘S’와 단어경계 기호 ‘WB’를 삭제/삽입된 단어로 인지하여 “WB G a b S WB U r WB”을 정렬 결과로 출력한다.
발음열 정렬 결과로부터 형태소 단위 말뭉치에서의 단어경계 위치를 찾을 수 있다. 발음열 정렬 과정에서 형태소 단위의 단어경계기호를 유지시켰다. 정렬 결과로 얻어진 단어 경계 기호 사이의 각 발음열은 형태소 단위 말뭉치의 형태소로 일대일로 연결 가능하다.
세 번째 실험에서는 제안된 단위를 음성인식 단위로 사용하고 이들로 학습된 언어모델과 수정된 발음사전을 사용하였다. 수정된 발음사전은 ‘PronPM’ 실험과는 다르게 그림 5의 (b)와같이 각 단어에 태깅된 발음만을 사용하였다.
먼저 각 단어의 대표 발음으로 구성된 단일발음 사전과 형태소 내부에서 발생하는 음운변화 규칙을 반영한 다중발음 사전을 사용하여 음성인식 성능을 확인하였다. 실험은 약 1억 형태소 단위 말뭉치로 언어모델을 구축한 열린 평가(open test) 실험과, 평가용 데이터의 정답 텍스트로 언어모델을 학습시킨 닫힌 평가(closed test) 실험으로 나누어 수행하였다.
, 2011)을 사용하여 수행되었다. 음성인식기에 사용된 특징 벡터로는 발화 단위로 평균과 분산을 정규화한 40차 로그 멜 필터뱅크를 사용하였으며, 문맥을 고려하기 위해서 좌우 7개 프레임을 연결하여 총 15개 프레임을 음향모델 입력으로 사용하였다.
이러한 이유로 우리는 ‘PronLMPM’ 실험의 발음사전에 ‘Baseline’ 실험의 다중발음을 추가하여 음성인식 성능을 확인하였다.
제안된 방법은 어절 단위와 형태소 단위의 두 말뭉치로부터 발음열을 추출하고, 어절 단위 발음열을 기준으로 두 발음열을 정렬한다. 이후, 형태소 발음변이가 고려된 새로운 발음을 어절 단위 발음으로부터 추출하고 이들을 형태소 단위 뒤에 붙임으로써 발음이 고려된 새로운 단위의 말뭉치를 구축한다. 제안된 단위는 발음사전과 언어모델을 구축하는데 사용된다.
077을 가지며, 탐색 빔 크기는 10으로 설정 하였다. 인식 성능은 형태소 단위의 단어 오류율(word error rate, WER)을 계산하여 확인하였다.
DNN은 15×40 차원의 입력층과 tanh 활성함수를 사용하는 1,024차원의 은닉층 6개, softmax 활성함수를 사용한 8,033 차원의 출력층을 사용하였다. 전체 데이터는 학습에 15번사용되며, 초기 10번까지는 0.001부터 0.01까지 학습률을 감소시키며 학습하였으며, 마지막 5번은 0.01의 고정된 학습률로 DNN 모델을 학습하였다(Povey, 2018). 언어모델은 SRILM 도구( Stolcke, 2002)를 사용하여 형태소 단위 말뭉치와 제안된 단위 말뭉치에 Kneser-Ney discounting 방법을 적용한 3-gram 모델을 사용하였다(Kneser & Ney, 1995).
제안된 방법은 어절 단위와 형태소 단위의 두 말뭉치로부터 발음열을 추출하고, 어절 단위 발음열을 기준으로 두 발음열을 정렬한다. 이후, 형태소 발음변이가 고려된 새로운 발음을 어절 단위 발음으로부터 추출하고 이들을 형태소 단위 뒤에 붙임으로써 발음이 고려된 새로운 단위의 말뭉치를 구축한다.
첫 번째 실험에서 우리는 발음이 고려된 언어모델의 성능을 확인하기 위해서 제안된 단위로 생성된 언어모델과 기존의 발음사전을 사용하여 음성인식 성능을 비교하였다. 표 3에서 ‘Baseline’ 실험과 ‘PronLM’ 실험의 발음사전 단어 개수 차이는 제안된 단위로 세분화됨에 따라 인식 어휘 개수가 증가하여 발생한 차이이며, ‘Baseline’ 실험에 사용되었던 다중발음 이외에 새로운 발음이 추가된 것이 아니다.

대상 데이터

DNN은 15×40 차원의 입력층과 tanh 활성함수를 사용하는 1,024차원의 은닉층 6개, softmax 활성함수를 사용한 8,033 차원의 출력층을 사용하였다.
음향모델은 깊은 신경망(deep neural network, DNN)과 은닉 마르코프 모델(hidden Markov model, HMM)을 사용한 DNN-HMM 하이브리드 방식을 사용하였다. HMM은 비묵음 기호와 묵음 기호에 대해 각 3개와 5개의 상태 열을 가지는 left-to-right HMM을 사용하였다. DNN은 15×40 차원의 입력층과 tanh 활성함수를 사용하는 1,024차원의 은닉층 6개, softmax 활성함수를 사용한 8,033 차원의 출력층을 사용하였다.
음성인식 실험에 사용된 평가 데이터는 2016년 4월에 방송된 뉴스, 어린이, 시사, 드라마, 예능의 5가지 장르를 가지는 방송 데이터를 사용하였다. 평가 데이터는 학습 데이터와 다른 날에 방송된 프로그램으로 구축하였지만, 방송 프로그램의 특성상 학습 데이터와 동일한 화자를 가질 수 있다.
음향모델 학습에 사용된 음성 데이터베이스는 2016년 2월에서 3월까지 방송된 방송 오디오에서 자막 텍스트와 자막 타임스탬프(time stamp)를 이용하여 추출한 445시간의 음성 데이터를 사용하였다(Bang & Choi, 2017).
제안된 단위 생성과 언어모델을 구축하는데 사용된 한국어 말뭉치는 2016년 2에서 2017년 3월까지 방송된 방송 자막을 사용하였다. 인식단위 생성에 사용된 자막 말뭉치는 약 86M개의 어절을 가지며, 이들을 형태소 분석기에 입력하여 얻어진 말뭉치에서는 약 117M개의 형태소를 가졌다.
마지막으로, 예능 데이터는 평균 발화 길이가 짧으면서 효과음이나 배경음악 등의 다양한 잡음들이 혼합되었으며 자유로운 스타일의 발화 특성을 가졌다. 평가에 사용된 음성 데이터는 1,559개의 발화로 구성된 전체 2시간 23분의 길이를 가지며, 학습 음성 데이터와 독립적으로 구축하여 사용하였다.

이론/모형

모든 음성인식 실험은 Kaldi toolkit (Povey et al., 2011)을 사용하여 수행되었다. 음성인식기에 사용된 특징 벡터로는 발화 단위로 평균과 분산을 정규화한 40차 로그 멜 필터뱅크를 사용하였으며, 문맥을 고려하기 위해서 좌우 7개 프레임을 연결하여 총 15개 프레임을 음향모델 입력으로 사용하였다.
언어모델은 SRILM 도구( Stolcke, 2002)를 사용하여 형태소 단위 말뭉치와 제안된 단위 말뭉치에 Kneser-Ney discounting 방법을 적용한 3-gram 모델을 사용하였다(Kneser & Ney, 1995). 발음사전 및 형태소 분석기는 한국전자통신연구원에서 제작된 도구를 사용하였다. 디코더는 음향모델 가중치를 0.
언어모델은 SRILM 도구( Stolcke, 2002)를 사용하여 형태소 단위 말뭉치와 제안된 단위 말뭉치에 Kneser-Ney discounting 방법을 적용한 3-gram 모델을 사용하였다(Kneser & Ney, 1995).
음향모델은 깊은 신경망(deep neural network, DNN)과 은닉 마르코프 모델(hidden Markov model, HMM)을 사용한 DNN-HMM 하이브리드 방식을 사용하였다. HMM은 비묵음 기호와 묵음 기호에 대해 각 3개와 5개의 상태 열을 가지는 left-to-right HMM을 사용하였다.
발음열 정렬 단계에서는 어절 단위에서 생성된 발음열과 형태소 단위에서 생성된 발음열을 어절 단위를 기준으로 정렬한다. 정렬 알고리듬은 일반적으로 많이 사용되는 문자열 정렬 알고리듬인 Levenshtein alignment (Povey, 2016)을 개선하여 사용하였다.

성능/효과

‘PronLMPM’ 실험 결과를 분석해보니 조사 “+의”를 “+에” 로 잘못 인식하는 경우가 빈번하게 나타났다.
기존의 발음사전에서 형태소 단위의 단어 “약값”은 발음 [약깝]을 의미하는 발음열 “ja g G a b”만을 단일발음으로 가지는 반면에, 제안된 방법에서는 [약까], [약깝], [약깜], [약깞]을 나타내는 “ja g G a”, “ja g G a b”, “ja g G a m”, “ja g G a b S”의 다양한 다중발음들을 얻을 수 있었다.
본 논문에서는 형태소의 다양한 발음변이 현상을 음성인식에 반영시키기 위하여, 형태소 내부와 경계에서 다양하게 변이된 발음들을 데이터로부터 추출하고, 이를 의사형태소에 부착시켜 발음이 고려된 새로운 음성인식 단위를 제안하였다. 다양한 장르의 방송 데이터를 이용하여 음성인식 실험을 수행한 결과에서 제안된 방법은 4.5%의 상대적 단어 오류율이 감소되는 효과를 보이며, 뉴스와 어린이 데이터에서 각 13.8%와 12.2%의 높은 상대적 단어 오류율 감소 효과를 보였다.
음성인식 결과에서는 잡음이 없으면서 낭독체 스타일로 발성된 뉴스 데이터에서 가장 낮은 단어 오류율을 보였고, 다양한 잡음 환경을 가지며 대화체 스타일로 발화된 예능 데이터에서 가장 높은 단어 오류율을 보였다. 다중발음을 사용한 실험에서는 단일발음을 사용한 실험과 미미한 성능 차이를 보였다. 다중 발음이 고려됨으로써 나타나는 성능개선 효과는 전사 텍스트로 구축된 언어모델을 사용하는 닫힌 평가에서 두드러지게 나타났다.
더욱이 우리가 ‘PronPM’ 실험의 결과에서 예상한 대로, 뉴스 데이터와 어린이 데이터에서 각 13.8%, 12.2%의 높은 상대적 단어 오류율 감소 효과를 보였다.
시사 데이터는 리포터가 사극 드라마를 소개하는 내용의 방송으로, 배우 이름이나 지명 등의 고유 명사가 빈번하게 나타나고, 주인공과의 인터뷰 과정에서 웃음소리 등의 잡음이 나타나는 특징을 보였다. 드라마 데이터는 드라마 중간에 배우들의 감정표현이 강조된 발화들이 나타나며, 약간의 배경음악이 혼합되는 특징을 보였다. 마지막으로, 예능 데이터는 평균 발화 길이가 짧으면서 효과음이나 배경음악 등의 다양한 잡음들이 혼합되었으며 자유로운 스타일의 발화 특성을 가졌다.
제안된 단위 “약값/ja-g-G-a”는 변이된 발음열 “ja g G a”를 가지며, “약값/ja-g-G-a-b”은 변이된 발음열 “ja g G a b”를 가지는 것을 예상할 수 있다. 따라서 제안된 단위로 구축된 발음사전은 다중발음에 의한 탐색 혼잡도를 줄일 수 있으며, 말뭉치로부터 얻어진 다양한 다중발음을 발음 사전에 모두 반영시킬 수 있다.
드라마 데이터는 드라마 중간에 배우들의 감정표현이 강조된 발화들이 나타나며, 약간의 배경음악이 혼합되는 특징을 보였다. 마지막으로, 예능 데이터는 평균 발화 길이가 짧으면서 효과음이나 배경음악 등의 다양한 잡음들이 혼합되었으며 자유로운 스타일의 발화 특성을 가졌다. 평가에 사용된 음성 데이터는 1,559개의 발화로 구성된 전체 2시간 23분의 길이를 가지며, 학습 음성 데이터와 독립적으로 구축하여 사용하였다.
본 논문에서 제안된 방법은 탐색 네트워크의 혼잡도를 크게 증가시키지 않으면서, 다양하게 변이되는 의사형태소의 발음들을 발음사전과 언어모델에 반영하여 전체적인 한국어 음성인식 성능을 향상시키는 효과를 가진다.
하지만, “트리케라톱스” 등의 공룡 이름이나 “고생물학자”와 같이 언어모델에 낮은 빈도로 나타나는 어휘들이 많이 존재한다. 시사 데이터는 리포터가 사극 드라마를 소개하는 내용의 방송으로, 배우 이름이나 지명 등의 고유 명사가 빈번하게 나타나고, 주인공과의 인터뷰 과정에서 웃음소리 등의 잡음이 나타나는 특징을 보였다. 드라마 데이터는 드라마 중간에 배우들의 감정표현이 강조된 발화들이 나타나며, 약간의 배경음악이 혼합되는 특징을 보였다.
반면에 제안된 방법으로 정렬할 경우에는 발음기호 ‘S’와 단어경계 기호 ‘WB’를 삭제/삽입된 단어로 인지하여 “WB G a b S WB U r WB”을 정렬 결과로 출력한다. 얻어진 정렬 결과는 형태소 단위의 단어경계 위치정보를 가지면서 형태소 단위 발음보다 더 정확한 어절 단위의 발음 정보를 가진다. 제안된 정렬 방법은 서로 다른 길이를 가지는 어절 “맛을”과 형태소 “맛 + 을” 의 정렬 예시에서도 단어경계기호가 유지되면서 발음변이가 고려된 발음 기호를 가진다.
표 2는 단일 발음 및 다중 발음을 이용한 음성인식 성능 비교 표이다. 열린 평가 실험에서 단일발음 인식실험은 60만 인식 어휘를 가지는 언어모델과 그들의 대표 발음으로 구성된 발음사전이 사용되며, 다중발음 인식실험은 형태소 내부에서 발생하는 발음변이가 반영되어 단일발음 사전보다 약 1.4배 확장된 82 만개의 어휘 개수를 가졌다.
음성인식 결과에서는 잡음이 없으면서 낭독체 스타일로 발성된 뉴스 데이터에서 가장 낮은 단어 오류율을 보였고, 다양한 잡음 환경을 가지며 대화체 스타일로 발화된 예능 데이터에서 가장 높은 단어 오류율을 보였다. 다중발음을 사용한 실험에서는 단일발음을 사용한 실험과 미미한 성능 차이를 보였다.
제안된 단위 생성과 언어모델을 구축하는데 사용된 한국어 말뭉치는 2016년 2에서 2017년 3월까지 방송된 방송 자막을 사용하였다. 인식단위 생성에 사용된 자막 말뭉치는 약 86M개의 어절을 가지며, 이들을 형태소 분석기에 입력하여 얻어진 말뭉치에서는 약 117M개의 형태소를 가졌다. 발음열 추출 실험에 불필요한 문장 기호와 특수 문자는 제거하고 사용하였다.
제안된 단위 “약값/ja-g-G-a”는 변이된 발음열 “ja g G a”를 가지며, “약값/ja-g-G-a-b”은 변이된 발음열 “ja g G a b”를 가지는 것을 예상할 수 있다.
0으로 미미한 차이를 보였다. 제안된 단위가 언어모델에 미치는 영향이 미미하다보니 각 장르별 음성인식 결과에서도 두드러진 개선 효과는 나타나지 않았다.
제안된 단위를 언어모델에 적용하는 경우에는 발음에 따라 단어들이 세분화되어 탐색 과정에서 혼잡도가 감소되는 효과를 기대할 수 있다. 기존의 형태소 단위로 언어모델을 구축하는 경우에는 단어 “약값”의 빈도가 다음에 나타나는 단어 “+하고”, “+도”, “+만”, “+을”의 발생 확률을 모델링하기 위해 동일하게 사용된다.
제안된 방법은 모든 데이터에서 베이스라인 실험보다 높은 음성인식 성능을 보였으며, ‘Baseline’ 실험에 비해서 4.5% (=(22.1–21.6)/22.1×100)의 상대적 단어 오류율 감소 효과를 보였다.
본 논문에서는 발음사전에서 형태소 발음변이를 고려하기 위해서, 어절 단위 말뭉치를 토대로 의사형태소 단위의 새로운 발음열을 추출하고, 기존의 인식단위를 발음에 따라 세분화함으로써 발음이 고려된 새로운 단위를 제안한다. 제안된 방법은 발음 사전을 확장하여 형태소의 다양한 발음변이를 고려하면서, 인식단위를 세분화하여 다중발음이 많이 추가되었을 때 발생하는 음성인식 성능 하락 문제를 감소시키는 효과를 가진다.
제안된 정렬 방법은 서로 다른 길이를 가지는 어절 “맛을”과 형태소 “맛 + 을” 의 정렬 예시에서도 단어경계기호가 유지되면서 발음변이가 고려된 발음 기호를 가진다.
첫 번째 실험(‘PronLM’)으로 기존의 다중 발음사전을 사용하되 제안된 단위로 언어모델을 구축함으로써 제안된 단위가 언어모델에 미치는 효과를 확인하였다.
다중발음의 확장이 음성인식 성능에 기여하는 정도는 평가 데이터 내에서 다중발음 확장으로 인하여 긍정적인 영향을 받는 단어와 부정적인 영향을 받는 단어의 개수에 영향을 받는다. 표 4의 열린 평가 실험 결과로 미루어 볼 때 어린이 장르에서는 발음변이가 고려되지 않았던 단어들이 추가된 다중발음에 의해서 음성인식 성능이 개선된 것으로 나타나며, 예능 장르 평가 데이터의 경우에는 원했던 긍정적인 영향보다 부정적인 영향이 크게 작용하여 음성인식 성능이 하락하였다.
제안된 단위로 언어모델을 구축한다면 단어의 발음 정보가 반영되어 음성인식 성능 향상에 기여할 것이라고 기대하였다. 하지만, 제안된 단위로 구축된 언어모델에서는 형태소 단위로 구축된 언어모델에 비해서 약 2만 개의 어휘만이 확장되었으며, 평가 데이터의 복잡도(perplexity)를 비교한 별도의 실험에서도 각 203.5와 204.0으로 미미한 차이를 보였다. 제안된 단위가 언어모델에 미치는 영향이 미미하다보니 각 장르별 음성인식 결과에서도 두드러진 개선 효과는 나타나지 않았다.

후속연구

반면에 “약값/ja-g-G-a”, “약값/ja-g-G-a-b”, “약값 /ja-g-G-a-m”, “약값/ja-g-G-a-b-S” 등의 제안된 단위를 사용하여 언어모델을 구축한다면 발음열에 따라 세분화된 단어로부터 다음 단어가 나타날 확률을 모델링하게 되어 인식 성능 향상에 기여할 것으로 예상된다.
하지만 짧은 문장의 자유 발화로 구성된 시사, 드라마, 예능 데이터의 경우에는 미미한 성능 변화를 보였다. 이 결과로부터 우리는 다중발음 확장에 따른 부정적 영향을 줄일 수 있다면 뉴스 및 어린이 데이터에서 성능이 크게 향상될 것을 예상할 수 있다.
제안된 단위로 언어모델을 구축한다면 단어의 발음 정보가 반영되어 음성인식 성능 향상에 기여할 것이라고 기대하였다. 하지만, 제안된 단위로 구축된 언어모델에서는 형태소 단위로 구축된 언어모델에 비해서 약 2만 개의 어휘만이 확장되었으며, 평가 데이터의 복잡도(perplexity)를 비교한 별도의 실험에서도 각 203.
제안된 단위를 발음사전에 적용하는 경우에는 형태소 경계에서 다양하게 변이된 발음들이 반영되는 효과를 기대할 수 있다. 기존의 발음사전에서 형태소 단위의 단어 “약값”은 발음 [약깝]을 의미하는 발음열 “ja g G a b”만을 단일발음으로 가지는 반면에, 제안된 방법에서는 [약까], [약깝], [약깜], [약깞]을 나타내는 “ja g G a”, “ja g G a b”, “ja g G a m”, “ja g G a b S”의 다양한 다중발음들을 얻을 수 있었다.

핵심어	질문	논문에서 추출한 답변
	의사형태소 단위의 특징은?	, 1999)를 사용한다. 의사형태소 단위는 어절 단위보다 적은 수의 인식 어휘로 다양한 단어를 표현할 수 있으며, 음절 단위보다 평균 지속시간이 길어서 넓은 문맥을 고려할 수 있다. 또한, 형태소 단위와는 다르게 발음이 유지되면서 길이가 짧은 단음소가 제거되고 높은 빈도의 형태소들이 병합되어 한국어 음성인식 단위(Kwon & Park, 2003)로 많이 사용된다.
	형태소 단위에서 추출된 발음은 어절 단위에서 얻어진 발음과 종종 다른 발음을 가질 수 있는 이유는?	의사형태소를 음성인식 단위로 사용하기 위해서는 형태소 내부와 형태소 경계에서 발생하는 발음변이 현상을 고려해야 한다. 의사형태소의 발음은 특히 인접한 형태소에 따라 단단한 형태학적 규칙에 지배를 받는다. 이러한 이유로 형태소 단위에서 추출된 발음은 어절 단위에서 얻어진 발음과 종종 다른 발음(Kwon et al.
	한국어 대어휘 연속 음성인식(large vocabulary continuous speech recognition, LVCSR)을 위한 음성인식 단위로는 무엇을 주로 사용하는가?	한국어 대어휘 연속 음성인식(large vocabulary continuous speech recognition, LVCSR)을 위한 음성인식 단위로는 주로 의사형태소 단위(pseudo-morpheme, 방정욱· 권오욱, 2014; Kwon et al., 1999)를 사용한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

형태소 발음변이를 고려한 음성인식 단위의 성능
Performance of speech recognition unit considering morphological pronunciation variation 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

형태소 발음변이를 고려한 음성인식 단위의 성능 Performance of speech recognition unit considering morphological pronunciation variation 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

김상훈 (13) 권오욱 (41)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

형태소 발음변이를 고려한 음성인식 단위의 성능
Performance of speech recognition unit considering morphological pronunciation variation 원문보기

AI 본문요약
AI-Helper