[논문]발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석

이경님; 정민화

제안 방법

특히 형태소 내부와 형태소 경계에서 발생하는 현상이 다를 뿐만 아니라 음소 문맥에 따라 발생 가능한 네트워크만을 확장하는 것이 효율적이므로 이 논문에서 소개된 자료를 활용하여 인식기의 성능을 향상시킬 수있다. ⑵의 연구에서는 이러한분석 자료를 이용하여 트리 구조의 인식 네트워크의 공유 효율을 높이고 이로 인해 네트워크의 크기를 줄일 수 있도록 인식 중에 음소 문맥을 이용해 인식 네트워크에 음운 변화 현상을 적용시키는 방법을 제안하였다.
부사 . 관형사 (default), 복합어로 분리하여 수행된 결과를 분석하였다. 표 8은 규칙 적용 범위에 따라 분류된 음소변동 규칙 오토마타를 참조하여 얻은 결과로 명사 프로세스의 경우 입력 형태소중34.
해당 음소 문맥에 의해 하나의 음소가 다른 음소로 바뀌거나 탈락, 첨가되는 양상을 규칙화한 것을 음소 변동 규칙이라 정의하고, 표준 발음 생성을 위한 필수음소 변동 규칙과 비표준 발음을 포함하여 화자의 습관 및 환경에 따라 발생 가능한 수의적 음소 변동 규칙을 단계 별로 적용하였다. 마지막으로 하나의 음소가 음성 환경 말의 속도와 스타일에 따라서 여 러 가지 음가를 가지는 변이음 생성 규칙을 적용하였다.
구축된 문장에 대한 형태소 분석 결과는 표 6과 같다. 문장 분석은 형태소 분석 결과에 품사 태그가 부착된 형태를 기준으로 하였다.
본 논문에서 사용된 발음열 자동 생성기 알고리즘은 한국어의 음운 변화 규칙을 다음과 같이 3단계로 나누어 진행된다. 해당 음소 문맥에 의해 하나의 음소가 다른 음소로 바뀌거나 탈락, 첨가되는 양상을 규칙화한 것을 음소 변동 규칙이라 정의하고, 표준 발음 생성을 위한 필수음소 변동 규칙과 비표준 발음을 포함하여 화자의 습관 및 환경에 따라 발생 가능한 수의적 음소 변동 규칙을 단계 별로 적용하였다.
본 논문에서는 기존의 발음열 자동 생성 시스템囲에서는 고려되지 않았던 표준화 규정의 일부 음운 변화 현상을 시스템에 추가 반영하고, 성능 평가 및 안정화 작업을 선행하였다. 이 생성 시스템을 활용하여 발음열 생성 과정에서 적용된 음소 변동규칙들의 통계적 자료를 기반으로 한국어 음운 변화 현상에 대한 분석을 수행하였다 [3】 을 포함하여 기존 연구들은 한글 철자에 대한 통계적 분석이 대부분이며, [기의 경우 발음사전에 기재된 약 66만개의 표제어에 대한 발음(음운)을 조사하여 음소와 음절들의 빈도수를 조사 분석한 통계 자료를 제시하였으나, 실제 문장에서 발생하는 형태소 및 어절 경계의 음운 변화 현상은 반영되지 않았으며 적용된 규칙에 대한 정보를알 수 없다는 한계점이 있었다.
이 때 문자열에 대한올바른 발음열을 생성하기 위해서는 해당 언어의 음운 현싱에 대한 체계적이고, 정확한 분석이 필요하다. 본 시스템에서는 음성학과 음운론 연구[5, 11]을 기반으로 한국어에서 발생하는 음운 변화현상을 정리하고, 문교부에서 제정한 표준어 규정[6]의제 2부 표준 발음법을 참고하여 한국어의 대표적인 음소변동 규칙 중 표 1과 같이 20개의 음소 변동 규召을 채택하여 적용하였다. 기존 생성기[4]에서는 적용 대상에서 제외된 모음 관련 규칙을 추가하였다.
비교적 적다. 수의적 음소 변동은 형태소 경계 정보에 따라 발화 현상이 달라지지는 않으나, 경계에 따라 빌음사전에 기재되는 음소열이 변화하므로 분류하여 분 巴하였다. 다만 모음화 규칙 18, 19, 20은 음절의 중성변화 규칙으로 형태소 경계에서는 발생하지 않는다.
갖는 문장들의 집합이다. 실험 분석은 본 논문에서 정의한 음소 변동 규칙에 따른 발생 빈도수와 음소의 경계 위치에 따른 적용 양상에 대하여 초점을 맞추었다. 적용된 음소 변동 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 현상의 양상을 파악할 수 있었으며, 나아가 이 러한 분석을 이용하여 음성 인식기 의 성능을 향상시 키기 위한 분석자료로 활용할 수 있을 것이다
정의된 음소 변동 규칙들이 실제 적용되는 현상을 분석하기 위하여 트라이폰 기반의 PBS 60, 000 문장에 발음열 자동 생성 기를 적용하여 나온 결과를 통계적으로 분석하였다. 실험은 음소변동을 모델링한 분류에 따른 빈도수와음소의 경계 위치에 따른 적용양상에 대하여 초점을 맞추었다. 적용된 음소 변동 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 현상 양상을 파악할 수 있었으며, 나아가 이러한 분석을 이용하여 음성 인식기의 성능을 향상시키기 위한 자료로 활용할 수 있을 것이다.
생성하였다. 정의된 음소 변동 규칙들이 실제 적용되는 현상을 분석하기 위하여 트라이폰 기반의 PBS 60, 000 문장에 발음열 자동 생성 기를 적용하여 나온 결과를 통계적으로 분석하였다. 실험은 음소변동을 모델링한 분류에 따른 빈도수와음소의 경계 위치에 따른 적용양상에 대하여 초점을 맞추었다.
정확한 발음열을 생성하기 위해 한국어가 가지는 언어학적 지식과 문교부 제정 표준어 규정을 기반으로 음운변화 규칙을 분석하고, 이를 통해 정의된 음소 변동 규칙과 변이음 규칙을 다단계로 적용하여 가능한 모든 발음열을 생성하였다. 정의된 음소 변동 규칙들이 실제 적용되는 현상을 분석하기 위하여 트라이폰 기반의 PBS 60, 000 문장에 발음열 자동 생성 기를 적용하여 나온 결과를 통계적으로 분석하였다.
해당 음소 문맥에 의해 하나의 음소가 다른 음소로 바뀌거나 탈락, 첨가되는 양상을 규칙화한 것을 음소 변동 규칙이라 정의하고, 표준 발음 생성을 위한 필수음소 변동 규칙과 비표준 발음을 포함하여 화자의 습관 및 환경에 따라 발생 가능한 수의적 음소 변동 규칙을 단계 별로 적용하였다. 마지막으로 하나의 음소가 음성 환경 말의 속도와 스타일에 따라서 여 러 가지 음가를 가지는 변이음 생성 규칙을 적용하였다.
횡태소, 어절, 언절 또는문장등의 다양한형태의 입력에 대해 발음열을 생성하도록 구성하였다. 표 3은 "신발을 신고”라는 입력 언절에 대해 다양한 출력한 결과로서 이를 이용하여 학습용 발음열과 발음사전을 구성한다.

대상 데이터

명시된 예제를 사용하였다. '붙임'과 '다만' 항목을 포함하여 총 364개의 언절을사용하였으며, 이 중 수의적으로 적용되는 예제가 16개였다.
본 논문에서는 발생 가능한 모든 음운 현상을 포함하며, 가능한 다양한 트라이폰 모델을 포함하도록 설계된 삼성 PBS (Phone Balanced Sentence) 음성 데이터 베이스의 문장을 실험에 사용하였다. 구축된 문장에 대한 형태소 분석 결과는 표 6과 같다.
본 실험에 사용된 분석 대상은 트라이폰 기준으로 균형된 음소 집합을 갖도록 구축된 PBS 60, 000문장으로 다양한 음운환경을 포함하며 음소열의 중복이 적고 고른 확률분포를 갖는 문장들의 집합이다. 실험 분석은 본 논문에서 정의한 음소 변동 규칙에 따른 발생 빈도수와 음소의 경계 위치에 따른 적용 양상에 대하여 초점을 맞추었다.

이론/모형

한국어에서 빈번히 발생하는 음운 변화 현상을 테스트하기 위한 대상으로 표준어 규정 ⑹ 의 제 2부 표준 발음법에 명시된 예제를 사용하였다. '붙임'과 '다만' 항목을 포함하여 총 364개의 언절을사용하였으며, 이 중 수의적으로 적용되는 예제가 16개였다.

성능/효과

6배 이상의 텍스트 크기를 갖는 7 M 형 태소를 기준으로 실험에 사용된 삼성 PBS 60, 000 문장은 약 79%의 트라이폰을 포함하고 있으며, 가능한 트라이폰을 균형적으로 포함하도록 설계되었기 때문에 일반 텍스트에서 발생하는 현상보다 신뢰성있는 결과를 보여준다.
형태소 경계와 내부에서 모두 포함하여 1000번 이상 발생한 규칙은상위 36번째 규칙까지이며, 100번 이상은 상위 82번째까지이다. 이 중 평균 상위 100개의 규칙으로 약 99.67%의 적중률을 보였다.
인식 단위의 경계 부분에서 일어날 수 있는 모든가능한 음소 문맥을 인식 전에 미리 인식 네트워크에 적용하는 방법으로 앞 표제어의 종성과 뒤의 초성의 쌍으로 나타낼 수 있는 모든 쌍에서 음운 변화 현상이 일어나는 것이 아니라 일정한 규칙에 따라특정한 쌍에서만 일어나게 된다. 특히 형태소 내부와 형태소 경계에서 발생하는 현상이 다를 뿐만 아니라 음소 문맥에 따라 발생 가능한 네트워크만을 확장하는 것이 효율적이므로 이 논문에서 소개된 자료를 활용하여 인식기의 성능을 향상시킬 수있다. ⑵의 연구에서는 이러한분석 자료를 이용하여 트리 구조의 인식 네트워크의 공유 효율을 높이고 이로 인해 네트워크의 크기를 줄일 수 있도록 인식 중에 음소 문맥을 이용해 인식 네트워크에 음운 변화 현상을 적용시키는 방법을 제안하였다.

후속연구

실험 결과의 합당성을 뒷받침하기 위해서는 본 실험에 사용한 데이터 베이스의 검증 및 분석이 필요하다. 본 논문에서는 발생 가능한 모든 음운 현상을 포함하며, 가능한 다양한 트라이폰 모델을 포함하도록 설계된 삼성 PBS (Phone Balanced Sentence) 음성 데이터 베이스의 문장을 실험에 사용하였다.
표제어 내부에서 일어나는 음운 변화 현상은 발음사전에 등록하여 해결할 수 있으나, 경계 부분에서 발생하는 변화 현상을 반영하기 위해 발음사전에 가능한 모든 발음을 등록하는 경우에는 표제어 수가 증가함에 따라 인식 속도와 인식률에 나쁜 영향을 미치게 된다. 이를 해결하기 위한 방안으로 이 논문에서 소개된 분석 결과를 활용하여 빈번히 발생하는 음운 변화 현상만을 발음사전에 추가하여 활용할 수 있을 것이다.
일반적으로는 가능한 모든 음운 변화 현상을 분석하여 모델링하는 것이 정확한 음운변이를 반영할 수 있으나, 혼잡도 증가와 변별력 감소 문제 및 인식 네트워크 확장시 가능한 음소 문맥을 적용하는 경우 적용 규칙수가 필요 이상으로 많아지기 때문에 본 논문에서 통계적으로 분석된 음운 변화 현상을 사용함으로써 시스템 개발에 유용하게 사용할 수 있을 것이다.
실험은 음소변동을 모델링한 분류에 따른 빈도수와음소의 경계 위치에 따른 적용양상에 대하여 초점을 맞추었다. 적용된 음소 변동 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 현상 양상을 파악할 수 있었으며, 나아가 이러한 분석을 이용하여 음성 인식기의 성능을 향상시키기 위한 자료로 활용할 수 있을 것이다.
실험 분석은 본 논문에서 정의한 음소 변동 규칙에 따른 발생 빈도수와 음소의 경계 위치에 따른 적용 양상에 대하여 초점을 맞추었다. 적용된 음소 변동 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 현상의 양상을 파악할 수 있었으며, 나아가 이 러한 분석을 이용하여 음성 인식기 의 성능을 향상시 키기 위한 분석자료로 활용할 수 있을 것이다

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석
Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석 Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

이경님 (3) 정민화 (10)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석
Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper