효율적인 기계학습 자질 선별을 통한 한국어 운율구 경계 예측 모델의 성능 향상 Performance Improvement of a Korean Prosodic Phrase Boundary Prediction Model using Efficient Feature Selection원문보기
운율구 경계 예측은 대화체 음성합성을 실현하기 위한 주요한 자연언어처리 기술 중 하나이다. 본 논문은 자연스러운 한국어 운율구 경계 예측을 실현하고자 기존의 학습 자질을 대신할 새로운 학습 자질을 제안한다. 이 새로운 자질들은 기존의 학습 자질보다 실제 언어생활에서 운율구 경계 발생에 영향을 미치는 여러 요인을 더 잘 반영한다. 특히, 수작업으로 구축한 운율구 경계 예측 규칙을 이용하여 추출한 학습 자질은 높은 정확도 향상에 이바지한다. 본 논문에서 제안한 새로운 학습 자질을 바탕으로 CRFs(Conditional Random Fields)를 이용하여 운율구 경계 예측 모델을 만들었다. 그 결과 3단계 운율구 경계(강한 경계, 약한 경계, 운율구 내부 비경계) 예측에서 86.63%의 정확도를, 6단계 운율구 경계(상승조/하강조 강한 경계, 상승조/하강조/평탄조 약한 경계, 운율구 내부 비경계) 예측에서는 81.14%의 정확도를 보였다.
운율구 경계 예측은 대화체 음성합성을 실현하기 위한 주요한 자연언어처리 기술 중 하나이다. 본 논문은 자연스러운 한국어 운율구 경계 예측을 실현하고자 기존의 학습 자질을 대신할 새로운 학습 자질을 제안한다. 이 새로운 자질들은 기존의 학습 자질보다 실제 언어생활에서 운율구 경계 발생에 영향을 미치는 여러 요인을 더 잘 반영한다. 특히, 수작업으로 구축한 운율구 경계 예측 규칙을 이용하여 추출한 학습 자질은 높은 정확도 향상에 이바지한다. 본 논문에서 제안한 새로운 학습 자질을 바탕으로 CRFs(Conditional Random Fields)를 이용하여 운율구 경계 예측 모델을 만들었다. 그 결과 3단계 운율구 경계(강한 경계, 약한 경계, 운율구 내부 비경계) 예측에서 86.63%의 정확도를, 6단계 운율구 경계(상승조/하강조 강한 경계, 상승조/하강조/평탄조 약한 경계, 운율구 내부 비경계) 예측에서는 81.14%의 정확도를 보였다.
Prediction of the prosodic phrase boundary is one of the most important natural language processing tasks. We propose, for the natural prediction of the Korean prosodic phrase boundary, a statistical approach incorporating efficient learning features. These new features reflect the factors that affe...
Prediction of the prosodic phrase boundary is one of the most important natural language processing tasks. We propose, for the natural prediction of the Korean prosodic phrase boundary, a statistical approach incorporating efficient learning features. These new features reflect the factors that affect generation of the prosodic phrase boundary better than existing learning features. Notably, moreover, such learning features, extracted according to the hand-crafted prosodic phrase boundary prediction rule, impart higher accuracy. We developed a statistical model for Korean prosodic phrase boundaries based on the proposed new features. The results were 86.63% accuracy for three levels (major break, minor break, no break) and 81.14% accuracy for six levels (major break with falling tone/rising tone, minor break with falling tone/rising tone/middle tone, no break).
Prediction of the prosodic phrase boundary is one of the most important natural language processing tasks. We propose, for the natural prediction of the Korean prosodic phrase boundary, a statistical approach incorporating efficient learning features. These new features reflect the factors that affect generation of the prosodic phrase boundary better than existing learning features. Notably, moreover, such learning features, extracted according to the hand-crafted prosodic phrase boundary prediction rule, impart higher accuracy. We developed a statistical model for Korean prosodic phrase boundaries based on the proposed new features. The results were 86.63% accuracy for three levels (major break, minor break, no break) and 81.14% accuracy for six levels (major break with falling tone/rising tone, minor break with falling tone/rising tone/middle tone, no break).
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 통계적 접근법을 이용한 운율구 경계예측에서 더 좋은 예측 결과를 도출할 수 있는 새로운 학습 자질을 제안하였다.
본 논문은 통계적 접근법을 이용한 운율구 경계 예측에서 더 좋은 예측 결과를 도출할 수 있는 새로운 학습자질을 제안한다. 2장에서 운율구 경계 예측의 국내외 여러 연구에 대해서 정리하고, 3장에서는 실제 언어생활에서의 운율구 경계 형성 특징을 반영한 학습 자질에 대해서 설명할 것이다.
그러나 2000년대 중반에 들어 그 쓰임이 점차 늘어나면서 스크린 리더나 E-Book처럼 임의의 문장에 대해서도 합성할 수 있는 기술이 시장에서 요구되고 있다. 이러한 무제한 합성 기술은 하나의 차분한 목소리로 합성음을 생성해내는 낭독체 음성합성뿐만 아니라 전달하고자 하는 메시지의 내용과 듣는 이의 감정에 따라 음색과 억양이 다르게 표현되는 대화체 음성합성을 목표로 한다. 대화체 음성합성을 위해서는 정확한 자연언어처리 기술이 뒷받침되어야 하는데, 가장 중요한 자연언어처리 기술 중 한 가지는 끊어 읽는 위치를 예측하는 운율구 경계 예측 기술이다.
가설 설정
* 독립언과 문장의 주절 사이에는 강한 운율구 경계가 발생한다.
가설 1은 형태소 电의 출현콰 형태소 明의 출현이 상호독립적이라는 것을 뜻하고, 가설 2는 啊의 출현이 叫의 출현에 종속적이라는 것욜 뜻한다. 이때.
이때. 가설 1이 가설 검정의 대상이 되는데 이 가설을 귀무가설이라고 한다. 반면 가설 2는 귀무가설이 기각되었을 때 받아들여지는 가설로써 대립가설이라고 한다.
제안 방법
따라서 본 논문에서는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 단, 첫 형태소와 끝 형태소가 아닌 형태소이면서 운율구 경계에 영향을 미치는 형태소를 위해 '지정사 포함 여부', '용언화접미사와 결합 여부' 등과 같은 별도의 학습 자질도 추가하였다.
그 경계의 종류와 위치가 결정된다. 따라서 본 논문에서는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 단, 첫 형태소와 끝 형태소가 아닌 형태소이면서 운율구 경계에 영향을 미치는 형태소를 위해 '지정사 포함 여부', '용언화접미사와 결합 여부' 등과 같은 별도의 학습 자질도 추가하였다.
본 논문에서 제안하는 새로운 학습 자질을 바탕으로 CRFs를 이용하여 운율구 경계 예측 모형을 구축하였다. CRFs는 확률적 학습 방법의 하나로 은닉 마르코프 모델 (HMM: Hidden Markov Model), 최대 엔트로피 모델(MEM: Maximum Entropy Model)과 마찬가지로 순서에 의미가 있는 데이터(sequence data)에 대해 좋은 성능을 보인다.
본 논문에서는 어절 사이를 기준으로 하여 이전 어절의 첫 형태소와 다음 어절의 끝 형태소 간 연어 형성 여부를 가설 검정 (hypothesis testing)으로 판단하였다. 이는 3丄절에서 언급하였듯이 운율구는 대부분 어절의 첫 형태소와 끝 형태소에 따라 그 경계의 종류와 위치가 결정되기 때문이다.
2)따라서, 문장 시작과 운율구 경계 모두 거리 정보의 기준점으로 정할 필요가 있다. 본 논문에서는 운율구 경계를 거리정보의 기준점으로 정하고자 운율구 경계 예측 규칙을 활용하였다.
본 논문에서는 표 1과 같이 명사를 통사적, 의미적 성격에 따라 세분화하고 부사는 어떤 성분을 수식하느냐에 따라 세분화하였다. 또한, 연결어미도 '절간 연결만 가능한 연결어미'와 '어휘 간 연결도 가능한 연결어미'로구별하였다.
다른 두 가지 모형과 비교한 결과이다. 앞의 실험과 마찬가지로 학습데이터로 학습한 모형을 평가데이터로 평가하였다. 학습 기법의 차이에서 오는 특성을 배제하고 학습 자질의 효율성만을 분석하고자 김승원[11]에서 제안한 운율구 경계 예측 CRFs 모형과 비교를 하였으며, 규칙 기반 모형과 비교하여 어떠한 차이가 있는지 분석하고자 정영임[13]에서 제안한 규칙 기반 운율구 경계 예측 모형과 비교하였다.
'새로운 품사 집합' 열은 '기존 품사 집합을 표 1의 세분화를 통해 세분화한 품사 집합을 사용한 결과이다. 어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면 실험을 진행하였다. 단, 어절을 이루는 모든 형태소의 품사 정보를 이용하였다.
것이다. 어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면서 실험을 진행하였다. 표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다.
운율구 경계에 발생하는 휴지는 어조와 결합하여 나타나므로, 본 논문에서는 표 2와 같이 정영임[18]에서 제안한 휴지와 어조를 결합하여 6단계로 세분화한 운율구 경계 유형을 모형화에 이용한다. 표 3은 실험을 위해 사용한 학습데이터와 평가데이터에 나타난 운율구 경계유형의 분포를 보여준다.
정영임[18]에서는 다수의 주석자가 KBS 뉴스(2005 년 1월~2006년 6월)를 들으면서 해당 스크립트에 운율구 경계를 태깅하였다. 이때, 다수의 주석자가 태깅함으로써 생기는 주석자 간 운율구 경계 태깅의 불일치를 줄이고자 운율구 경계 주석 말뭉치 구축 과정을 세 단겨〕-주석자 훈련 단계, 운율구 경계 태깅 단계, 말뭉치 신뢰도 추정 단계로 나누어 수행하여 말뭉치의 신뢰도를 높였다.
결과이다. 이전의 실험들과는 달리 학습데이터를 통해 학습한 모형을 평가데이터를 이용하여 평가하였으며, 운율구 경계 유형별 예측 성능을 비교하고자 정확도 (precision)와 재현율(recall)을 평가 척도로 활용하였다. 전체적으로 나이브 베이즈가 가장 낮은 성능을 보였으며, CRFs가 가장 높은 성능을 보였다.
표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다. 이후의 실험에서는 첫 형태소와 끝 형태소의 품사 정보만을 이용하여 실험을 진행하였다.
표 4의 실험 결과에서 알 수 있듯이 운율구 경계 예측을 위해 추가로 품사의 하위 범주화를 한 결과 정확도가 더 높은 것을 알 수 있다. 이후의 실험에서는 추가로 품사의 하위범주화를 통한 새로운 품사 집합을 이용하여 진행하였다.
정영임[13]에서 자연스러운 한국어 운율구 경계를 예측하기 위해 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출한 다음, 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 수작업으로 구축하였다. 이렇게 구축된 규칙은 특정 언어 자원에 대해 독립적이고 규칙의 정확도도 높다.
new'는 본 논문에서 제안한 강한 운율구 경계로부터 현재 어절까지의 거리이다. 표 7의 실험에서부터는 Ll-CRFs와 L2-CRFs를 사용하였을 때를 비교하고자 두 개의 운율구 경계 예측 모형을 구형하였다. 표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다.
품사 정보를 효율적으로 활용하고자 품사의 하위범주화를 통해 선행 연구에서 사용한 품사 집합보다 좀 더 세분화한 품사 집합을 사용하였다. 또한, 어절의 품사 정보를 이용할 때 운율구 경계 예측에 더 많이 관여하는 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다.
앞의 실험과 마찬가지로 학습데이터로 학습한 모형을 평가데이터로 평가하였다. 학습 기법의 차이에서 오는 특성을 배제하고 학습 자질의 효율성만을 분석하고자 김승원[11]에서 제안한 운율구 경계 예측 CRFs 모형과 비교를 하였으며, 규칙 기반 모형과 비교하여 어떠한 차이가 있는지 분석하고자 정영임[13]에서 제안한 규칙 기반 운율구 경계 예측 모형과 비교하였다.
대상 데이터
운율구 경계 분석 말뭉치는 주석자의 개인차가 많이 작용하기 때문에 본 논문에서는 정영임[18]에서 구축한 다수 주석자 간 태깅 일치 신뢰도를 보장한 운율구 경계 분석 말뭉치를 학습데이터와 평가데이터로 이용하였다. 정영임[18]에서는 다수의 주석자가 KBS 뉴스(2005 년 1월~2006년 6월)를 들으면서 해당 스크립트에 운율구 경계를 태깅하였다.
이를 위해 문장의 시작에서부터 현재 어절까지의 거리, 문장 끝에서부터 현재 어절까지의 거리[9], 문장 내에서 현재 어절이 차지하는 위치를 정규화한 수치[10, 11] 등을 학습 자질로 이용하였다. 그러나 2장에서 살펴본 바와 같이 문장의 시작/끝에서부터의 거리나 문장 기호로부터의 거리 정보만으로는 현재 어절 다음에 어떤 운율구 경계가 올지 정확하게 예측하기 어렵다.
품사 정보, 거리 정보, 연어 형성 정보 외에도 어절의 길이가 길면 상대적으로 운율구 경계가 발생할 가능성이 크다는 것을 반영하고자 어절 길이를 학습 자질로 선별하였다. 또한, 앞에서 언급하였듯 인간이 한 번의 호흡에 말할 수 있는 물리적인 조건에 따라 일반적으로 운율구의 길이는 1~4 사이이다[18丄 따라서, 운율구 비경 계가 연속해서 얼마나 나타났는지도 중요한 학습 자질이다.
이론/모형
CRFs는 Ll—CRFs와 L2—CRFs로 나뉘는데 Ll—CRFs 는 정규화 방법으로 라플라시안 사전 지식 (laplacian prior) 을 사용하며, L2-CRFS 는 가우시안 사전 지식 (gaussian prior)을 사용한다. 일반적으로 학습 데이터에 노이즈가 적으면 L2-CRFs가 더 좋은 성능을 보이지만, 학습 데이터에 노이즈가 많으면 Ll-CRFs가 더 좋은 성능을 보인다.
본 논문에서는 가설 검정을 위한 여러 방법 중에서 우도 비 (likelihood i■砒io)를 이용한 가설 검정 방법을 사용하였다. 우도비는 %2 통계치보다 좀 더 해석이 직관적이다, 즉, 하나의 가설이 다른 가설보다 얼마나 더 가능성이 있는지를 보여준다, 또한, 우도비를 이용한 가설 검정 온 ^"test 보다 자료 부족 문제에 더 강하다’
실험을 위해 구축한 운율구 경계 예측 모형은 L2-CRFS 를 이용하였으며, 하이퍼 파라미터 C는 1로 설정하였다. 하이퍼 파라미터의 값이 크면 클수록 학습 데이터에 과적합(overfitting) 하는 경향이 있으므로 실험을 통해 적절한 값을 취하도록 한다.
성능/효과
거리 정보를 이용할 때는 문장의 시작이나 끝에서부터 현재 어절까지의 거리보다는 강한 운율구 경계로부터 현재 어절까지의 거리가 운율구 경계 예측에서 매우 중요한 역할을 한다는 사실 역시 실험을 통해 증명하였다.
또한, 어절의 품사 정보를 이용할 때 운율구 경계 예측에 더 많이 관여하는 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 그 결과 선행 연구에서 사용한 품사 정보를 이용하였을 때보다 운율구 경계 예측의 정확도가 더 향상되었다.
그러나 표 9와 표 10의 결과에서 운율구 경계 유형별로 봤을 때, 약한 운율구 경계 예측은 다른 경계 유형과 비교하면 예측 성능이 더 낮았으며, 규칙 기반 모형의 약한 운율구 경계 예측 정확도와 비교하였을 때도 예측성능이 더 낮았다. 이는 약한 운율구 경계가 다른 두 유형보다 화자에 따라 가변적으로 변할 가능성이 크기 때문에 의미 있는 통계 정보가 추출되지 않았기 때문이다.
표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다. 또한, L2-CRFS 보다 Ll-CRFs를 이용하였을 때의 결과가 더 좋았다. 이는 약한 운율구 경계가 다른 경계보다 수의적인 경향이 가능하기 때문에 학습 데이터에 노이즈가 많을수록 더 좋은 성능을 보이는 Ll-CRFs를이용한 운율구 경계 예측 모형이 더 높은 정확도를 나타낸 것으로 판단된다.
3의 낮은 정확도 향상을 보였다. 이상의 실험결과를 통해 본 논문에서 제안한 새로운 학습 자질들이 기존의 학습 자질보다 운율구 경계 예측에 대해 더 효율적이라는 것을 확인할 수 있었다.
표 6 에서 확인할 수 있듯이 이전 참조 어절 수가 늘어날수록 정확도가 증가하다가 이전 참조 어절 수가 3 이상일 때부터 정확도가 떨어진다. 이후 참조 어절 수 역시 너무 많은 어절을 참조하기보다는 이후 첫 어절의 품사 정보만을 이용하였을 때 정확도가 가장 높았다. 따라서, 품사 정보를 참조하는 최적의 앞뒤 어절 수는 어절 사이를 기준으로 앞 2어절과 뒤 1어절이다.
이전의 실험들과는 달리 학습데이터를 통해 학습한 모형을 평가데이터를 이용하여 평가하였으며, 운율구 경계 유형별 예측 성능을 비교하고자 정확도 (precision)와 재현율(recall)을 평가 척도로 활용하였다. 전체적으로 나이브 베이즈가 가장 낮은 성능을 보였으며, CRFs가 가장 높은 성능을 보였다. C4.
표 10의 결과에서 알 수 있둦이 본 논문에서 제안한 새로운 학습 자질로 구축한 CRFs 모형이 기존의 학습자질로 구축한 CRFs 모형과 규칙 기반 모형보다 한국어 운율구 경계 예측에서 더 높은 정확도를 보였다. 그러나 표 9와 표 10의 결과에서 운율구 경계 유형별로 봤을 때, 약한 운율구 경계 예측은 다른 경계 유형과 비교하면 예측 성능이 더 낮았으며, 규칙 기반 모형의 약한 운율구 경계 예측 정확도와 비교하였을 때도 예측성능이 더 낮았다.
단, 어절을 이루는 모든 형태소의 품사 정보를 이용하였다. 표 4의 실험 결과에서 알 수 있듯이 운율구 경계 예측을 위해 추가로 품사의 하위 범주화를 한 결과 정확도가 더 높은 것을 알 수 있다. 이후의 실험에서는 추가로 품사의 하위범주화를 통한 새로운 품사 집합을 이용하여 진행하였다.
어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면서 실험을 진행하였다. 표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다. 이후의 실험에서는 첫 형태소와 끝 형태소의 품사 정보만을 이용하여 실험을 진행하였다.
표 7의 실험에서부터는 Ll-CRFs와 L2-CRFs를 사용하였을 때를 비교하고자 두 개의 운율구 경계 예측 모형을 구형하였다. 표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다. 또한, L2-CRFS 보다 Ll-CRFs를 이용하였을 때의 결과가 더 좋았다.
후속연구
이는 약한 운율구 경계가 다른 두 유형보다 화자에 따라 가변적으로 변할 가능성이 크기 때문에 의미 있는 통계 정보가 추출되지 않았기 때문이다. 가변적 운율구 경계 예측을 위해 화자의 발화 특징에 대한 좀 더 다양한 분석이 이루어져야 할 것이다.
앞으로는 규칙 기반 접근법과 통계적 접근법을 결합하여 서로 간의 결점을 보완하는 방법에 대해 연구를 진행할 예정이다.
참고문헌 (18)
Taylor, P., Black, A. W., "Assigning Phrase Breaks from Part-of-Speech Sequences," In Proceedings of Eurospeech, pp.995-998, 1997.
Lee, S., Oh, Y., "Tree-based modeling of prosodic phrasing and segmental duration for Korean TTS systems," Speech Communication, vol.28, pp.283-300, 1999.
Jeong, H., Study on Korean Nouns, Hangugmunhwasa, 2002. (in Korean)
Kim, H., "The Construction of Adverb Lexicon in Contemporary Korean - On Some Issues of the description and the Classification of Adverbs -," Korean Journal of Linguistics, vol.24, pp.109-144, 1999. (in Korean)
Kwon, J., Kim, Y., Moon, Y., et al., "A Study on the Interface between Syntactic and Prosodic Structure with Special Reference to the Modes of Ambiguity Resolution," Korean Journal of Linguistics, vol.20, pp.103-109, 1997. (in Korean)
Kim, S., Rhythmic Units and Syntactic Structures in Korean: A Phonetic and Linguistic Study Aiming at Improving the Rhythmic Properties of Synthetic Speech, Seoul National University, 2002. (in Korean)
Lee, Chan-Do, "A Computation Study of Prosodic Structures of Korean for Speech Recognition and Synthesis: Predicting Phonological Boundaries," The Transactions of the Korea Information Processing Society, vol.4, no.1, pp.280-287, 1997. (in Korean)
Hirschberg, J., Prieto, P., "Training International Phrasing Rules Automatically for English and Spanish Text-to-Speech," Speech Communication, vol.18, pp.281-290, 1996.
Ostendorf, M., Veilleus, N., "A Hierarchical Stochastic Model for Automatic Prediction of Prosodic Boundary Location," Computational Linguistics, vol.20, no.1, pp.27-54, 1994.
Kim, S., Kim, B., Jeoung, M., Lee, G., "Using CRF (Contional Random Fields) to Predict," Human & Cognitive Language Technology 2005, pp.134-138, 2005. (in Korean)
Yarowsky, D., "Homograph Disambiguation in Text-to-speech Synthesis," Progress in Speech Synthesis, pp.366-377, 1996.
Jung, Y., Cho, S., Yoon, A., Kwon, H.-C., "Prediction of Prosodic Break Using Syntatic Relations and Prosodic Features," Korean Journal of Cognitive Science, vol.19, no.1, pp.89-105, 2008. (in Korean)
Lee, S., Oh, Y.-H., "The Modeling of Prosodic Phrasing and Pause Duration using CART," Korean Scientific and Cultural Studies Programme Workshop 1998, vol.15, no.1, pp.81-86, 1998. (in Korean)
Chun, Jin.-w., Kim, H. W., Kim, D. g., Lee, Y., "Prosodic-Boundaray Prediction for Korean Textto- Speech System," In Proceedings of Acoustical Society of Korea, vol.22, no.1, pp.77-83, 2002. (in Korean)
Ostendorf, M., Veilleus, N. "A hierarchical Stochastic Model for Automatic prediction of Prosodic Boundary Location," Computational Linguistics, vol.20, no.1, pp.27-54, 1994.
J Lafferty, A McCallum, F Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," Machine Learning- International Workshop then Conference, 2001.
Jung, I., Reliable Prediction of Prosodic Breaks by Combining Rules and probabilities Obtained from Small-Scale Corpus, Pusan National University, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.