[논문]말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템

설용수; 김동주; 김규상; 김한우

문제 정의

본 논문에서는 수정 규칙 방법의 좋고 나쁨에 따른 시스템의 정확도 변화가 논지가 아니고 신뢰도가 낮다고 판단되는 태깅 결과를 얼마나 잘 검출할 수 있는가를 논지로 한다. 따라서 본 논문에서는 수정 알고리즘에 의한 시스템의 태깅 정확도 향상보다는 저신뢰도 검출 척도의 오류 검출 성능이 얼마나 좋은가에 관심을 둔다. 이러한 관점에서 수정을 위한 규칙 적용을 위해 시스템의 크기를 키우기 보다는 간단한 수정 규칙을 사용하여 수정하는 방식을 택하였다.
본 논문에서는 말뭉치에 작업자의 언어지식부족이나 주관적 견해가 포함된 오류가 포함될 가능성이 있음을 고려한 상태에서 자료 부족 문제와 말뭉치의 오류로 인한 잡음을 찾아내고자 한다. 비터비 알고리즘 적용 단계에서는 HMM의 파라미터를 이용하여 품사열의 발생 확률을 계산한다.
수정은 규칙기반 품사 태깅에서 사용되는 다양한 방법들을 적용할 수 있을 것이다. 본 논문에서는 수정 규칙 방법의 좋고 나쁨에 따른 시스템의 정확도 변화가 논지가 아니고 신뢰도가 낮다고 판단되는 태깅 결과를 얼마나 잘 검출할 수 있는가를 논지로 한다. 따라서 본 논문에서는 수정 알고리즘에 의한 시스템의 태깅 정확도 향상보다는 저신뢰도 검출 척도의 오류 검출 성능이 얼마나 좋은가에 관심을 둔다.
본 논문에서는 통계 기반 품사 태깅에서 많이 사용되는 HMM과 Viterbi알고리즘을 이용한 품사 태깅에서 자료 부족 문제와 자료 오류로 인해 신뢰하기 힘든 부분을 검출하는 척도를 제안하고, 이를 사용하여 검출된 부분은 규칙을 적용하여 수정함으로써 태깅 정확도를 향상 시키는 과정을 보인다.
일반적으로 잡음이나 데이터 부족문제에 대한 해결책으로 재추정 알고리즘이나 평탄화 알고리즘을 사용하지만 말뭉치 제작 시 작업자의 언어 지식 부족이나 주관적 오판으로 말뭉치에 포함되는 태깅 오류들로 인한 태깅 정확도 저하는 재추정 알고리즘이나 평탄화 알고리즘으로 해결 할 수 없다. 이런 약점을 극복하기 위해 본 논문에서는 말뭉치의 오류가 포함되어 태깅 결과를 신뢰하기 어려운 구간을 검출하고 규칙을 적용하여 수정하는 방안을 제안하였다. 실험 결과 제안한 검출 방식은 92%의 오류 검출 정확도를 보였고, 검출된 태깅 구간을 수정하여 태깅 시스템의 정확도가 1~3%향상하는 것을 확인할 수 있었다.

제안 방법

KAMST에서 구축한 대한민국 국어정보 베이스〔9〕'의 품사 부착된 말뭉치를 사용하여 HMM 파라미터를 학습하였다. 실험에는 한국 십진 분류 체계(K①C)의 각 분야들을 균등하게 1만 1천 어절 내외로 발췌하여 사용한 약 10만 어절을 HMM의 파라미터 학습 데이터로 사용하였다.
태깅 결과가 오류인지 여부를 판단할 기준으로 삼을 A그룹, B그룹,그룹의 정답 말뭉치를 수작업으로 만들었다. 각 정답말뭉치에 오류의 비율을 2%, 4%, 6%, 8%, 10%로 인위적으로 늘려가며 오류 검출 정확도를 비교해 보았다. 오류는 표 2의 각 오류 유형을 각각의 상대적 발생 비율에 맞게 만들었다.
a와 /? 그리고 임계값를 각각 0.00001부터 10000까지 변화시켜 가며 오류 검출 성능을 실험하였다. 빈도, 엔트로피, 상관계수가 오류 검출에 미치는 영향을 처음부터 판단할 근거가 없어 수치 범위를 아주 적은 수부터 아주 큰 수까지 폭넓게 실험해 보았고 고 결과 a : /? : 임계 값의 비율에 의해 오류 검출성능이 좌우됨을 알 수 있었다.
첫째는 HMM 학습단계이다. 대량의 말뭉치를 이용하여 태깅하고자 하는 언어에 맞는 상태전이확률, 심볼발생확률, 초기상태확률의 세 가지 파라미터를 학습한다. 둘째는 비터비 알고리즘을 이용하여 입력문장에 대해 최고 확률을 보이는 품사 열을 찾아내는 단계이다.
이렇게 만들어진 HMM 파라미터를 사용하여 비터비 알고리즘으로 A그룹, B그룹, C그룹의 문장들을 태깅한다. 두 번째 시스템은 2.7절에서 설계한 시스템으로, 첫 번째 시스템에 본 논문에서 제안한 저신뢰도 구간 검출 및 오류 수정 방안을 적용한 시스템이다. 첫 번째와 마찬가지로 A그룹, B 그룹,그룹의 문장들을 태깅하고 두 시스템의 결과를 비교한다.
학습데이터로 사용한 10만 어절의 말뭉치 중, 표 2의 각 분류당 약 1천개의 어절을 임의로 추출하였다. 모아진 약 9천 어절 크기의 말뭉치를 분석하여 말뭉치 제작시 작업자가 범한 오류들의 유형을 정리하였다.
즉, 선택된 품사 전이 확률의 E 품사와 어휘발생확률의 #품사가 동일하지 않디면 두 확률이 모두 높게 나왔다 할지라도 각각 다른 품사를 대상2로 하여 높은 확률이 나왔기 때문에 J*G, ) 만 높은 값이 나온 것일 뿐 j 품사로 인해 전체가 높은 확률 값5 나왔다고 판단할 수 없다 따라서 품사전이확률과 어휘 발생확률의 확률 분포 성향이 다르디면 태깅의 신뢰도가 낮아진다. 본 논문에서는 두 확률분포간의 유사도를 측정하는 척도 중 상관계수를 사용하였다. 상관 계수는 공분산 cbu(X, y) 을 X와 y 의 표준편차의 곱으로 나누어 얻은 값으로 X와 y의 단위와 무관한 척도를 얻기 위해 사용된다.
분자에 log를 취하여 빈도와 상관계수의 합이 극히 낮을 때에만 척도의 값이 급감하도록 하였고. 분모에 엔트로피를 넣어 엔트로피가 0에 가까울수록 척도 값이 급격하게 커질 수 있도록 하였다(구현 시 엔트로피가 0이 나오는 경우가 있을 수 있는데 이 경우에는 미리 정의해 놓은 척도의 최대값으로 결과를 대체한다) .
비터비 알고리즘 적용단계에서 저신뢰도 검출 척도를 구하고 임계값 미만의 구간을 저신뢰도 구간으로 검출한다. 검출된 구간은 수정단계에서 수정 목표를 찾을 수 있도록 비 터 비 알고리즘에서 역추적을 하기위해 사용되는 ψ에 unknown 표기를 한다.
수정 방식은 대용량의 품사 부착된 말뭉치로부터 품사 열의 패턴을 추출한 뒤 unknown 표기가 되어 있는 부분의 앞과 뒤의 태깅 결과와 비교한 후 적합한 패턴의 품사 열을 참조하는 방식을 사용하였다. 상세한 품사열 패턴을 이용한 규칙 생성및 적용 과정은 아래와 같다.
순수하게 HMM과 비터비 알고리즘만을 적용한 태깅 시스템에서 잘못 태깅된 구간들을 분석해 본 결과 세 가지 특성이 있었다. 저 빈도로 구해진 확률 값을 가지고 있거나 확률 분포의 엔트로피가 높은 경우, 그리고 품사 전이확률과 어휘발생확률의 분포가 유사하지 않을 경우에 잘못된 태깅 결과가 나올 확률이 높았다.
실험은 신뢰성 검출 척도의 오류 검출 성능, 그리고 검출된 태깅 결과를 수정했을 때의 시스템의 태깅 성능을 테스트 하였다. 실험은 공통적으로 대한민국 국어정보 베이스'의 세 부분을 입력 문장으로 사용하였다.
둘째는 비터비 알고리즘을 이용하여 입력문장에 대해 최고 확률을 보이는 품사 열을 찾아내는 단계이다. 앞 단계에서 학습된 HMM 의 파라미터를 이용하여 품사열의 발생확률을 계산하여 가장 확률이 높은 품사열을 결과로 도출한다.
오류검출정확도 실험에서 오류 양에 따른 오류검출정확도 변화를 알아보기 위해 인위적으로 오류를 포함시키게 되는데 이때 표 1의 각 오류 유형을 각각의 발생 비율에 맞게 생성하였다.
따라서 본 논문에서는 수정 알고리즘에 의한 시스템의 태깅 정확도 향상보다는 저신뢰도 검출 척도의 오류 검출 성능이 얼마나 좋은가에 관심을 둔다. 이러한 관점에서 수정을 위한 규칙 적용을 위해 시스템의 크기를 키우기 보다는 간단한 수정 규칙을 사용하여 수정하는 방식을 택하였다.
10만 어절의 학습말뭉치로부터 HMM 파라미터를 추출하고 Baum-Welch 재추정 알고리즘을 통하여 파라미터를 재추정 한다. 이렇게 만들어진 HMM 파라미터를 사용하여 비터비 알고리즘으로 A그룹, B그룹, C그룹의 문장들을 태깅한다. 두 번째 시스템은 2.
저신뢰 구간으로 검출된 태깅 결과를 규칙으로 수정했을 때의 시스템의 태깅 성능 평가 실험은 다음 두 시스템의 태깅 성능 비교를 통해 진행한다. 첫 번째 시스템은 일반적인 HMM을 사용한 태깅 시스템이다.
전체 태깅 시스템의 성능 평가는 A그룹, B그룹, C그룹의 데이터를 입력으로 하여 태깅을 수행한 결과와 수작업을 통해 만든 태깅 정답과 비교하여 각 그룹별 정확도를 구하였다. 표 3은 순수한 HMM을 이용하여 태깅한 결과와 본 논문에서 제안하는 저신뢰도 태깅 구간 검출 및 수정 방법을 적용한 결과를 나타낸 것이다.
7절에서 설계한 시스템으로, 첫 번째 시스템에 본 논문에서 제안한 저신뢰도 구간 검출 및 오류 수정 방안을 적용한 시스템이다. 첫 번째와 마찬가지로 A그룹, B 그룹,그룹의 문장들을 태깅하고 두 시스템의 결과를 비교한다.
시스템은 추출모듈, 재추정 모듈, 태깅 모듈로 이루어져 있다. 추출 모듈은 품사 부착된 말뭉치로부터 품사 전이 빈도, 품사별 어휘 발생 빈도를 추출한 후 추출된 발생 빈도를 바탕으로 HMM 의 파라미터인 품사 전이 확률, 품사별 어휘 발생 확률, 품사별 발생 확률을 생성한다. 추출모델이 생성한 HMM 파라미터는 데이터베이스에 저장한다.
그러나 실험으로 확인하고자 하는 것은 저빈도 문제가 아니라 작업자의 오판으로 인해 발생된 오류를 검출하는 성능이기 때문에 미등록어는 유사한 등록어로 사전에 수정하여 실험에 영향을 미치지 않도록 했다. 태깅 결과가 오류인지 여부를 판단할 기준으로 삼을 A그룹, B그룹,그룹의 정답 말뭉치를 수작업으로 만들었다. 각 정답말뭉치에 오류의 비율을 2%, 4%, 6%, 8%, 10%로 인위적으로 늘려가며 오류 검출 정확도를 비교해 보았다.

대상 데이터

가중치값 의 최적값을 찾기 위해 대한민국 국어정보 베이스의 임의의 1,000문장(15, 921 어절)을 대상으로 a와 /? 그리고 임계값를 각각 0.00001부터 10000까지 변화시켜 가며 오류 검출 성능을 실험하였다.
실험에는 한국 십진 분류 체계(K①C)의 각 분야들을 균등하게 1만 1천 어절 내외로 발췌하여 사용한 약 10만 어절을 HMM의 파라미터 학습 데이터로 사용하였다. 태깅 단위는 형태소 단위이며 54개의 품사를 사용하였다.
하였다. 실험은 공통적으로 대한민국 국어정보 베이스'의 세 부분을 입력 문장으로 사용하였다. 각 그룹은 말뭉치 내에서 성경, 사설, 문학 분야의 일부분을 선택하였으며 각각의 주제와 크기는 표 2와 같다.
성능 비교를 통해 진행한다. 첫 번째 시스템은 일반적인 HMM을 사용한 태깅 시스템이다. 10만 어절의 학습말뭉치로부터 HMM 파라미터를 추출하고 Baum-Welch 재추정 알고리즘을 통하여 파라미터를 재추정 한다.
실험에는 한국 십진 분류 체계(K①C)의 각 분야들을 균등하게 1만 1천 어절 내외로 발췌하여 사용한 약 10만 어절을 HMM의 파라미터 학습 데이터로 사용하였다. 태깅 단위는 형태소 단위이며 54개의 품사를 사용하였다. 사용한 말뭉치에는 작업자의 언어지식 부족으로 인한 태깅 오류들이 다수 포함되어 있다.
사용한 말뭉치에는 작업자의 언어지식 부족으로 인한 태깅 오류들이 다수 포함되어 있다. 학습데이터로 사용한 10만 어절의 말뭉치 중, 표 2의 각 분류당 약 1천개의 어절을 임의로 추출하였다. 모아진 약 9천 어절 크기의 말뭉치를 분석하여 말뭉치 제작시 작업자가 범한 오류들의 유형을 정리하였다.

이론/모형

첫 번째 시스템은 일반적인 HMM을 사용한 태깅 시스템이다. 10만 어절의 학습말뭉치로부터 HMM 파라미터를 추출하고 Baum-Welch 재추정 알고리즘을 통하여 파라미터를 재추정 한다. 이렇게 만들어진 HMM 파라미터를 사용하여 비터비 알고리즘으로 A그룹, B그룹, C그룹의 문장들을 태깅한다.
태깅 모듈은 재추정 과정까지 거친 HMM의 파라미터 값들을 이용하여 입력된 문장의 각 형태소를 태깅 한다. 입력 문장에 대한 단일 최적 품사열을 찾기 위해 비터비 알고리즘을 사용한다. 저신뢰도 구간 검출 모듈은 비터비 알고리즘 수행 시에 실행된다.
품사 태깅에 있어 자료 부족 문제는 태깅 정확도에 큰 영향을 미친다. 자료 부족 문제를 해결하기 위해 일반적으로 평탄화(smoothing) 방법이나 재추정(re-estimation) 방법을 사용한다. 그러나 이러한 방법들은 태깅의 정확도를 개선할 뿐 해결하지는 못한다.
추출모델이 생성한 HMM 파라미터는 데이터베이스에 저장한다. 재추정 모듈은 Baum-Welch 알고리즘〔8〕을 사용하여 데이터베이스에 저장된 HMM 파라미터가 태깅 시에 최대 확률 값을 구할 수 있도록 파라미터의 값들을 조절한다. 태깅 모듈은 재추정 과정까지 거친 HMM의 파라미터 값들을 이용하여 입력된 문장의 각 형태소를 태깅 한다.

성능/효과

00001부터 10000까지 변화시켜 가며 오류 검출 성능을 실험하였다. 빈도, 엔트로피, 상관계수가 오류 검출에 미치는 영향을 처음부터 판단할 근거가 없어 수치 범위를 아주 적은 수부터 아주 큰 수까지 폭넓게 실험해 보았고 고 결과 a : /? : 임계 값의 비율에 의해 오류 검출성능이 좌우됨을 알 수 있었다. 또한 a와 0와 임계값 중 a의 비율이 높은 것이 높은 검출정확도를 보였다.
HMM과 비터비 알고리즘만으로 구현된 태깅 시스템의 성능은 80% 후반으로 기존의 한국어 품사 태깅 시스템에 비해 낮은 성능을 보였다. 이는 비교적 적은양의 말뭉치, 오류를 다수 포함한 말뭉치를 사용했기 때문에 어느 정도 예상되는 수치이다.
말뭉치 제작시 작업자의 오판으로 인해 발생한 오류를 검출해 내는데 적합하다는 것을 보여준다. 또한 3%에서 가장 높은 검출 정확도를 보인 이유로 검출 척도의 가중치를 정하는 실험에 사용한 말뭉치가 3.2%의 오류를 포함하고 있었기 때문에 유사한 오류량에 좋은 검출성능을 보였다고 볼 수 있다. 이러한 사실은 검출 척도의 가중치의 조절을 통해 다른 언어나 다른 말뭉치를 사용한 경우에도 해당 환경에 검출 성능을 최대화 시킬 수 있음을 짐작할 수 있게 한다.
빈도, 엔트로피, 상관계수가 오류 검출에 미치는 영향을 처음부터 판단할 근거가 없어 수치 범위를 아주 적은 수부터 아주 큰 수까지 폭넓게 실험해 보았고 고 결과 a : /? : 임계 값의 비율에 의해 오류 검출성능이 좌우됨을 알 수 있었다. 또한 a와 0와 임계값 중 a의 비율이 높은 것이 높은 검출정확도를 보였다. 실험결과에 따르면 빈도와 상관계수와 임계 값의 비율이 930 : 310 : 1일 때 92.
수 있고. 또한 검출 척도의 가중치값을 조절하여 검출 성능을 높일 수 있음을 알 수 있었다.
즉. 말뭉치 제작시 작업자의 오판으로 인해 발생한 오류를 검출해 내는데 적합하다는 것을 보여준다. 또한 3%에서 가장 높은 검출 정확도를 보인 이유로 검출 척도의 가중치를 정하는 실험에 사용한 말뭉치가 3.
말뭉치로부터 자주 발생하는 품사열의 패턴만 가지고 만든 규칙은 성능이 매우 낮음을 알 수 있었다. 그러나 더 좋은 정확도의 수정 규칙을 사용한다면 시스템의 성능을 더 높일 수 있을 것이다.
이는 비교적 적은양의 말뭉치, 오류를 다수 포함한 말뭉치를 사용했기 때문에 어느 정도 예상되는 수치이다. 문장들을 상세히 분석해 본 결과, 비터비 알고리즘 적용 단계에서 저신뢰도 구간으로 검출된 부분 중 일부가 말뭉치의 오류로 인해 잘못 태깅이 된 부분을 포함하고 있었고 해당 구간을 수정하자 정확도가 높아지는 것을 확인할 수 있었다.
00001부터 10000까지 변화시켜 가며 오류 검출 성능을 실험하였다. 빈도, 엔트로피, 상관계수가 오류 검출에 미치는 영향을 처음부터 판단할 근거가 없어 수치 범위를 아주 적은 수부터 아주 큰 수까지 폭넓게 실험해 보았고 고 결과 a : /? : 임계 값의 비율에 의해 오류 검출성능이 좌우됨을 알 수 있었다. 또한 a와 0와 임계값 중 a의 비율이 높은 것이 높은 검출정확도를 보였다.
이런 약점을 극복하기 위해 본 논문에서는 말뭉치의 오류가 포함되어 태깅 결과를 신뢰하기 어려운 구간을 검출하고 규칙을 적용하여 수정하는 방안을 제안하였다. 실험 결과 제안한 검출 방식은 92%의 오류 검출 정확도를 보였고, 검출된 태깅 구간을 수정하여 태깅 시스템의 정확도가 1~3%향상하는 것을 확인할 수 있었다.
또한 매우 높은 성능을 가진 태깅 시스템에서도 부가적인 오류 판단 근거로 사용 시에는 성능 향상을 기대 할 수도 있다. 실험 결과에서도 나타났지만 본 논문에서 제안한 신뢰성 검출 척도는 최대 92%의 검출 정확도를 보여 그보다 높은 태깅 정확도를 보이는 시스템에서는 효용성이 없다. 앞으로 검출 척도를 보완하여 검출 정확도가 95% 이상 된다면 수정시의 정확도 저하를 감안하더라도 최종적인 태깅 정확도가 90% 중반 정도를 기대할 수 있을 것이다.
실험결과를 통해 말뭉치에 포함된 작업자의 오판으로 인한 오류에 대한 해법으로 신뢰성 검출 척도가 유용하게 사용될 수 있고. 또한 검출 척도의 가중치값을 조절하여 검출 성능을 높일 수 있음을 알 수 있었다.
또한 a와 0와 임계값 중 a의 비율이 높은 것이 높은 검출정확도를 보였다. 실험결과에 따르면 빈도와 상관계수와 임계 값의 비율이 930 : 310 : 1일 때 92.6%의 최대 오류 검출 정확도를 나타내었다. 이 같은 특성과 실험결과를 바탕으로 하여 , 그리고 임계값를 정하였다.
오류가 전혀 포함되어 있지 않은 정답 집합을 입력한 경우 신뢰성 척도가 잘못 검출하는 비율이 약 12% 정도로 나타났다. 오류의 양이 극히 적을 때에는 오류의 영향력이 크지 않아 검출이 잘 되지 않기 때문이다.
오류의 양이 극히 적을 때에는 오류의 영향력이 크지 않아 검출이 잘 되지 않기 때문이다. 오류의 비율이 약 3% 내외일 때 최고 검출 정확도를 보였다. 오류의 비율이 3%정도일 때 검출 척도가 검출하고자 하는 특성 이잘 나타나고 있음을 알 수 있다.
있었다. 저 빈도로 구해진 확률 값을 가지고 있거나 확률 분포의 엔트로피가 높은 경우, 그리고 품사 전이확률과 어휘발생확률의 분포가 유사하지 않을 경우에 잘못된 태깅 결과가 나올 확률이 높았다.

후속연구

말뭉치로부터 자주 발생하는 품사열의 패턴만 가지고 만든 규칙은 성능이 매우 낮음을 알 수 있었다. 그러나 더 좋은 정확도의 수정 규칙을 사용한다면 시스템의 성능을 더 높일 수 있을 것이다.
구간을 수정한다. 수정은 규칙기반 품사 태깅에서 사용되는 다양한 방법들을 적용할 수 있을 것이다. 본 논문에서는 수정 규칙 방법의 좋고 나쁨에 따른 시스템의 정확도 변화가 논지가 아니고 신뢰도가 낮다고 판단되는 태깅 결과를 얼마나 잘 검출할 수 있는가를 논지로 한다.
실험 결과에서도 나타났지만 본 논문에서 제안한 신뢰성 검출 척도는 최대 92%의 검출 정확도를 보여 그보다 높은 태깅 정확도를 보이는 시스템에서는 효용성이 없다. 앞으로 검출 척도를 보완하여 검출 정확도가 95% 이상 된다면 수정시의 정확도 저하를 감안하더라도 최종적인 태깅 정확도가 90% 중반 정도를 기대할 수 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템
A Korean POS Tagging System with Handling Corpus Errors 원문보기

초록
AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 A Korean POS Tagging System with Handling Corpus Errors 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

김한우 (12)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템
A Korean POS Tagging System with Handling Corpus Errors 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper