[논문]어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템

강미영; 정성원; 권혁철

문제 정의

더욱이 후보 어절을 확장함으로써 사전의 메모리가 커지는 문제점이 발생하였다. 따라서 본 연구는 (r) 자료 부족 문제와 («-) 메모리 크기 문제를 동시에 해결할 수 있는 형태소 unigram과 형태소 범주 패턴에 기반을 둔 띄어쓰기 기법을 제시한다.
왜냐하면, 어절 띄어쓰기는 어절의 경계를 인식하는 것이지 음절의 경계를 인식하는 것이 아니기 때문이다. 따라서 본 연구의 선행 연구에서는 n-gram의 차수를 늘이지 않고 어절 경계를 인식함으로써 어절 띄어쓰기를 인식론적 관점에서 해결하기 위하여 노력하였다.
범주별 결합 가중치를 반영하기 위하여 형태소 출현확률에 범주별 결합 가증치를 숭수로 두었으며, 이에 관하여는 다음 절에서 논하도록 하겠다. 그림 1은 위 식 (12)와 (13)을 사용한 범주패턴 기반 띄어쓰기 모델의 처리 과정을 도식화한 것이다.
기반으로 계산할 수 있다. 본 논문에서는 이를 위하여 어절을 구성하는 범주 패틴 내에 각 형태소 가속한 범주의 기여도를 기여 가중치로 두고 학습을 이용하여 이 가중치를 얻어낸다.
본 연구에서는 형태소 unigram을 이용한 범주 패턴 기반 한국어 자동 띄어쓰기 모델을 제안하였다. 이를 위하여。) 실제 관측된 어절의 출현 확률과 (Q 형태소와 범주 패턴을 이용하여 추정한 후보 어절의 출현 확률을 간의 차이를 최소화 하는 방향으로 범주 패턴 내 범주가중치를 학습하여 적용하였다.
한국어의 이와 같은 특성을 고려하여 정확한 띄어쓰기를 자동으로 제시함으로써 한국어 문장을 문법적으로 정확한 어절의 나열로 만들기 위하여, 본 연구의 선행연구에서는 어절 unigram 기반의 통계적인 띄어쓰기 모델을 제안하였다. 이 연구에서는 통계적 어절 uni~ gram 기반 접근 방식에서 발견되는 자료부족 문제를 해결하기 위해 통계적 기법인 음절 bigram에 기반하여 어절의 경계에 대한 정보를 보완하고 규칙/지식에 기반하여 후보 어절 제시하는 혼합모델을 제안하였지만, 여전히 데이타 부족문제를 모두 해결할 수는 없었다[6].

가설 설정

. 어절 내에 단일 형태소 범주를 가진 패턴 N, ADVt BN, MDQ, MD, PN, HI 은 곧 어절이다. 따라서 이 패턴들은 따로 학습할 필요가 없으므로, 형태소 범주의 결합 가중치를 고려하지 않는다.
. 종성에 비、, 从, 初, 리、이 있는 음절은 단어 경계가 되는 공백과 같이 나타날 수 없다.
. 초성에 己을 포함하는 음절은 외래어를 제외하고는 단어 경계의 왼쪽에 나타날 수 없다.
. 한글의 어순은 자유롭지만, 국부적인 통사 제약은 존재한다. 즉, 특정 어미, 의존명사, 보조 동사 등은 통사 제약 아래 고정적 음절 패턴을 보인다,
음절은 bigram 사용에 그리 큰 어려움이 없었지만, 형태소는 그 종류가 어절에 비해서는 적지만, 음절에 비해서는 엄청난 양이므로 형태소 uni- gram이상은 적용하기 힘들다. 따라서, 본 논문은 형태소가 각각 독립적으로 출현한다는 가정 하에 형태소 unigram을 사용한다.
어절 unigram 모델에서는 문장 내에 각 어절들의 출현이 서로 독립 사건이라고 가정한다. 교착어적인 특성상 한국어는 어절의 배열이 자유롭지만, 문장 구성상 국부적인 통사 제약이 존재하기 때문에 특정 부분에서 고정 음절 패턴을 발견할 수 있다(2.
한 어절은 하나 혹은 여러 개의 형태소로 구성되며, 형태소의 구성은 특별한 범주 패턴을 이루고 있다. 정의 2를 기반으로 본 연구에서는 단일 형태소가 한 어절이 구성하는 경우는 제외하고 2개 이상의 형태소가 한 어절을 구성할 때 어절과 형태소의 관계를 다음과 같이 가정하였다.

제안 방법

위하여。) 실제 관측된 어절의 출현 확률과 (Q 형태소와 범주 패턴을 이용하여 추정한 후보 어절의 출현 확률을 간의 차이를 최소화 하는 방향으로 범주 패턴 내 범주가중치를 학습하여 적용하였다. 그 결과 형태소 uni- gram의 범주 패턴별 결합특성으로 인하여 순수 어절 unigram모델에 비하여 자료 부족 문제를 효율적으로 해결하였고, 사전 크기를 크게 줄였으며, 띄어쓰기 성능을 대폭 향상 시켰다.
제시한다. 더불어, 띄어쓰기를 많이 하는 시스템일수록 재현율이 높아지며 적게 하는 시스템일수록 정확도가 더 높아지므로 띄어쓰기 시스템의 정확한 성능 평가를 위해서, 이 둘을 합한 어절 단위 f-measure (Fw) 를 종합적인 성능평가로 제시하겠다. 아래 식은 정확도와 재현율을 이용하여 Fw를 구하는 식이다.
하지만, 표 5에서 제시한 기존의 ETRI 품사 태그 부착 말뭉치와 21세기 세종 말뭉치는 코퍼스는 일반인들의 띄어쓰기 정확도를 살펴보는데 부적합하다고 판단된다. 따라서, 실제 사용자들이 여타의 다른 정제과정을 거치지 않고 생성한 텍스트와 교열전문가 및 교열시스템 등에 의해 정제과정을 거쳤을 것으로 추정이 되는 신문데이타를 적절히 조합하여 외부3과 같은 성능평가 데이타 집합을 설정하였다.
성능평가 데이타는 기존연구[6]에서 사용한 데이타 집합 (표 5의 내부1과 외부1, 2)과 추가로 수집한 데이타 집합(표 5의 외부3)으로 구성되어 있다. 본 연구에서 제시한 모델은 후보 어절 사이의 띄어쓰기 여부를 평가하는 것으로 입력 문장의 띄어쓰기를 고려하지 않는다. 이는 이전 연구들의 띄어쓰기에 대한 접근 방법과 유사한 것으로, 입력 문장의 띄어쓰기가 100% 틀렸다는 가정하에 띄어쓰기 문제를 후보위치에서의 띄어쓰기 여부로 단순화한 것이다.
본 연구에서는 범주 패턴내의 각 범주의 가중치를 학습하였다. 그 결과 학습 데이타에 출현하지 않은 어절에 대한 처리 능력을 향상시켰음에도 불구하고, 형태소 각각의 특성을 반영하여 가중치를 학습하지 않음으로 인하여 개별 형태소의 특성을 골고루 고려하지는 못했다.
추출된 형태소 범주는 총 383 개 이다' 학습의 효율성을 위하여 추출된 데이타 중 형태소 범주별 어절 리스트 샘플 데이타(SCPWLs)를 추출하였다. 이를 위하여 각 형태소 범주를 어절의 출현 빈도로 정렬하였으며, 샘플 데이타로 설정된 어절의 출현 빈도가 L000개 미만이면, 모든 데이타를 사용하며, 1, 0007)1 에서 10, 000개미만이면, n 중 1, 000개를 균등하게 뽑았으며, 10, 000개 이상이면 10개 간격으로 한 개씩 균등하게 뽑아서 사용하였다. 이텋게 설정된 샘플 데이타로 최적 파라메터를 얻기 위하여 시률레이티드 어닐링 (simulated annealing) 알고리즘을 사용하였다.
파라메터를 설정하기 위하여 각 형태소 범주 패턴별 어절 리스트(CPWL)를 형태소 분석 정보가 있는 PNU 말뭉치로부터 추출하였다. 추출된 형태소 범주는 총 383 개 이다' 학습의 효율성을 위하여 추출된 데이타 중 형태소 범주별 어절 리스트 샘플 데이타(SCPWLs)를 추출하였다.
학습의 편의성과 학습 결과의 적용을 위하여 한국어의 특성을 고려한 몇 가지 휴리스턱을 설정하였다. 이는 전체 시스템의 정확도에 영향을 미치지 않는 범위 내에서 학습을 위한 대상 범주 패턴의 수를 줄이며, 시스템구현의 일관성을 유지하기 위하여 필요하다.
혼합 모델을 제안하였다[6]. 후보 어절을 능동적으로 제안하기 위하여 PNU 형태소 분석기4)를 사용하여 어절 unigram 기반 모델의 자료 부족 문제를 보충하였다. PNU 형태소 분석기는 분석 가능한 형태소들 중에서 최장일치기법을 사용하여 선택된 후보를 능동적으로'확장하고 실질 형태소 범주와 문법 형태소 범주에 서로 다른 가중치를 부여한다.

대상 데이터

추출하였다. 추출된 형태소 범주는 총 383 개 이다' 학습의 효율성을 위하여 추출된 데이타 중 형태소 범주별 어절 리스트 샘플 데이타(SCPWLs)를 추출하였다. 이를 위하여 각 형태소 범주를 어절의 출현 빈도로 정렬하였으며, 샘플 데이타로 설정된 어절의 출현 빈도가 L000개 미만이면, 모든 데이타를 사용하며, 1, 0007)1 에서 10, 000개미만이면, n 중 1, 000개를 균등하게 뽑았으며, 10, 000개 이상이면 10개 간격으로 한 개씩 균등하게 뽑아서 사용하였다.

이론/모형

80%의 재현율을 보였다. 3)[5]는 음절 trigram과 은닉 마르코프 모델을 사용하였다. 이 연구에서는 기존의 통계 기반 자동 띄어쓰기 방법에서 이전의 띄어쓰기 상태를 고려하지 않기 때문에 발생하는 문제점을 극복하기 위하여 자동 띄어쓰기를 품사 부착과 같은 분류 문제로 간주하고 은닉 마르코프 모델을 확장한 모델을 제안하였으며, 93.
하지만, 한 음절 단위로 고려했을 때 종류가 한정되어 있어 어느 정도 차수를 늘려 나갈 수 있는 음절 n-gram과는 달리 어절의 n-gram은 한국어의 교착어적인 특성상 거의 무한대로 생성될 수 있으므로, n-gram-2] 차수를 늘여 적용하기 매우 힘들며, 아무리 말뭉치의 크기를 늘리더라도 자료 부족 문제를 해결할 수 없다. 그에 따라, 본 연구의 선행 연구에서 제안한 통계기반 한국어 띄어쓰기 모델은 어절 n-gram 기반 접근을 취했을 때 문제가 될 수 있는 취급 데이타의 개수가 폭발적으로 늘어나는 현상을 방지하기 위하여 어절 unigram을 이용하였다. 문서 내에서 특정 어절이 출현할 확률은 학습 데이타 내에서 어절 unigram의 상대 빈도를 이용하여 추정하였으며 이는 식 ⑴과 같다.
분석한다. 본 연구에서는 띄어쓰기의 성능 측정을 위하여 공백이 제거된 성능평가 데이타를 이용한다. 성능평가 데이타는 기존연구[6]에서 사용한 데이타 집합 (표 5의 내부1과 외부1, 2)과 추가로 수집한 데이타 집합(표 5의 외부3)으로 구성되어 있다.
이를 위하여 각 형태소 범주를 어절의 출현 빈도로 정렬하였으며, 샘플 데이타로 설정된 어절의 출현 빈도가 L000개 미만이면, 모든 데이타를 사용하며, 1, 0007)1 에서 10, 000개미만이면, n 중 1, 000개를 균등하게 뽑았으며, 10, 000개 이상이면 10개 간격으로 한 개씩 균등하게 뽑아서 사용하였다. 이텋게 설정된 샘플 데이타로 최적 파라메터를 얻기 위하여 시률레이티드 어닐링 (simulated annealing) 알고리즘을 사용하였다. 시뮬레이티드 어닐링 알고리즘은 힐 클라이밍(hill climbing) 알고리즘의 단점을 보완하여, 학습 초기에 나쁜 결과가 제시되는 쪽도 선택함으로써 결과가 국소 최대값들("cal maxima)에 빠지는 것을 방지할 수 있다.

성능/효과

이텋게 설정된 샘플 데이타로 최적 파라메터를 얻기 위하여 시률레이티드 어닐링 (simulated annealing) 알고리즘을 사용하였다. 시뮬레이티드 어닐링 알고리즘은 힐 클라이밍(hill climbing) 알고리즘의 단점을 보완하여, 학습 초기에 나쁜 결과가 제시되는 쪽도 선택함으로써 결과가 국소 최대값들("cal maxima)에 빠지는 것을 방지할 수 있다. 그림 2는 파라메터를 학습하기 위한 전체 처리 과정을 도식화 한 것이다.
. 범주 패턴 와 어서는 각각 상위 15.89%의 어절 타입과 38.73%의 어절 타입이 각 범주 패턴별 어절 샘플 데이타(SCPWJ) 내에서 나타나는 어절 중 95%를 차지한다
이를 위하여。) 실제 관측된 어절의 출현 확률과 (Q 형태소와 범주 패턴을 이용하여 추정한 후보 어절의 출현 확률을 간의 차이를 최소화 하는 방향으로 범주 패턴 내 범주가중치를 학습하여 적용하였다. 그 결과 형태소 uni- gram의 범주 패턴별 결합특성으로 인하여 순수 어절 unigram모델에 비하여 자료 부족 문제를 효율적으로 해결하였고, 사전 크기를 크게 줄였으며, 띄어쓰기 성능을 대폭 향상 시켰다. 이와 더불어 어절을 형태소 범주 패턴에 따라 나누었을 때 형태소 범주가 한국어 어절 형성에 일정한 기여도를 가지도 참여함을 확인 할 수 있었다.
본 연구에서 제시하는 모델로 구현한 시스템이 자료 부족 문제와 메모리의 크기 문제를 효과적으로 해결했음을 표 6과 그림 6으로 확인할 수 있다. 어절 사전 (SWD)을 적용하는 이전 모델을 사용했을 때 외부 데이타보다 내부 데이타에 대해 월둥히 높은 성능을 보였던 것에 반해, 본 연구가 제안한 모델을 적용 했을 때 내부데이타나 외부 데이타에 동시에 높은 성능을 보임을 알 수 있다.
모델 匚 에서는 범주 가중치를 사용하지 않았지만, 어절 사전만 사용한「모델 보다 결과가 일부 데이타에서는 향상되는 것을 볼 수 있는데, 그 이유는 형태소 분석기가 문장을 분석해 나갈 때 부분적으로 명확한 어절의 경계까지만 분석하며, 불명확한 어절 경계는 취급하지 않는 특성이 반영된 것이다. 어절 내의 범주 패턴 내에서 특정 형태소의 범주 기여도를 반영한 가중치가 성능에 미치는 영향은 匸 모델과 e 모델의 비교를 통해 알 수 있으며, 己 모델이 J 모델에 비해 7讪기준 6.74%의 성능 향상을 보였다. 최종 성능은 Fw 기준 97.
표 6과 그림 6으로 확인할 수 있다. 어절 사전 (SWD)을 적용하는 이전 모델을 사용했을 때 외부 데이타보다 내부 데이타에 대해 월둥히 높은 성능을 보였던 것에 반해, 본 연구가 제안한 모델을 적용 했을 때 내부데이타나 외부 데이타에 동시에 높은 성능을 보임을 알 수 있다. ― 모델에서 범주 가중치와。次Zs값을 1로 둔 것은 형태소의 확률만 사용했음을 의미한다.
3)[5]는 음절 trigram과 은닉 마르코프 모델을 사용하였다. 이 연구에서는 기존의 통계 기반 자동 띄어쓰기 방법에서 이전의 띄어쓰기 상태를 고려하지 않기 때문에 발생하는 문제점을 극복하기 위하여 자동 띄어쓰기를 품사 부착과 같은 분류 문제로 간주하고 은닉 마르코프 모델을 확장한 모델을 제안하였으며, 93.06%의 어절 단위 정확도를 보였다.
더욱이, 형태소 분석기는 어근에서 하위 범주가 분리되는 것을 막기 위하여 우선적으로 띄어쓰지 말아야 할 부분에 대한 처리를 수행한다. 이러한 형태소 분석기를 적용한 시스템의 성능은 내부 데이타 98.39%, 외부 테스트 데이타 97.51% 로 내부, 외부 데이타간의 성능차이가 별로 없었다.
, 100자평이 다른 항목에 비해서 띄어쓰기 정확도가 현저히 낮은 이유는 1100 자평'의 특성상 사용자가 자신의 생각을 한정된 공간에 압축해서 기술해야 하므로, 의도적으로 띄어쓰기를 잘 지키지 않기도 하고, 짧은 문장의 경우는 모든 문장을 붙여 쓰기도 하기 때문이다 반면, 신문데이타는 신문사 자체에 기사를 작성을 보조하기 위한 교열시스템을 갖추고 있는 경우가 많으므로 실제 띄어쓰기 정확도가 상당히 높은 것을 볼 수 있다. 이런 여러 데이타의속성에 따라 본 모델의 적용 결과에 따른 개선 정도가 차이를 보이지만 전체적으로 향상됨을 볼 수 있다.
그 결과 형태소 uni- gram의 범주 패턴별 결합특성으로 인하여 순수 어절 unigram모델에 비하여 자료 부족 문제를 효율적으로 해결하였고, 사전 크기를 크게 줄였으며, 띄어쓰기 성능을 대폭 향상 시켰다. 이와 더불어 어절을 형태소 범주 패턴에 따라 나누었을 때 형태소 범주가 한국어 어절 형성에 일정한 기여도를 가지도 참여함을 확인 할 수 있었다. 따라서, 본 논문에서 제안한 모델은 어절의 구성과 직접적인 관련이 있는 .
74%의 성능 향상을 보였다. 최종 성능은 Fw 기준 97.31%이며, 어절 unigram 만 사용한 모델에 비하여 6.33% 나은 성능을 보였다. 표 6에서 외부 3의 띄어쓰기 정확도가 현저하게 낮은 이유는 인터넷 상의 최신 용어나 압축된 표현이 많이 사용된 '100자평'이 포함되어 있기 때문⑸이다.

후속연구

그러함에도, 본 논문에서 제안하는 모델은 공백이 제거된 극단적인 형태의 문장뿐만 아니라 일반적인 문장에도 적용할 수 있으므로 그 결과가 일반적으로 사람들이 작성한 문장의 띄어쓰기 정확도보다는 높아야만 할 것이다. 하지만, 표 5에서 제시한 기존의 ETRI 품사 태그 부착 말뭉치와 21세기 세종 말뭉치는 코퍼스는 일반인들의 띄어쓰기 정확도를 살펴보는데 부적합하다고 판단된다.
본 연구의 선행 연구에서는 어절 unigram 모델에 음절 bigram올 적용함으로써 높은 성능 향상을 보였지만, 한국어의 교착어적인 특성과 신조어 생성 둥의 문제로 인하여 학습 말뭉치에 나타나지 않은 어절의 처리 문제, 즉 자료 부족 문제를 학습 말뭉치를 늘려서는(무한하게 늘일 수는 없다) 해결하기 어려웠다 또한, 어절 uni- gram은 음절 trigram보다 작은 크기의 메모리를 차지하지만, 여전히 많은 양의 메모리를 차지하고 있으므로, 이를 효과적으로 처리할 수 있는 방안이 필요하다.
2Mb 크기의 사전이 필요하다(자세한 사전 크기는 표 2 참조). 앞으로 PDA나 휴대전화 둥 자원이 한정된 시스템에도 장착될 수 있는 모델 개발이 요구되므로 앞서 기술한 데이타 부족문제와 함께 이러한 시스템에도 사용할 수 있도록 사전 메모리의 크기를 줄이는 방안이 마련되어야 한다.
즉, 같은 범주 패턴 내에 속하는 모든 형태소에는 동일한 가중치를 부여했기 때문에 본문의 그림 5(a), (b), (e)에서와 같이 범주 패턴 내에서 고빈도로 나타나는 형태소의 특성을 제대로 반영하지 못하여 에러평균을 높이는 현상을 가져왔다. 이런 형태소들과 같이 극도로 높은 빈도로 나타나는 형태소를 포함하는 어절은 이런 형태소를 별도의 범주로 학습하는 둥의 처리 방안을 연구해야 하겠다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템
A Stochastic Word-Spacing System Based on Word Category-Pattern 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 A Stochastic Word-Spacing System Based on Word Category-Pattern 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

정성원 (1) 권혁철 (42)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템
A Stochastic Word-Spacing System Based on Word Category-Pattern 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper