[논문]한국어 오류 교정 시스템의 구현

최재혁; 김권양

문제 정의

본 논문에서는 우리가 사용하는 일반 문서에서 띄어쓰기가 잘못된 단어에 대한 교정과 오류 단어에 대한 교정을 행하기 위하여, 띄어쓰기 교정 및 오류 단어 교정 시스템의 개발 시 교정 정확률 및 처리 속도를 높이기 위해 본 시스템에서 구축한 각종 오류 교정 방안을 제시하였다. 특히 선택 오류를 처리할 수 있는 교정 방안을 제시하였다.
본 시스템은 기존의 맞춤법 검사기의 단점인 오류 수정 작업과 처리 시간을 감소시키면서, 높은 오류 교정의 정확률을 보장하는 자동 오류 교정 시스템의 개발을 위한 첫 단계로써 한국어 오류의 80% 이상을 차지하는 띄어쓰기 오류에 대한 자동 교정 시스템이다. 본 시스템은 오류 어절에 대해 한 개의 교정 결과만을 제시하고 사용자에게 페이지 단위로 교정 결과를 보여준 후 일괄 처리하였으며, 확인된 결과는 그 다음부터는 출력되지 않고 그 파일이 끝날 때까지 자동 교정되도록 하여 매번 오류 단어가 나타나는 것을 방지하였다.
본 연구는 위의 오류 사전과 '从한국어의 조사나 어미에 나타나는 글자의 빈도 수와 한국어 조사나 어미의 첫 글자에만 나타나는 글자 등을 이용하여 오류가 있는 어절에서 조사■/어미 분류를 가능하게 하였다.
본 연구는 정확한 띄어쓰기 교정을 하면서도 이러한 사전참조 횟수를 줄여 전체적인 처리 속도를 향상시키는 것을 가장 큰 목표로 두고 띄어쓰기 교정 시스템을 개발하였으며, 이를 위해 아래의 연구 결과를 적용한다.<표 1>은 띄어쓰기 교정 시스템에서 교정 가능한 띄어쓰기 오류 세부 유형을 제시한다.
특히 교정률은 60%대에 머물고 있으며, 오류단어를 오류가 아닌 단어로 인식되어 오류 교정을 행하지 않는 단어가 전체 오류단어의 약 20% 가까이 되고, 워드프로세서마다 복합명사 및 보조용언의 분리 방법에 일정한 규칙이 없어 교정의 신뢰성에 의문을 가지게 되어 실제적으로 워드프로세서의 사용자가 많이 이용하지 않고 있다[1]. 본 연구에서는 기존의 맞춤법 검사기의 단점인 오류 수정 작업의 불편함을 각각의 오류 어절에 대해 1개의 교정 단어를 페이지 단위로 제시함으로써 어느 정도 해소시키면서, 오류 수정을 위한 처리 시간의 감소 및 높은 오류 교정의 정확률을 보장하는 것을 주목표로 하였다. 본 연구에서는 자연어 처리 시 처리 속도에 결정적으로 영향을 미치는 사전 참조 횟수의 감소를 꾀하여 시스템의 처리 속도를 향상시키고자 한다.
본 연구에서는 기존의 맞춤법 검사기의 단점인 오류 수정 작업의 불편함을 각각의 오류 어절에 대해 1개의 교정 단어를 페이지 단위로 제시함으로써 어느 정도 해소시키면서, 오류 수정을 위한 처리 시간의 감소 및 높은 오류 교정의 정확률을 보장하는 것을 주목표로 하였다. 본 연구에서는 자연어 처리 시 처리 속도에 결정적으로 영향을 미치는 사전 참조 횟수의 감소를 꾀하여 시스템의 처리 속도를 향상시키고자 한다. 이를 위하여 한국어 형태소 분석시의 가장 사전 참조 횟수가 적은 양방향 최장일치법을 적용하몌2], 교정을 위해서도 정확성을 보장히면서 사전 참조 횟수를 감소시키는 여러 알고리즘(복합명사 분리 보조용언 분리, 오타교정 등)을 개발하여 적용하였다[3, 4].
예를 들어, '로써/ 로서', '(음으로/므로 등의 의존형태소는 그 선행요소가 문장내에서 어떤 의미로 사용되었는가에 따라 구별이 되며, '반드시/반듯이', '지그시/지긋이'와 같은 자립형태소는 그 문장의 다른 성분들과의 구문관계에 따라 하나를 선택해야 하는 것이다. 한국어는 조사나 어미와 같은 기능어가 발달되어 있으므로 의존형태소 오류가 자립형태소오류보다 더 빈번히 발생하기 때문에 본 논문에서는 철자 오류 중에서 의존형태소 오류의 교정 방법을 제시하고자 한다.
한국어의 조사 로서와, 로써', '음으로와 으므로'를 구분할 수 있는 방안을 마련하고자 한다. 이는 한국어를 사용하는 대부분의 사람이 잘 모르고 사용하는 것이 대부분으로 오류의 상당한 부분을 차지한다.

가설 설정

① 끊임없는 투쟁만이 있을 뿐이다.
너 갈 대로 가라.
② 유일하게 살아남은 사람은 그뿐이다. ③ 그녀를 연상할 만큼 닮았다.

제안 방법

(2)의 조사된 자료를 기초로 하여 한국어 단어 간의 관계 및 단어간의 거리 조사, 그리고 품사들 간의 띄어쓰기 오류의 상관 관계를 분석하여, 한국어 보조용언과 복합명사에 대한 띄어쓰기 교정 알고리즘을 개발 적용하였다. 개발된 알고리즘은 사전 참조 횟수를 감소와 보조용언 및 복합명사의 정확한 분리를 동시에 고려한 알고리즘이다 [3, 4].
모든 명사에 대한 의미자질을 부여하는 데에는 한계가 있다. 따라서 본 논문에서는 모든 명사에 의미 자질을 부여하지 않고 사람의 의미자질을 가지는 명사에 대한 정보를 사전에 두고 이를 이용한다. 방법 3은 국어사전에는 나타나지 않는어휘이나 일반적으로 많이 사용하는 형태를 묶은 것이다.
띄어쓰기 교정을 위해서는 문서의 모든 어절에 대해 한국어 형태소 분석을 반드시 행해야 하므로, 본 연구는 기존의 한국어 형태소 분석 기법 중 정확하면서도 가장 사전 참조 횟수가 적은 양방향 최장일치법을 적용하여 1차적으로 어절 단위의 형태소 분석시의 사전 참조 횟수를 줄여 전체 시스템의 처리 속도의 향상을 꾀하였다. 부수적으로 형태소 분석에 실패한 단어에 대해서도 양방향 최장일치법을 적용하였다.
본 논문에서 제안한 선택 오류의 교정 방법을 이용한 정확률 실험과 오류 교정 시스템의 정확률 실험, 2가지 실험에 대한 결과를 제시한다. 먼저 선택 오류 교정 방법에 대한 실험을 위해 97 년 한국과학기술원 (KAIST) 에서 만든 대한민국국어 정보베이스의 한국어 텍스트 코퍼스 20만 어절, 동아일보 사설 20만 어절과 기타(통신 게시판의 문서) 20만 어절 등 총 60만 어절을 대상으로 하였다.
따라서 이를 처리하기 위해 사전에 하'가 결합될 수 있는 명사에 대한 정보를 두어 이용한다. 본 시스템에서는 양방향 최장 일치법의 품사 분류 방법을 이용하여 이를 해결한다[2].
본 연구에서는 한국어 실 문서상에서 나타나는 맞춤법 오류 중에서 80% 이상을 차지하는 띄어쓰기/붙여쓰기 오류에 대한 교정 시스템을 먼저 개발하였고, 이 시스템을 기초로 하여 나머지 오류에 대한 교정 시스템을 개발하였다.
부수적으로 형태소 분석에 실패한 단어에 대해서도 양방향 최장일치법을 적용하였다. 즉, 형태소 분석에 실패한 단어가 띄어쓰기를 하지 않은 단어라면, 이 단어를 둘 이상의 단어로 분리하여 다시 분리된 단어들을 가지고 다시 형태소 분석을 행해야 하는데, 이때 보다 더 효율적인 분리 방법과 양방향 최장일치법을 적용하게 된다.
실세계에서 사용되는 조사/어미, 접미사/접두사, 의존명사/관형어를 모두 조사하고, 조사된 자료들을 가지고 품사와 띄어쓰기 오류와의 관계를 조사하였다. 조사 결과 모호성이 발생하는 의존명사와 어미(더】, 듯, 버}, 지, 걸), 의존명사와 조사 (뿐, 만큼, 대로, 만, 족족), 의존명사와 접미사(녘, 것, 나름, 채, 체, 적, 이래, 노릇, 무렵, 빨, 차, 통, 품), 동사와 접미사(되다)등에 대한 모호성 처리를 시스템에 포함시켰다.
오류 교정 시스템의 성능을 검중하기 위하여본 논문에서 구현한 오류 교정 시스템(HEC : Hangul Error Corrector), H사 워드프로세서, M 사 워드프로세서의 맞춤법 검人]./교정 시스템 등 3가지 시스템에 대하여 실험한 결과는<표 4>와같다.
오류 단어에 대한 말뭉치를 조사한 후, 이를 그룹별로 세밀히 분류하고 자주 사용되어지는 오류 단어에 대한 오류 교정 사전을 구죽하였다. 특히 조사/어미 오류 사전, 선어말어미 오류 사전, 비표준어 오류 사전, 외래어 표기 오류 사전 등을 따로 구축하여 오류 교정에 대한 효율성을 높였다.
위의 흐름도에서 입력 어절에 대해 양방향 최장 일치법을 이용한 형태소 분석을 먼저 행한 후, 형태소 분석에 실패하면 띄어쓰기 교정 루틴을 먼저 호출한다. 그 이유는 오류중 약 80%가 띄어쓰기 오류이므로, 이를 먼저 처리하는 것이 시스템의 효율성을 높일 수 있다.
구축하였다. 이때 자주 나타나는 띄어쓰기 오류는 사전으로 처리하는 것이 처리 속도를 향상시킬수 있으므로 교정 단어를 포함한 띄어쓰기 오류 교정 사전을 구축하였다. 예를 들어 어휘 사전에 "협동정신—3 1 0 0"가 있으면 '_3'은 3번째 음절을 띄어쓰기를 하라는 정보로써 '협동 정신으로 손쉽게 분리할 수 있다[3].
즉, 오타 교정을 위한 확률을 도입한 자소 대치 테이블 및 음절 대치 테이블을 구성하여 오타 발생 음절에 대해 음절과 자소를 대치하면서 오타교정을 행한다. 이때 확률적으로 오타일 가능성이 가장 높은 음절을 추측할 수 있는 방법을 개발하여 시스템에 적용하였다. 또한 자소 대치 테이블 이외에 한국어와 외국어를 구분할 수 있는 한국어 외국어 구분 테이블을 이용하여 외국어로 판명된 미등록 외국어에 대해서는 오류 교정을 행하지 않고 외국어로 표시하여 처리한다.
수 있다. 이러한 붙띄오류와 띄붙오류의 형태에 대한 말뭉치를 조사하여 오류 어절의 구성 형태를 정립하고, 조사된 각 오류 어절 형태의 빈도 수를 구하여 각 오류 형태에 대한 처리 순서를 정하였다. 이러한 처리 순서는 결과의 정확성과 시스템 처리 속도에 결정적으로 영향을 미친다[1〕.
이는 한국어를 사용하는 대부분의 사람이 잘 모르고 사용하는 것이 대부분으로 오류의 상당한 부분을 차지한다. 이를 구분하기 위하여 이들 단어에 대한 말뭉치를 조사한 후, 체언의 의미 정보를 이용하여 해결하였다. 이 중 '음으로'와 '으므로'의 구분은 만족할 만한 결과가 나오지 않아, 현재 연구 중에 있으며, 추후 시스템에 보완할 예정이다.
본 연구에서는 자연어 처리 시 처리 속도에 결정적으로 영향을 미치는 사전 참조 횟수의 감소를 꾀하여 시스템의 처리 속도를 향상시키고자 한다. 이를 위하여 한국어 형태소 분석시의 가장 사전 참조 횟수가 적은 양방향 최장일치법을 적용하몌2], 교정을 위해서도 정확성을 보장히면서 사전 참조 횟수를 감소시키는 여러 알고리즘(복합명사 분리 보조용언 분리, 오타교정 등)을 개발하여 적용하였다[3, 4]. 또한 교정의 정확률을 높이기 위하여 모호성이 발생되는 의존명人卜, 접미사와 조사 어미와의 구분 방안, 일반적으로 한국 사람이 많이 틀리는 단어의 교정, 특히 로써/로서, 데, 뿐, 만" 등의 구분 처리 방안을 제시하여 교정 시스템의 신뢰성을 높였다[5].
조사 결과 모호성이 발생하는 의존명사와 어미(더】, 듯, 버}, 지, 걸), 의존명사와 조사 (뿐, 만큼, 대로, 만, 족족), 의존명사와 접미사(녘, 것, 나름, 채, 체, 적, 이래, 노릇, 무렵, 빨, 차, 통, 품), 동사와 접미사(되다)등에 대한 모호성 처리를 시스템에 포함시켰다. 이들의 처리 방법은 3 장에서 기술한다.
구성한다. 즉, 오타 교정을 위한 확률을 도입한 자소 대치 테이블 및 음절 대치 테이블을 구성하여 오타 발생 음절에 대해 음절과 자소를 대치하면서 오타교정을 행한다. 이때 확률적으로 오타일 가능성이 가장 높은 음절을 추측할 수 있는 방법을 개발하여 시스템에 적용하였다.
특히 선택 오류를 처리할 수 있는 교정 방안을 제시하였다. 본 시스템의 처리 결과, 약 81% 정도의 선택 오류 단어에 대한 교정률과 47182 어절에서 57개의 비교정 오류 단어를 포함한 총 2131 개의 오류 어절 중에서 1932개의 오류 어절을 올바르게 교정하여 91%의 높은 교정 정확률을 보였다.
한국어 어휘 사전과 띄어쓰기 오류 사전을 함께 구축하였다. 이때 자주 나타나는 띄어쓰기 오류는 사전으로 처리하는 것이 처리 속도를 향상시킬수 있으므로 교정 단어를 포함한 띄어쓰기 오류 교정 사전을 구축하였다.

대상 데이터

먼저 선택 오류 교정 방법에 대한 실험을 위해 97 년 한국과학기술원 (KAIST) 에서 만든 대한민국국어 정보베이스의 한국어 텍스트 코퍼스 20만 어절, 동아일보 사설 20만 어절과 기타(통신 게시판의 문서) 20만 어절 등 총 60만 어절을 대상으로 하였다.<표 3>은 선택 오류 유형과 교정률을 나타낸 것이다.
본 논문에서 교정 방법을 찾기 위해 이용한 코퍼스는 97년 한국과학기술원(KAIST)에서 만든 대한민국 국어 정보베이스의 한국어 텍스트 코퍼스 5만 어절과 동아일보 사설 1만 6천 어절이다.

성능/효과

2. 반복되는 오류 발생의 예방 효과와 맞춤법학습의 교육적인 효과를 볼 수 있다.
3. 문자 인식이나 음성 인식 결과의 후처리에 매우 효과적이므로 한국어 웅용처리 시스템의 질을 한 차원 높일 수 있는 계기가 될 수 있다.
M 워드프로세서가 H 워드프로세서보다 교정률이 상대적으로 높게 나타난 이유는 교정 단어의 후보자 수가 상대적으로 많기 때문으로 분석된다. 그러나 교정의 신뢰도에 결정적으로 영향을 미치는 검색하지 못하는 오류 단어 (비교정 오류 단어)의 수가 가장 많이 나타나 시스템의 성능이 가장 떨어지는 것으로 분석되었다. H 워드프로세서는 보조용언은 무조건 붙여 쓰고 복합명사 분리를 하지 않았으며, 두개의 워드프로세서 모두 모호성 처리를 하지 않은 것으로 분석되었다.
예를 들어 '먹는가', '먹는가가', '먹는데있다'는 ''먹는가', '먹는가가', '먹는 데 있다'로 결과를 출력한다. 그러나, HEC에서 나타나는 오류의 대부분은 사전에 미등록된 단어에 대한 것과 복합명사 분리 시 대부분의 연구 및 시스템에서 처리하지 않는 3음절 복합명사에 대한 분리를 행함으로 해서 상대적으로 많은 분리 모호성이 발생하여 잘못 교정된 오류로 나타났다.
본 논문에서 구현한 HEC는 1개의 교정 결과만을 제시하는 교정 시스템임에도 불구하고 상대적으로 많은 교정 후보자를 출력하는 두 개의 워드프로세서(66%, 63%)에 비해 91%라는 높은 교정률을 나타내었으며, 검색되지 아니한 오류 단어의 수도 상대적으로 가장 적게 나타나 시스템의 신뢰도가 가장 높은 것으로 판명되었다. 또한 교정 결과가 2개 이상을 가지는 모호성 문제에 대해서도 90% 정도까지 해결하였다.
본 논문에서 구현한 오류 교정 시스템(HEC)은 기존의 맞춤법 검사기의 단점인 오류 수정 작업의 불편함과 처리 시간의 감소, 높은 교정률을 가진 최초의 한국어 오류 단어 자동 교정 시스템이라는데 가장 큰 의의를 가진다.
자동 교정 시스템이다. 본 시스템은 오류 어절에 대해 한 개의 교정 결과만을 제시하고 사용자에게 페이지 단위로 교정 결과를 보여준 후 일괄 처리하였으며, 확인된 결과는 그 다음부터는 출력되지 않고 그 파일이 끝날 때까지 자동 교정되도록 하여 매번 오류 단어가 나타나는 것을 방지하였다.
특히 선택 오류를 처리할 수 있는 교정 방안을 제시하였다. 본 시스템의 처리 결과, 약 81% 정도의 선택 오류 단어에 대한 교정률과 47182 어절에서 57개의 비교정 오류 단어를 포함한 총 2131 개의 오류 어절 중에서 1932개의 오류 어절을 올바르게 교정하여 91%의 높은 교정 정확률을 보였다.
위 실험 결과 평균 80%의 교정률을 보였으며, 추후 구문 분석 및 의미 분석 등의 방법을 보완하면 교정률이 상향될 것으로 생각된다.
즉, 본 논문에서 의존명사의 경우에는 앞말과 띄어야 하나 붙여 쓴 띄붙오류에 속하고, 어미의 일부, 접미사, 조사 등은 붙여 써야 할 것을 띄어 쓸 경우 붙띄오류라고 할 수 있다. 예를 들어 '데는 단독 혹은 조사나 어미와 함께 쓰여 한 어절을 이룰 때 의존명사로 사용되고, 앞말과 함께 어미-데의 일부로 사용되면 앞말에 붙여 쓴다.
구죽하였다. 특히 조사/어미 오류 사전, 선어말어미 오류 사전, 비표준어 오류 사전, 외래어 표기 오류 사전 등을 따로 구축하여 오류 교정에 대한 효율성을 높였다. 한국어는 80% 이상이 조사나 어미와 결합한 형태의 어절을 구성하고 있으므로 오류가 있는 어절에서 조사나 어미를 분리할 수 있다면, 교정의 효율성을 상당히 향상시킬 수 있다.

후속연구

불가능하다. 다만, 간단한 형태의 숙어 개념이 의미 오류나 단순한 구문 분석 정도로 교정이 가능한 의미 오류에 대해 본 연구에서는 이러한 형태에 속하는 말뭉치를 조사하여 처리할 예정이며, 본 연구에서 처리해야할 주된 오류 대상이 맞춤법 오류와 기타 오류이다.
앞으로 오류 교정 시스템의 교정률을 높이기 위해 일반 사용자가 가장 많은 오류를 범하는 선택 오류 단어에 대한 보완과 미등록어 추정에 대한 연구가 이루어지면 교정률의 향상을 꾀할 수 있으며, 오류 어절 사전의 보완 등이 이루어지면 상용화도 가능할 것이다.
이를 구분하기 위하여 이들 단어에 대한 말뭉치를 조사한 후, 체언의 의미 정보를 이용하여 해결하였다. 이 중 '음으로'와 '으므로'의 구분은 만족할 만한 결과가 나오지 않아, 현재 연구 중에 있으며, 추후 시스템에 보완할 예정이다. 자세한 내용은 3장에서 기술한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 오류 교정 시스템의 구현
Implementation of Korean Error Correction System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 오류 교정 시스템의 구현 Implementation of Korean Error Correction System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

최재혁 (10) 김권양 (14)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 오류 교정 시스템의 구현
Implementation of Korean Error Correction System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper