[논문]형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘

신준철; 옥철영

형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘
An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser 원문보기

신준철 (울산대학교) , 옥철영 (울산대학교)

한국어 자료를 자동으로 처리하기 위해서 다양한 형태소 분석기가 연구되었으나, 대부분의 형태소 분석기는 미리 등록된 명사가 아니면 제대로 분석하지 못하는 문제점을 가지고 있다. 본 논문은 기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법을 소개한다. 이 방법은 비록 학습 알고리즘을 포함하지 않지만 비교적 구현이 쉽고 속도가 빠르며 형태소 분석기의 정확률 향상에 도움이 되었음을 실험으로 검증하였다. 그리고 이 알고리즘을 응용하여 사람이 반자동으로 미등록 명사를 포함할 가능성이 높은 어절을 수집하는 방법을 제안한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

만약 분석 대상 어절의 모든 후보의 점수가 매우 낮다면 그 어절은 미등록 명사를 포함하고 있다고 추정할 수 있다. 따라서 특정 점수 이하로만 후보가 생성되었다는 조건을 통해서 미등록 명사 추정의 시도 여부를 판단한다.
결국 UTagger에서 미등록 추정 기능을 구현하기 위해서 가장 중요한 것은 어절 내에서 미등록 명사로 추정되는 좌측 부분에 대한 점수를 계산하는 것이다. 본 논문에서는 추가적인 학습과정 없이 간단하게 처리하는 방법을 소개한다. 조사부분의 길이와 미등록 명사 부분의 길이 정보만을 사용하여 미등록 명사 부분의 점수를 계산하는 것이다.
본 논문은 미등록 명사가 거의 발생하지 않는 환경에서 미등록 명사 추정 알고리즘을 적용하여 긍정적인 결과가 나오는 방법을 소개하였다. 또한 사람의 확인 작업을 함께하여 미등록 명사들만 수집하는 방법을 제안하였다.
기존에도 미등록 명사 문제를 해결하기 위한 다양한 연구가 있으나 미등록 추측을 위한 추가적인 학습 정보를 필요로 한다. 본 논문은 최근에 연구된 형태소 분석기의 내부 학습사전만을 이용하는 방법을 소개한다.

제안 방법

대체로 형태소 분석기들은 미리 형태소들을 등록하고 이 정보를 적극적으로 이용하여 형태소 분석을 한다. 이런 특징 때문에 만약에 등록되지 않은 형태소를 만나게되면 정확률이 급격히 낮아지게 된다.
본 논문은 미등록 명사가 거의 발생하지 않는 환경에서 미등록 명사 추정 알고리즘을 적용하여 긍정적인 결과가 나오는 방법을 소개하였다. 또한 사람의 확인 작업을 함께하여 미등록 명사들만 수집하는 방법을 제안하였다. 이런 방법들은 모두 기존 형태소 분석기에 대한 이해를 바탕으로 하고 있으며, 기존 형태소 분석기가 작동하기 위해 사용하는 컴퓨터 자원에 최소한의 변화만을 주도록 설계되었다.
2를 종합하여 전체 알고리즘을 순서도로 표현한 것이다. 먼저 미등록 명사 추정을 시도할 것인지를 판단하기 위해서 기존의 후보 점수들 중에서 가장 높은 점수를 확인한다. 이 때 상수 g도 a~f와 같은 방법으로 결정한다.
본 논문이 소개하는 미등록 명사 추정 알고리즘이 기존 형태소 분석기의 정확률을 향상시키는지 실험하기 위해서 기존 형태소 분석기의 정확률을 측정하는 방법을 그대로 사용하였다. UTagger는 세종말뭉치 990만 어절과 표준국어대사전을 학습하고 110만 어절을 실험하며, 이때 미등록 명사 추정 알고리즘을 적용하여 추가로 후보를 생성하였다.
본 논문이 소개하는 방법은 기분석 사전에서 발견한 빈도 정보와 길이 정보를 같이 사용하여 “미등록 명사 추정 후보”의 점수를 계산하는 것이다.
우선 suffix array 구조를 이용해 문서로부터 어절들의 최장 공통 문자열을 추출하여 로컬 사전을 생성하고, 이 사전은 기존 형태소 사전을 보조하여 미등록어 분석에 도움을 준다. 실험 결과 이 방법은 미등록어 발생시 추정에 의한 과분석을 방지하고 보다 정확한 분석이 가능하도록 하였다.
본 논문은 신준철(2012)의 기분석 부분 어절 사전을 활용한 분석기에 신준철(2014)의 부분어절 조건부 확률 기반의 태깅 모델을 조합한 UTagger를 사용한다[7, 8]. 이 형태소 분석기는 우선 1,100만 어절의 세종말뭉치를 학습하여 기분석 사전을 구축하고 어절을 분석할 때에 기분석 사전을 활용한다. 여기서 사용하는 기분석 사전은 말뭉치에 나타난 어절의 분석된 형태를 저장하고 있으며, 어절의 부분도 그에 해당하는 분석 정보와 함께 저장한다.

이론/모형

본 논문은 신준철(2012)의 기분석 부분 어절 사전을 활용한 분석기에 신준철(2014)의 부분어절 조건부 확률 기반의 태깅 모델을 조합한 UTagger를 사용한다[7, 8]. 이 형태소 분석기는 우선 1,100만 어절의 세종말뭉치를 학습하여 기분석 사전을 구축하고 어절을 분석할 때에 기분석 사전을 활용한다.

성능/효과

실험 결과는 <표 3>에 나타나있다. 기존 UTagger의 정확률에 비하여 약 0.01%의 정확률만 향상되었지만 미등록 명사 추정을 사용함으로 인해서 특별히 처리 시간이 눈에 띄게 변하지 않았고 메모리 사용량에 변화도 없었기 때문에 충분히 의미가 있는 것으로 판단된다. 특히 이 실험은 미등록 명사가 등록되지 않은 어절에 대해서도 적용되었기 때문에, 만약 미등록 명사가 없는 어절에서 미등록 명사를 추정하게 되면 오히려 정확률이 낮아질 수 있게 된다는 점을 고려하면 이 실험 결과는 더욱 의미가 있다고 판단된다.
통계 정보는 음절 바이그램, 어휘 바이그램, 품사 바이그램 등으로 구성된다. 실험 결과 미등록 명사 추정 모듈에 의해 전체 시스템의 성능이 향상되는 것을 확인하였다. 최맹식(2011)은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출하고 CRFs(Conditional Random Fields)를 이용하여 검출된 형태소 분리와 품사 태깅을 수행하는 방법을 제안하였다[1].
최맹식(2011)은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출하고 CRFs(Conditional Random Fields)를 이용하여 검출된 형태소 분리와 품사 태깅을 수행하는 방법을 제안하였다[1]. 제안된 모델을 실험하기 위해 세종 말뭉치 중 임의로(randome)하게 추출(sampling)한 139,757문장을 어절 단위로 실험하였고, 미등록 명사를 처리하지 않았을 때의 정확률 94.86%에서 0.35% 향상된 95.21%를 보였다. 사용된 형태소 분석기의 기본 정확률이 낮았으나 정확률 향상 정도가 높아 의미있는 연구이다.

후속연구

미등록 명사들은 복합명사로 잘못 분석되는 경우가 많은데 이 경우에 점수 계산은 명사에서 명사로의 품사 전이를 고려하게 된다. 따라서 명사-명사 전이 확률을 일시적으로 낮추는 방식으로 전체 점수를 낮추면 임계치 g를 변경하는것 보다 더 효과적으로 미등록 명사를 수집할 수 있을 것이다.
실험 환경에서 미등록 명사가 거의 존재하지 않았기 때문에 정확률에 변화가 미미했으나, 그 변화 정도가 지나치게 미미했다고 추측되며, 실제로 미등록 명사가 얼마나 존재하는지를 정확히 알 수 없었기 때문에 본 논문이 소개하는 방법의 우수성을 검증하기 위해서는 새로운 실험 방법이 필요할 것이다. 또한 본 논문에서 소개하는 방법은 매우 간단한 방법이며, 기존의 미등록 명사 추정 연구에서 제안하는 기계학습 방법들과 적절히 병합한다면 컴퓨터 자원의 사용을 크게 늘리지 않으면서도 전체 성능을 향상시킬 수 있을 것으로 예상된다.
실험 환경에서 미등록 명사가 거의 존재하지 않았기 때문에 정확률에 변화가 미미했으나, 그 변화 정도가 지나치게 미미했다고 추측되며, 실제로 미등록 명사가 얼마나 존재하는지를 정확히 알 수 없었기 때문에 본 논문이 소개하는 방법의 우수성을 검증하기 위해서는 새로운 실험 방법이 필요할 것이다. 또한 본 논문에서 소개하는 방법은 매우 간단한 방법이며, 기존의 미등록 명사 추정 연구에서 제안하는 기계학습 방법들과 적절히 병합한다면 컴퓨터 자원의 사용을 크게 늘리지 않으면서도 전체 성능을 향상시킬 수 있을 것으로 예상된다.
3장에서 소개한 방법에서 미등록 명사의 가능성을 확인하는 상수는 g이다. 이 임계치 g를 더 높이면 미등록 명사가 아닌 어절들도 더 많이 통과되겠지만 사람이 직접 태깅할 것을 고려한다면 훌륭한 반자동 수집기로 활용할 수 있을 것이다.

핵심어

질문

논문에서 추출한 답변

대부분의 형태소 분석기가 가지고 있는 문제점은?

한국어 자료를 자동으로 처리하기 위해서 다양한 형태소 분석기가 연구되었으나, 대부분의 형태소 분석기는 미리 등록된 명사가 아니면 제대로 분석하지 못하는 문제점을 가지고 있다. 본 논문은 기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법을 소개한다.

기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법의 장점은?

본 논문은 기존의 형태소 분석기를 수정하여 미등록 명사를 인식하도록 하는 방법을 소개한다. 이 방법은 비록 학습 알고리즘을 포함하지 않지만 비교적 구현이 쉽고 속도가 빠르며 형태소 분석기의 정확률 향상에 도움이 되었음을 실험으로 검증하였다. 그리고 이 알고리즘을 응용하여 사람이 반자동으로 미등록 명사를 포함할 가능성이 높은 어절을 수집하는 방법을 제안한다.

대체로 형태소 분석기들은 어떠한 과정을 통해 형태소 분석을 하는가?

대체로 형태소 분석기들은 미리 형태소들을 등록하고 이 정보를 적극적으로 이용하여 형태소 분석을 한다. 이런 특징 때문에 만약에 등록되지 않은 형태소를 만나게되면 정확률이 급격히 낮아지게 된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘
An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘 An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

형태소 분석기를 위한 효율적인 미등록 명사 추정 알고리즘
An Efficient Recognition Algorithm of the Korean Unknow-words for Morpheme Analyser 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper