[논문]좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석

강상우; 양재철; 서정연

doi:10.19066/cogsci.2013.24.2.001

문제 정의

본 논문에서는 규칙에 기반을 둔 모델과 통계에 기반을 둔 모델의 장점을 결합한 형태소 분석과 품사 부착 방법을 제안한다. 제안하는 방법은 기존의 규칙에 기반을 둔 형태소 분석 방법인 좌최장일치법을 개선하여 형태소 분석을 수행하고 통계적인 방법인 HMM을 축소 적용하여 형태소 품사 부착을 수행한다.
이러한 방법들은 자원 사용을 증가시키기 때문에 제한된 자원을 제공하는 환경에 적용하기 어렵다. 본 논문에서는 이러한 문제를 해결하기 위하여 부분 형태소 열 사전을 사용한다. 부분 형태소 열 사전은 동일한 형태소 분리가 일어나는 문자열에 최장일치법에 의해 선택된 한 개의 후보 이외에 정답으로 선택될 수 있는 추가적인 후보들을 제공한다.
이 방법은 음절 n-그램 사전을 사용하여 복잡한 확률계산 없이 단순 검색을 통해서 자동 띄어쓰기를 수행하였다. 본 논문에서는 제한된 자원을 갖는 기기에서 형태소 분석 및 품사 부착을 위한 새로운 방법을 제안한다.
본 논문에서는 최근 사용이 급속도로 늘고 있는 개인화 소형기기에 적합한 한국어 형태소 분석 및 품사 부착 방법을 제안하였다. 빠른 응답 속도를 위해 좌최장일치법을 응용하여 사용하였고 올바른 형태소 분석 결과가 긴 형태소보다 순위가 낮음으로써 정답으로 생성되지 못하는 단점을 보완하기 위해 부분 형태소 열 사전을 이용하였다.

가설 설정

그리고 형태소 w_i가 여러 개의 형태소로 분리되는 경우는 부분 형태소 열 사전에서 생성하는 후보 들 중에서 결과를 생성한다. 하지만 형태소 w_i가 하나의 품사로만 쓰일 경우는 개선된 좌최장일치법에 의한 형태소 분석 결과가 동일한 분리를 갖기 때문에 하나의 품사로만 쓰이는 형태소의 관측 확률은 최적의 형태소 분석 결과를 찾는데 영향을 미치지 않으며 본 연구에서는 c를 1로 정하였다. 그림 4의 예에서 “압류”는 일반명사만을 품사로 갖기 때문에 “압류/일반명사”의 관측 확률은 최적의 형태소 열을 찾는데 영향을 미치지 않는다.

제안 방법

제안하는 방법은 좌최장일치가 하나의 형태소 분석결과만을 제공하는 단점을 해결하면서 수행시간은 큰 차이를 보이지 않았다. 또한 형태소품사 부착을 위하여 Uni-gram 관측 확률을 이용한 방법과 축소된 HMM을 이용하는 방법을 제안하였다. 축소된 HMM은 기존의 HMM을 변형된 좌최장일치법에 맞게 축소시켜 적은 자원을 사용하면서 HMM의 장점을 유지하는 방법이다.
본 논문에서는 학습 및 실험을 위하여 세종 계획 말뭉치를 사용하였다[17]. 세종 계획 말뭉치는 표 2와 같이 구성되어 있다.
그림 2는 부분 형태소 열 사전을 생성하는 과정을 보여준다. 부분 형태소 열 사전을 사용하지 않은 좌최장일치법을 이용한 형태소 분석 결과와 학습 말뭉치를 비교하여 오류가 발생한 부분 형태소 열의 정답 부분 형태소 열을 수집하여 사전을 구성한다. 오류가 발생하는 부분 형태소 열을 추출하는 과정에서 발생 빈도를 측정하여 빈도수에 따라 사전의 크기를 정하였다.
어 형태소 분석 및 품사 부착 방법을 제안하였다. 빠른 응답 속도를 위해 좌최장일치법을 응용하여 사용하였고 올바른 형태소 분석 결과가 긴 형태소보다 순위가 낮음으로써 정답으로 생성되지 못하는 단점을 보완하기 위해 부분 형태소 열 사전을 이용하였다. 제안하는 방법은 좌최장일치가 하나의 형태소 분석결과만을 제공하는 단점을 해결하면서 수행시간은 큰 차이를 보이지 않았다.
세종 계획 말뭉치는 표 2와 같이 구성되어 있다. 실험에서는 세종 계획 말뭉치 전체를 사용하였고 학습과 검증을 위해 8:2(111,861문장, 1,612,680어절:　27,967문장, 403,180어절)의 비율로 나누어 사용하였다. 실험을 위하여 말뭉치로부터 형태소 접속 규칙 및 형태소 사전을 추출하여 사용하였으며 Uni-gram 관측 확률과 HMM을 위한 형태소 관측 확률 그리고 품사 전이 확률을 maximum likelihood estimator을 사용하여 계산하였다.
부분 형태소 열 사전을 사용하지 않은 좌최장일치법을 이용한 형태소 분석 결과와 학습 말뭉치를 비교하여 오류가 발생한 부분 형태소 열의 정답 부분 형태소 열을 수집하여 사전을 구성한다. 오류가 발생하는 부분 형태소 열을 추출하는 과정에서 발생 빈도를 측정하여 빈도수에 따라 사전의 크기를 정하였다. 그림 3은 부분 결과 사전에 저장할 발생 빈도수의 누적 양을 증가시켰을 때 시스템의 성능 변화를 보여주며 발생빈도수 누적 양의 상위 40%이상부터 성능 향상의 폭이 현격하게 줄어듦을 확인하였다.
김학수는 저 사양 단말기기에 적합한 패턴 매칭 기반의 자동 띄어쓰기 방법을 제안하였다[20]. 이 방법은 음절 n-그램 사전을 사용하여 복잡한 확률계산 없이 단순 검색을 통해서 자동 띄어쓰기를 수행하였다. 본 논문에서는 제한된 자원을 갖는 기기에서 형태소 분석 및 품사 부착을 위한 새로운 방법을 제안한다.
개선된 좌최장일치법은 기본적으로 1개의 분석 결과를 생성하므로 부분 형태소 열 사전에 1개 이상의 후보를 갖는 경우를 제외하면 동일한 형태소 분리를 갖는 결과를 생성한다. 이러한 특징을 이용하여 기존의 HMM을 축소하여 한국어 형태소 품사 부착을 수행한다. 제안한 축소된 HMM 기반 한국어 형태소 품사 부착을 위한 확률 모델은 식 1과 같다.
또한 접속 정보를 이용하지 않고 자동으로 학습한 통계정보만을 이용하여 형태소 분석 및 품사 부착 방법이 제안되었다[17]. 이재성은 형태소의 분리와 복원을 동시에 수행하는 모델과 품사 부착 모델을 사용하는 기존의 2단계 분석 모델을 형태소 분리, 형태소 복원, 품사 부착 3개로 나누어 복잡도를 줄이는 방법을 제안하였다[18].
형태소 분석과 품사 부착 방법을 제안한다. 제안하는 방법은 기존의 규칙에 기반을 둔 형태소 분석 방법인 좌최장일치법을 개선하여 형태소 분석을 수행하고 통계적인 방법인 HMM을 축소 적용하여 형태소 품사 부착을 수행한다. 제안된 방법은 기본적으로 규칙에 기반을 둔 형태소 분석을 사용하기 때문에 분석 속도가 빠르고, 축소된 HMM을 결합함으로써 품사 분석 성능의 저하를 최소화할 수 있다.
제안하는 축소된 HMM 방법은 개선된 좌최장일치법의 결과를 사용하여 형태소품사 부착을 수행한다. 개선된 좌최장일치법은 기본적으로 1개의 분석 결과를 생성하므로 부분 형태소 열 사전에 1개 이상의 후보를 갖는 경우를 제외하면 동일한 형태소 분리를 갖는 결과를 생성한다.
김재훈 외[10]은 한국어에 HMM을 적용하여 한국어의 특성에 의해 발생하는 입력 열이 여러 가지로 발생하는 문제를 해결하였고 신상현 외[16]은 통계와 규칙에 기반을 둔 2단계 형태소 품사 부착 방법을 제안하였다. 통계적인 방법으로 해결되지 않는 오류들을 자동 생성된 규칙들을 사용하여 해결하였다. 또한 접속 정보를 이용하지 않고 자동으로 학습한 통계정보만을 이용하여 형태소 분석 및 품사 부착 방법이 제안되었다[17].
통계에 기반을 둔 방법은 말뭉치로부터 추출한 통계 정보를 이용하는 방법이다. 학습 말뭉치에서 기계학습을 통하여 통계 정보를 추출하고, 이를 바탕으로 형태소 품사 부착을 수행한다. 최근에는 컴퓨터의 성능이 급속도로 증가하여, 대량의 말뭉치를 사용한 통계에 기반을 둔 접근법이 주를 이루게 되었다.

데이터처리

실험에서는 세종 계획 말뭉치 전체를 사용하였고 학습과 검증을 위해 8:2(111,861문장, 1,612,680어절:　27,967문장, 403,180어절)의 비율로 나누어 사용하였다. 실험을 위하여 말뭉치로부터 형태소 접속 규칙 및 형태소 사전을 추출하여 사용하였으며 Uni-gram 관측 확률과 HMM을 위한 형태소 관측 확률 그리고 품사 전이 확률을 maximum likelihood estimator을 사용하여 계산하였다.

이론/모형

시스템의 성능을 평가하기 위하여 재현율, 정확률 그리고 F_1^-평가치를 사용하였으며 표 3은 각 시스템의 성능을 보여준다. 재현율은 시스템이 제안한 형태소, 품사 쌍 중에서 정답 수를 실험 말뭉치에 나타난 형태소의 수로 나눈 것이다.

성능/효과

오류가 발생하는 부분 형태소 열을 추출하는 과정에서 발생 빈도를 측정하여 빈도수에 따라 사전의 크기를 정하였다. 그림 3은 부분 결과 사전에 저장할 발생 빈도수의 누적 양을 증가시켰을 때 시스템의 성능 변화를 보여주며 발생빈도수 누적 양의 상위 40%이상부터 성능 향상의 폭이 현격하게 줄어듦을 확인하였다. 부부 결과 사전은 발생 빈도수의 누적 양이 커질수록 용량이 기하급수적으로 커지기 때문에 사전에 포함될 부분 형태소 열은 40%이하로 제한하였다.
이 중 관측 확률은 형태소 사전에 포함된 형태소의 수만큼 확률 값을 저장하여야 하므로 많은 저장 공간을 필요로 한다. 따라서 제안하는 축소된 HMM은 개선된 좌최장일치법과 결합한 제안 모델은 동일한 형태소 분리를 갖는 경우를 고려하여 관측 확률의 저장 공간을 급격하게 줄일 수 있다. 식 1에서 개선된 좌최장일치법에 의하여 생성된 형태소 분석 결과는 동일한 형태소 분리를 갖기 때문에 입력 문장은 w로 경계가 고정된다.
제안하는 방법은 기존의 규칙에 기반을 둔 형태소 분석 방법인 좌최장일치법을 개선하여 형태소 분석을 수행하고 통계적인 방법인 HMM을 축소 적용하여 형태소 품사 부착을 수행한다. 제안된 방법은 기본적으로 규칙에 기반을 둔 형태소 분석을 사용하기 때문에 분석 속도가 빠르고, 축소된 HMM을 결합함으로써 품사 분석 성능의 저하를 최소화할 수 있다.
빠른 응답 속도를 위해 좌최장일치법을 응용하여 사용하였고 올바른 형태소 분석 결과가 긴 형태소보다 순위가 낮음으로써 정답으로 생성되지 못하는 단점을 보완하기 위해 부분 형태소 열 사전을 이용하였다. 제안하는 방법은 좌최장일치가 하나의 형태소 분석결과만을 제공하는 단점을 해결하면서 수행시간은 큰 차이를 보이지 않았다. 또한 형태소품사 부착을 위하여 Uni-gram 관측 확률을 이용한 방법과 축소된 HMM을 이용하는 방법을 제안하였다.
% 높은 성능을 보여주었고 기존 HMM을 이용한 시스템보다는 제안한 시스템이 약 3% 낮은 성능을 보였다. 제안한 시스템은 개선된 좌최장일치법에서 제시한 형태소 분석 결과를 사용하기 때문에 모든 가능한 형태소 분석 결과 중 최적의 형태소 품사 부착 결과를 선택하는 HMM을 이용한 방법보다 근소하게 낮은 성능을 보이지만 제안 시스템은 기존의 HMM을 이용한 방법보다 형태소 분석 및 품사 부착 수행 시간이 월등히 빠르고, 적은 저장 공간을 사용하는 장점이 있다(표 4).
축소된 HMM은 기존의 HMM을 변형된 좌최장일치법에 맞게 축소시켜 적은 자원을 사용하면서 HMM의 장점을 유지하는 방법이다. 축소된 HMM은 기존의 HMM을 이용한 시스템과 비교하여 약간의 성능 저하를 보이지만, HMM 통계사전의 크기를 기존 모델의 사전 대비 약 18%로 줄였으며 응답 시간은 약 13%만을 요구하였다.
표 3에서 제안한 시스템은 좌최장일치법을 사용한 시스템보다 F1-평가치에서 약 8% 높은 성능을 보여주었고 기존 HMM을 이용한 시스템보다는 제안한 시스템이 약 3% 낮은 성능을 보였다. 제안한 시스템은 개선된 좌최장일치법에서 제시한 형태소 분석 결과를 사용하기 때문에 모든 가능한 형태소 분석 결과 중 최적의 형태소 품사 부착 결과를 선택하는 HMM을 이용한 방법보다 근소하게 낮은 성능을 보이지만 제안 시스템은 기존의 HMM을 이용한 방법보다 형태소 분석 및 품사 부착 수행 시간이 월등히 빠르고, 적은 저장 공간을 사용하는 장점이 있다(표 4).

후속연구

향후 과제로는 형태소 분석 및 품사 부착 시스템의 자원 사용을 더 줄이기 위하여 형태소 사전의 크기를 줄이는 대신 형태소 사전에 등록되지 않은 미등록어에 대한 형태소 분석 및 품사 부착 방법에 대한 연구가 필요할 것으로 생각한다.

핵심어	질문	논문에서 추출한 답변
	형태소 분석이란 무엇인가?	자연어 처리의 여러 요소 기술 중 형태소 분석 및 품사 부착은 다양한 자연어 처리의 응용 분야에 중요한 기반 기술로 사용되기 때문에 제한된 자원을 사용하는 환경에서 효과적으로 형태소 분석 및 품사 부착을 수행하는 방법이 필요하다. 형태소 분석이란 주어진 입력문장 또는 어절을 최소 의미 단위인 형태소로 분리하는 작업이다. 이러한 형태소 분석 결과에서 가장 적합한 형태소의 조합과 품사 정보를 선택하는 작업을 품사 부착이라 한다.
	품사 부착은 어떤 작업을 말하는가?	형태소 분석이란 주어진 입력문장 또는 어절을 최소 의미 단위인 형태소로 분리하는 작업이다. 이러한 형태소 분석 결과에서 가장 적합한 형태소의 조합과 품사 정보를 선택하는 작업을 품사 부착이라 한다. 형태소 분석 및 품사 부착의 결과는 정보 검색, 정보 추출, 기계 번역 등 자연어 처리의 여러 응용 분야에서 중요하게 사용된다.
	수작업으로 획득한 규칙을 이용하여 형태소 분석의 단점은 무엇인가?	규칙에 기반을 둔 형태소 분석 연구들은 수작업으로 획득한 규칙을 이용하여 형태소 분석을 수행하였다[1-3]. 하지만 형태소 분석에 적용되는 모든 가능한 규칙을 획득하기 어렵고, 규칙 획득에 큰 비용이 드는 단점이 있다. 이러한 단점을 극복하기 위하여 최근 연구들은 통계에 기반을 둔 방법을 통하여 형태소 분석을 접근하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석
Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석 Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

강상우 (8) 서정연 (43)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석
Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper