[논문]래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅

나승훈; 김창현; 김영길

문제 정의

본 논문에서는 어휘 사전은 규모화되어있으나 학습 데이터가 소규모인 경우, 형태소 분석의 정확도를 높이기 위해 학습 기반 구조적 분류 모델 (structured classification)을 적용하는 방법을 제안한다. 제안하는 방법은 래티스 기반의 구조화 분류 방법으로, 먼저 입력문으로부터 어휘 사전을 참조하여, 사전에 나타난 개별 형태소를 노드로 취하고 인접 형태소간에 에지를 구성하여, 입력문의 래티스 (lattice)를 구성한다.
본 논문은 래티스 기반의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 방법을 제안하였다. 실험 결과, ETRI 품사 부착 말뭉치에 대해, 제안 래티스 기반 방법은 기존의 linear-chain CRF기반 방법에 비해 우수한 성능을 보여주었다.

가설 설정

여기서, lopen, ropen의 자질 값의 예를 들기 위해, “갔”으로부터 “갔=>가았”의 음절 매핑테이블을 참조하여, “가/VV”, “았/EP”의 두 가지 형태소 노드가 만들어졌다고 가정하자.

제안 방법

한국어에서 래티스 구성은 다중 입력문 (multiple input sentences)으로부터 각 입력문의 부분음절열에 대해 사전 참조하여 래티스를 구성하는 방식과 동일하다. 다시 말해, 주어진 음절열에 대해, 입력문내 각 음절마다 음절 매핑 테이블을 참조하여 사전형으로 치환하여 새로운 입력문을 만들어 낸다. 예를 들어, “처리했다”의 경우, “했”을 사전형 “하았”으로 치환하여 “처리하았다”라는 새로운 입력문을 파생시키는 것이다.
제안하는 방법은 래티스 기반의 구조화 분류 방법으로, 먼저 입력문으로부터 어휘 사전을 참조하여, 사전에 나타난 개별 형태소를 노드로 취하고 인접 형태소간에 에지를 구성하여, 입력문의 래티스 (lattice)를 구성한다. 다음으로, 이렇게 얻어진 래티스상에서 가장 점수가 높은 최적의 경로를 찾아, 이 최적 경로 상에 있는 형태소열을 분석 결과로 제시한다. 경로의 점수는 구성하는 에지의 점수의 합으로 이루어지며, 각 에지의 점수는 에지의 자질 벡터와 자질 가중치 벡터의 내적으로 정의된다.
[12]에서는 복합형태소에 대한 기분석과 기능형태소에 대한 기분석의 두 가지 기분석 패턴을 사용하는데. 먼저, 복합형태소 전체에 대한 기분석을 적용하여 분해를 시도하고, 여기에 나타나지 않는 복합형태소에 대해서는 기능형태소에 대한 기분석에 참조하여 분해를 시도한다.
래티스 생성 단계는 어휘 사전에 등재된 형태소만을 대상으로 하기 때문에, 미등록어 문제를 해결하지 못한다. 미등록어 처리를 위해, 본 논문에서는 [11]의 linear-chain CRF를 입력문에 적용하여 얻어진 1-best 형태소 분석 결과를 어휘 사전에 추가하였다.
둘째, [2]에서는 사용되는 자질이 에지에 참여하는 두 노드로 국한된 first-order 방식만을 사용하고 있으나, 제안 방법은 참고하는 자질이 에지의 갯수가 2개인 second-order의 자질의 사용까지 포함한다. 셋째, [2]는 미등록어에 대한 문제를 남겨두었으나, 본 연구에서는 linear-chain기반 CRF를 이용하여 미등록어를 추가하는 방법도 함께 제시한다.
래티스를 구성할 때, 일본어나 중국어와 달리, 한국어에서는 활용/변이로 인해 표층형과 사전형이 달라지는 문제를 고려해야 한다. 이른바 표층형과 사전형 간의 불일치 문제를 해결하기 위해, 본 논문에서는 별도로 음절 매핑 테이블(syllable mapping table)을 참조하여 래티스를 구성한다¹⁾. 아래, 음절 매핑 테이블의 예들을 보여준다.
본 논문에서는 어휘 사전은 규모화되어있으나 학습 데이터가 소규모인 경우, 형태소 분석의 정확도를 높이기 위해 학습 기반 구조적 분류 모델 (structured classification)을 적용하는 방법을 제안한다. 제안하는 방법은 래티스 기반의 구조화 분류 방법으로, 먼저 입력문으로부터 어휘 사전을 참조하여, 사전에 나타난 개별 형태소를 노드로 취하고 인접 형태소간에 에지를 구성하여, 입력문의 래티스 (lattice)를 구성한다. 다음으로, 이렇게 얻어진 래티스상에서 가장 점수가 높은 최적의 경로를 찾아, 이 최적 경로 상에 있는 형태소열을 분석 결과로 제시한다.

대상 데이터

실험을 위해 ETRI품사 부착 대화체 말뭉치 약 10만 문장을 사용한다. 이중 90%를 학습용으로 나머지 10%는 테스트용으로 사용하였다.

이론/모형

• 베이스라인 시스템(CRF): [11, 25]의 linear-chain CRF에 기반한 방법을 확장한 것으로, [25]과 유사한 음절 태깅에 기반하여 형태소 분할과 태깅을 동시에 수행하는 결합 모델을 사용하였다.
결국 최종 래티스는 가능한 모든 변이 입력문을 모아서 N개의 다중 입력문을 구성한 후에 각각의 입력문에 대해서 래티스를 생성 한 후, 이렇게 얻어진 N개의 래티스를 병합하여 얻어진다. 다중 입력문의 수 N는 매핑 테이블을 참조하여 음절 변이가 일어나는 음절의 갯수에 따라 지수적으로 증가하는데(exponentially increasing), 이를 효율적으로 처리하기 위해 dynamic programming기법을 사용한다.
• 베이스라인 시스템(CRF): [11, 25]의 linear-chain CRF에 기반한 방법을 확장한 것으로, [25]과 유사한 음절 태깅에 기반하여 형태소 분할과 태깅을 동시에 수행하는 결합 모델을 사용하였다. 복합형태소를 단위 형태소로 분해하기 위해 [12]의 방법을 사용한다.[12]에서는 복합형태소에 대한 기분석과 기능형태소에 대한 기분석의 두 가지 기분석 패턴을 사용하는데.
자질 가중치 벡터 w를 학습하기 위해서, 본 논문은 [1]의 averaged perceptron을 사용한다. 그림 3은 자질가중치 벡터를 학습하기 위한 averaged perceptron알고리즘의 pseudo code을 보여준다.

성능/효과

ETRI 한국어 품사 부착 코퍼스상에서 실험 결과 제안 방법은 1차 linear-chain CRF기반 방법에 비해 높은 성능을 보여주었다.
첫째, [2]에서는 가질 가중치 학습 방법이 CRF로, 분류 모델(discriminative model)에 속하나, 제안 방법은 별도의 조건부 확률을 정의하지 않는 SVM과 같은 분류 함수(discrimiantive function)방법에 속한다. 둘째, [2]에서는 사용되는 자질이 에지에 참여하는 두 노드로 국한된 first-order 방식만을 사용하고 있으나, 제안 방법은 참고하는 자질이 에지의 갯수가 2개인 second-order의 자질의 사용까지 포함한다. 셋째, [2]는 미등록어에 대한 문제를 남겨두었으나, 본 연구에서는 linear-chain기반 CRF를 이용하여 미등록어를 추가하는 방법도 함께 제시한다.
표 1에 보다시피, 제안 래티스 기반 방법은 CRF기반 방법대비 세가지 지표에서 모두 높은 성능을 보여주었다. 또한, 1차 자질에 더해 2차 자질까지 확장할 때, 성능이 더욱 향상됨을 알 수 있다. 미등록어 자동 추출을 적용하여 어휘 사전을 확장한 경우, 최종 성능에서 증가가 있었으나 그 차이는 크지 않았다.
실험 결과, ETRI 품사 부착 말뭉치에 대해, 제안 래티스 기반 방법은 기존의 linear-chain CRF기반 방법에 비해 우수한 성능을 보여주었다. 물론, 본 실험에서 사용된 linear-chain CRF은 [11]의 특정 1차 자질 셋에 기반을둔 것이므로, 래티스 기반 방법이 모델적으로 (일반적으로) linear-chain CRF보다 우수하다고 결론을 이끌어낼 수는 없다. 더욱 객관적인 결론 도출을 위해서는 보다 다양한 자질 집합에서 엄밀한 실험을 수행하여야 할 것이다.
본 논문은 래티스 기반의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 방법을 제안하였다. 실험 결과, ETRI 품사 부착 말뭉치에 대해, 제안 래티스 기반 방법은 기존의 linear-chain CRF기반 방법에 비해 우수한 성능을 보여주었다. 물론, 본 실험에서 사용된 linear-chain CRF은 [11]의 특정 1차 자질 셋에 기반을둔 것이므로, 래티스 기반 방법이 모델적으로 (일반적으로) linear-chain CRF보다 우수하다고 결론을 이끌어낼 수는 없다.
그러나, 제안 방법과 기존 연구[2]와는 다음의 차이가 있다. 첫째, [2]에서는 가질 가중치 학습 방법이 CRF로, 분류 모델(discriminative model)에 속하나, 제안 방법은 별도의 조건부 확률을 정의하지 않는 SVM과 같은 분류 함수(discrimiantive function)방법에 속한다. 둘째, [2]에서는 사용되는 자질이 에지에 참여하는 두 노드로 국한된 first-order 방식만을 사용하고 있으나, 제안 방법은 참고하는 자질이 에지의 갯수가 2개인 second-order의 자질의 사용까지 포함한다.
F-measure 는 형태소 단위의 F-measure를, EA(eojeol accuracy)는 어절 정확률을, SA는 문장 정확률(sentence accuracy)을 가리킨다. 표 1에 보다시피, 제안 래티스 기반 방법은 CRF기반 방법대비 세가지 지표에서 모두 높은 성능을 보여주었다. 또한, 1차 자질에 더해 2차 자질까지 확장할 때, 성능이 더욱 향상됨을 알 수 있다.

후속연구

또한, 래티스 구성 시, 형태/음운론적 제약과 접속 정보 등을 사용하여 제안 방 방법에 대한 상세한 실험을 수행할 것이다. 그리고, 미등록어 자동 추출시 CRF결과의 1-best결과 외에 n-best결과를 함께 이용하는 방법도 향후 연구 주제로서 흥미로울 것이다. 마지막으로, 본 논문에서는 자질 가중치 벡터를 학습하기 위해 averaged perceptron을 이용하였으나, SVMStruct등의 다른 학습 방법도 활용하여 비교하는 것도 흥미로운 연구 주제가 될 것이다.
물론, 본 실험에서 사용된 linear-chain CRF은 [11]의 특정 1차 자질 셋에 기반을둔 것이므로, 래티스 기반 방법이 모델적으로 (일반적으로) linear-chain CRF보다 우수하다고 결론을 이끌어낼 수는 없다. 더욱 객관적인 결론 도출을 위해서는 보다 다양한 자질 집합에서 엄밀한 실험을 수행하여야 할 것이다.
향후, Sejong코퍼스에서 본 논문에서 제안 방법의 실험을 확장하여, 코퍼스가 대규모인 경우에 어떠한 차이를 보이는지 비교해 볼 계획이다. 또한, 래티스 구성 시, 형태/음운론적 제약과 접속 정보 등을 사용하여 제안 방 방법에 대한 상세한 실험을 수행할 것이다. 그리고, 미등록어 자동 추출시 CRF결과의 1-best결과 외에 n-best결과를 함께 이용하는 방법도 향후 연구 주제로서 흥미로울 것이다.
그리고, 미등록어 자동 추출시 CRF결과의 1-best결과 외에 n-best결과를 함께 이용하는 방법도 향후 연구 주제로서 흥미로울 것이다. 마지막으로, 본 논문에서는 자질 가중치 벡터를 학습하기 위해 averaged perceptron을 이용하였으나, SVMStruct등의 다른 학습 방법도 활용하여 비교하는 것도 흥미로운 연구 주제가 될 것이다.
향후, Sejong코퍼스에서 본 논문에서 제안 방법의 실험을 확장하여, 코퍼스가 대규모인 경우에 어떠한 차이를 보이는지 비교해 볼 계획이다. 또한, 래티스 구성 시, 형태/음운론적 제약과 접속 정보 등을 사용하여 제안 방 방법에 대한 상세한 실험을 수행할 것이다.
다시 말해, 복합 명사의 경우 형태소 단위가 코퍼스 구축자의 판단에 의존하는데, 분석 결과는 다른 관점에서 보면 올바르나, 정답은 한가지 경우만 기술되어 있어 나머지들이 모두 오류로 잡혀 정확률을 감소시킨 것이다. 향후, 복합명사 분해에 대해 보다 완화된 평가 방식을 고안하여, 더욱 정교하게 성능을 비교할 필요가 있다.

핵심어	질문	논문에서 추출한 답변
	형태소 분석을 위한 규칙기반 방법의 단점은?	한국어 형태소 분석을 위한 규칙기반 방법 [6,7,8,9,18,20,22,23,26]은 분석에 필요한 규칙을 수작업으로 구축하기 때문에, 개발 비용이 높고, 새로운 도메인에 대해 적응력이 떨어지는 단점을 지닌다. 통계기반 방법은 대규모 품사 부착 말뭉치로부터 형태소 분할 및 품사 태깅에 필요한 규칙 및 확률 모델을 자동 또는 반자동으로 학습하는 방식으로 [3,4,11,14,15,16,24,25,27], 수작업이 거의 필요 없고, 성능이 우수하며, 타 도메인으로의 적용성이 높고, 기존의 어휘 사전과의 하이브리드가 가능하다는 점 등의 장점으로 인해, 현대의 대부분의 품사 태깅 연구가 이에 기반을 두고 있다.
	응용 지향 형태소 분석기에서는 형태소 단위를 재정의하여 사용하기도 하는데, 이런 경우 어떤 현상이 발생하는가?	반면, 응용 지향 형태소 분석기에서는 일반적으로 통용되는 형태소 단위 (Sejong코퍼스에서 정의되는 단위)를 사용하지 않고 자체적으로 형태소 단위를 재정의하여 사용하기도 한다 [19]. 그런데, 이러한 경우 해당 단위의 품사 부착 말뭉치는 규모화가 이루어져 있지 않고 소규모에 그치고 있기도 하다. 예를 들면, ETRI의 자동번역을 위해 구축된 품사 태깅 말뭉치는 10만 문장 정도로, 이는 2011년에 배포된 세종 말뭉치의 80만 문장보다 현저히 적은 규모이다.
	통계기반 방법은 어떤 방식인가?	한국어 형태소 분석을 위한 규칙기반 방법 [6,7,8,9,18,20,22,23,26]은 분석에 필요한 규칙을 수작업으로 구축하기 때문에, 개발 비용이 높고, 새로운 도메인에 대해 적응력이 떨어지는 단점을 지닌다. 통계기반 방법은 대규모 품사 부착 말뭉치로부터 형태소 분할 및 품사 태깅에 필요한 규칙 및 확률 모델을 자동 또는 반자동으로 학습하는 방식으로 [3,4,11,14,15,16,24,25,27], 수작업이 거의 필요 없고, 성능이 우수하며, 타 도메인으로의 적용성이 높고, 기존의 어휘 사전과의 하이브리드가 가능하다는 점 등의 장점으로 인해, 현대의 대부분의 품사 태깅 연구가 이에 기반을 두고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅
Lattice-based discriminative approach for Korean morphological analysis and POS tagging 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 Lattice-based discriminative approach for Korean morphological analysis and POS tagging 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅
Lattice-based discriminative approach for Korean morphological analysis and POS tagging 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper