[논문]어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득

유원희; 서태원; 임희석

문제 정의

본 논문에서는 기존 전자사전의 수작업 구축에서 발생하는 문제점 극복과 해외모델에서 고려할 수 없는 한국어특성을 반영한 비지도 학습 통하여 자동으로 어휘지식을 획득할 수 있는 모델을 제안한다.
본 논문에서는 한국어 어휘자동획득 시스템에서 발생하는 형태소 사전을 바탕으로 형태소의 어휘지식 자동획득을 목표로 하는 모델을 제안하였다. 어휘목록을 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 어휘지식이 자동으로 획득될 수 있는 방법을 제안하였고, 제안한 방법에 따라 실험하였다.
심성어휘집 표상에 대한 연구는 결합 모델(full-list model), 분해모델(decomposition model), 하이브리드 모델(hybrid model)로 구분할 수 있다[10][11][12]. 본 연구팀은 하이브리드 모델을 기반으로 하는 한국어 어휘 자동획득 시스템을 구현 하였다. <그림 1>은 본 연구팀에서 개발한 한국어 자동 어휘 획득 시스템이다.

제안 방법

SOM의 파라미터로 경쟁 층의 그리드 맵을 3*3, 4*4, 5*5, 6*6, 7*7, 8*8형태로 변화시킨 실행 결과를 살펴보고 어휘목록에 최적화된 그리드 맵의 형태를 결정한다. 최대 반복횟수는 100000회로 하였고 학습 상수는 0.
유사도 계산의 척도는 유클리디안 거리(Euclidean distance)방법을 사용하였다. 가중치 벡터의 변화에 따라 머리형태소는 증가하는 클러스터 개수를 보였고 꼬리형태소는 15~16개의 클러스터 개수에서 수렴하는 형태로 클러스터링이 진행되었다. <그림 3>과 <그림 4>는 가중치 벡터 변화에 따른 머리형태소와 꼬리형태소의 클러스터 개수 변화를 보여준다.
각 형태소들의 특성을 양적으로 나타내기 위하여 로우코퍼스(raw-corpus)에서 각 형태소들과 가능한 모든 조합(every possible combination)중에 해당 형태소를 잘 표현해줄 수 있는 고빈도 50개의 조합을 추출하여 형태소 벡터를 구성할 수 있는 특질(feature)로 사용하였다. 머리형태소는 40615개의 특질집합을 만들 수 있었고, 꼬리 형태소는 4602개의 특질집합을 만들 수 있었다.
기 연구에서 본 연구팀은 인간의 언어처리에서 어휘부분에 해당하는 ‘심성어휘집(mental lexicon)의 표상 형태에 관한 연구 모델’을 바탕으로 어휘 자동획득 시스템을 구현하였다[4].
둘째, 한국어의 특성이 반영된 어휘사전을 구축하였다. 대표적인 외국어인 영어는 문장이 단어들로 구성이 되어있는데 반하여, 한국어는 머리형태소와 꼬리형태소로 문장이 구성된다.
벡터화를 위하여 각 형태소들을 표현할 수 있는 자질을 선정하고, 자질에 대한 빈도정보를 측정하고 측정된 빈도정보를 정규화한다. 또한 형태소빈도를 측정하고 정규화함으로써 각 형태소를 벡터화한다.
위와 같은 원리를 바탕으로 특정 문자열이 형태소가 될 수 있음을 검증하기 위하여 특정 문자열의 후행 음절의 엔트로피(sucessor entropy)와 선행 음절 엔트로피를 사용하였다. 문자열을 순방향의 음절별로 엔트로피를 측정(후행음절의 엔트로피)하여 엔트로피가 상승하는 지점을 형태소 후보로 등록하고 문자열을 역방향의 음절별로 엔트로피를 다시 측정(선행 음절 엔트로피)하여 형태소 후보를 등록한다. 양방향에서 발생한 형태소 후보가 전체 문자열과 동일하면 각각을 형태소로 보는 것이다.
입력데이터는 머리형태소집합(H)과 꼬리형태소집합(T)을 각각 하나의 샘플집합으로 사용한다. 벡터화를 위하여 각 형태소들을 표현할 수 있는 자질을 선정하고, 자질에 대한 빈도정보를 측정하고 측정된 빈도정보를 정규화한다. 또한 형태소빈도를 측정하고 정규화함으로써 각 형태소를 벡터화한다.
본 논문에서 제안하는 어휘지식 획득 모델은 어절 내 형태소 출현정보와 클러스터링 기법을 통하여 입력으로 사용된 어휘목록에서 어휘지식을 획득하는 모델이다. 어휘지식이란 지식으로 사용되어지는 문자로 표현 가능한 요소들로 많은 사실, 양식, 데이터 그리고 신뢰할만한 출처로부터 일반화되어진 정보들로 구성된다.
본 논문에서는 한국어 어휘자동획득 시스템에서 발생하는 형태소 사전을 바탕으로 형태소의 어휘지식 자동획득을 목표로 하는 모델을 제안하였다. 어휘목록을 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 어휘지식이 자동으로 획득될 수 있는 방법을 제안하였고, 제안한 방법에 따라 실험하였다. 실험은 3183개의 머리형태소와 157개의 꼬리형태소를 입력으로 사용하여 어휘의 범주정보 및 좌측통사정보와 우측통사정보를 획득하여 사전을 구성하였다.
위와 같은 원리를 바탕으로 특정 문자열이 형태소가 될 수 있음을 검증하기 위하여 특정 문자열의 후행 음절의 엔트로피(sucessor entropy)와 선행 음절 엔트로피를 사용하였다. 문자열을 순방향의 음절별로 엔트로피를 측정(후행음절의 엔트로피)하여 엔트로피가 상승하는 지점을 형태소 후보로 등록하고 문자열을 역방향의 음절별로 엔트로피를 다시 측정(선행 음절 엔트로피)하여 형태소 후보를 등록한다.
대표적인 외국어인 영어는 문장이 단어들로 구성이 되어있는데 반하여, 한국어는 머리형태소와 꼬리형태소로 문장이 구성된다. 이런 한국어의 특성상 영어와는 다른 형태의 어휘지식이 필요한데 본 논문에서는 머리형태소와 꼬리형태소의 범주정보와 좌ㆍ우측통사정보를 획득하여 한국어 분석에 필요한 어휘사전을 생성하였다.
클러스터링에 사용된 자기조직화지도 알고리즘은 그리드 맵을 3_*3, 4_*4, 5_*5, 6_*6, 7_*7, 8_*8로 설정하여 각 벡터 수마다 클러스터의 개수를 측정하였다. 최대 반복횟수는 100000회로 하였고 학습율은 0.
임의의 머리형태소는 다른 여러 꼬리형태소들과 함께 나타날 수 있고, 꼬리형태소 또한 다른 여러 머리형태소들과 함께 나타날 수 있다. 함께 나타날 수 있는 가능성이 있는 모든 형태소들을 본 논문에서는 자질로 선택하여 사용한다. 앞으로 머리형태소의 자질들은 머리형태소와 함께 나타날 수 있는 꼬리형태소의 집합(PT)으로 나타내고, 꼬리형태소의 자질들은 꼬리형태소와 함께 나타날 수 있는 머리형태소의 집합(PH)으로 나타낸다.

대상 데이터

본 논문에서는 기 연구에서 획득된 어휘목록을 실험에 사용하였다. 5987개의 머리형태소와 꼬리 형태소로 구성된 튜플 중에 유일하게(unique) 획득된 어휘목록인 머리형태소 3183개와 꼬리형태소 157개를 샘플 데이터로 사용하였다.
어휘지식이란 지식으로 사용되어지는 문자로 표현 가능한 요소들로 많은 사실, 양식, 데이터 그리고 신뢰할만한 출처로부터 일반화되어진 정보들로 구성된다. 본 논문에서 획득하는 어휘지식은 어휘범주정보, 좌측형태통사정보, 우측형태통사정보로 한정한다.
본 논문에서는 기 연구에서 획득된 어휘목록을 실험에 사용하였다. 5987개의 머리형태소와 꼬리 형태소로 구성된 튜플 중에 유일하게(unique) 획득된 어휘목록인 머리형태소 3183개와 꼬리형태소 157개를 샘플 데이터로 사용하였다.
어휘목록을 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 어휘지식이 자동으로 획득될 수 있는 방법을 제안하였고, 제안한 방법에 따라 실험하였다. 실험은 3183개의 머리형태소와 157개의 꼬리형태소를 입력으로 사용하여 어휘의 범주정보 및 좌측통사정보와 우측통사정보를 획득하여 사전을 구성하였다.
<그림 4>에서 꼬리형태소는 그리드 맵의 크기가 5*5부터 클러스터의 개수가 증가하지 않는다. 이것은 꼬리형태소는 25가지의 클러스터로 구성되는 것이 적당하다는 뜻이므로 SOM의 그리드 맵 크기를 5*5의 크기로 실험한 데이터를 사용한다. 머리형태소의 경우 그리드 맵에 상관없이 클러스터 개수가 계속 증가 하므로 꼬리형태소와 같은 그리드 개수를 선택하여 사용한다.

이론/모형

클러스터링에서 사용하는 입력 데이터가 벡터화 되면 기계학습 방식의 클러스터링기법을 사용한다. 본 논문에서 사용한 클러스터링 기법은 SOM(자기조직화지도)이다. SOM은 비지도 학습기법을 사용하는 클러스터링 기법으로 입력으로 주어진 데이터를 연관성 있는 데이터끼리 클러스터를 구성한다.
02로 하였다. 유사도 계산의 척도는 유클리디안 거리(Euclidean distance)방법을 사용하였다. 가중치 벡터의 변화에 따라 머리형태소는 증가하는 클러스터 개수를 보였고 꼬리형태소는 15~16개의 클러스터 개수에서 수렴하는 형태로 클러스터링이 진행되었다.
02를 사용한다. 유사도 계산의 척도는 유클리디안 거리(Euclidean distance)방법을 사용한다.
클러스터링에서 사용하는 입력 데이터가 벡터화 되면 기계학습 방식의 클러스터링기법을 사용한다. 본 논문에서 사용한 클러스터링 기법은 SOM(자기조직화지도)이다.

성능/효과

좌측과 우측 형태통사정보는 해당 어휘의 클러스터에서 나타날 수 있는 형태소들이 속해있는 클러스터를 선택하여 구성한다. 따라서 획득된 어휘지식은 해당어휘가 나타날 수 있는 범주정보와 해당어휘의 좌측에서 나타날 수 있는 형태소의 클러스터들, 그리고 해당어휘의 우측에서 나타날 수 있는 형태소의 클러스터들을 이진(binary)형태로 비교를 할 수 있다.
첫째, 어휘지식의 자동 획득을 통하여 전자사전의 자동구축의 가능성을 보였다. 실험에서 꼬리 형태소 부분은 어휘범주와 형태통사정보를 획득하는데 필요한 클러스터링 결과가 일정한 클러스터 개수에서 수렴하는 것이 관찰 되었다. 이것은 꼬리형태소가 일정한 도메인 크기를 가지고 있다는 것을 말해주고, 클러스터링 기법을 통하여 분류를 할 수 있다는 것을 말한다.
어절 획득 모듈과 형태소 획득 모듈의 통합으로 한국어 자동 어휘 획득 시스템을 구성할 수 있고 시스템의 결과물로 어절 사전과 형태소사전을 얻을 수 있다. 해당 어휘 획득 시스템은 가공되지 않은 코퍼스를 입력으로 받아 어절획득 모델에서 어절을 획득하고, 형태소 획득모델에서 형태소를 획득하여 데이터베이스화하는 시스템이라고 할 수 있다.
해당 어휘 획득 시스템은 가공되지 않은 코퍼스를 입력으로 받아 어절획득 모델에서 어절을 획득하고, 형태소 획득모델에서 형태소를 획득하여 데이터베이스화하는 시스템이라고 할 수 있다. 인간의 어휘획득 과정을 모사하여 시스템을 구현하였기 때문에 인간의 초기 어휘 획득에서 나타나는 어휘폭발 현상을 관찰할 수 있었고, 결과물로 학습된 어절목록과 어휘목록을 얻을 수 있었다.
첫째, 어휘지식의 자동 획득을 통하여 전자사전의 자동구축의 가능성을 보였다. 실험에서 꼬리 형태소 부분은 어휘범주와 형태통사정보를 획득하는데 필요한 클러스터링 결과가 일정한 클러스터 개수에서 수렴하는 것이 관찰 되었다.

후속연구

이것은 꼬리형태소가 일정한 도메인 크기를 가지고 있다는 것을 말해주고, 클러스터링 기법을 통하여 분류를 할 수 있다는 것을 말한다. 머리형태소가 일정한 클러스터 개수에서 수렴하지 않는 것은 차후 연구에서 고려할 것이다.
본 연구팀은 향후 어휘지식 자동획득 모델을 발전시켜 시스템화하고 어휘자동획득 시스템과 어휘지식 자동획득을 통합하여 한국어 어휘 분석을 할 수 있는 통합 시스템 구축연구와 다른 어휘지식 정보들을 획득하여 현 시스템을 발전시킬 수 있는 연구를 지속할 계획이다.

핵심어	질문	논문에서 추출한 답변
	클러스터링이란 무엇인가?	클러스터링은 벡터화한 입력데이터들을 비교하여 비슷한 특성을 보이는 입력데이터를 하나의 클러스터로 분류하는 작업이다. 어휘 수준에서 비슷한 특성을 보이는 어휘들은 문법적으로 사용되는 형태가 비슷하다.
	전자사전의 어휘 지식을 자동으로 획득하는 방법은 어떤 문제점을 해결할 수 있는가?	이러한 문제해결을 위하여 전자사전의 어휘 지식을 자동으로 획득하는 방법이 필요하다. 어휘 지식을 자동 획득 할 수 있다면 비용의 절감, 시간의 절감, 언어 변화 반영 등의 문제점을 해결할 수 있다.
	전자사전은 어떻게 구성되어 있는가?	전자사전(Machine-readable dictionary)은 자동 번역, 자동 정보 처리 등을 목적으로 컴퓨터에 기억하여 두는, 단어·용어·목차·색인 등의 어휘와 어휘 지식으로 구성되어 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득
The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득 The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

유원희 (5) 서태원 (18) 임희석 (82)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득
The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper