[논문]사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템

허정; 옥철영

문제 정의

! 값이 상대적으로 높은 단어(즉 의미분별에 결정적인 의미공기 관계에 있는 단어)뿐만 아니라, 비록尸(附;【, .) 값이 낮더라도 문장。게서 의미 공기 관계에 있는 단어가 많이 출현한 경우 의미 S와 유사하기 때문에 이를 고려하기 위해서이다.
본 논문에서는 동형이의어의 중의성을 해결하기 위하여 의미분별하고자 하는 동형이의어를 포함하고 있는 사전 뜻풀이말 전체에서 표제어와 동형이의어 간 의상-하의어 관계의 의미 계층 구조를 유추하고, 제한된 의미 계층 구조를 활용하여 체언과 용언의 공기 정보를 추출하여 의미정보로 구성하는 동형이의어 중의성 모델을 제안한다.
본 논문에서는 동형이의어의 증의성 해결을 위한 의미정보를 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 추출하고, 추출된 의미정보에서 명사와 동사를 모두 고려한 의미 중의성 해결 방법을 제안하였다,

가설 설정

(3) 철수는 배(신체부위)가 아프다고 했다.
의미 참조 네트워크를 구성할 때 의미 중의성을 해결하는데, 의미분별을 하고자 하는 단어가 포함된 문장의 단어들과 의미분별을 하고자 하는 단어의 뜻풀이말들에 포함된 단어들이 많이 공유하는 의미를 의미분별을 하고자 하는 문장의 의미로 선택한다. 의미 분별에 실패했을 때 한 단어의 여러 의미들 중에서 뜻풀이말이 긴 의미를 그 단어의 대표 의미로 가정한다. 세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다.

제안 방법

3개의 어 절로 구성되어 있다. 가중치 결정을 위한 실험은, 체언류와 용언류의 가중치를 Q1 씩 변화시키면서 그 정확률의 변화를 관찰하였다.<표 8>에 의하면 의미정보에서 용언만을 이용한 의미분별은 정확률이 평균 75.
다양한 의미정보를 추출하기 위하여 본 논문에서는 뜻풀이말을와 같이 두 가지 유형으로 분류하였다.
품사 부착 코피스로부터 구문 지식에 해당하는 선택 제약 지식을 추출하여 지식 획득의 병목 현상을 해소하며, 추출된 명사와 동사의 선택 제약지식을 순환적으로 학습하여 자료 부족 문제를 해소한다. 또한, 사전 분석을 통해 의미분별을 하고자 하는 단어의 의미 지시자와 단어의 분류 정보를 추출한다. 이와같이 추출된 정보에서 명사의 정보만을 가지고 동사의 의미 분별을 한 경우 48.
Luk(1995)은 자료 부족 문제를 최소화하기 위해서, LDOCE(Longman Dictionary of Contemporary English; Procter, 1978)의 통제 어휘 (controlled vocabulary) 와 Brown 코퍼스를 이용한 의미 중의성 해결 모델을 제안하였다[12]. 먼저 LDOCE의 통제 어휘3) 2, 000개 중 1, 792개를 정의 개념 (defining concept)으로추출하고, 이 정의 개념들에 대한 통계 의미정보를 Brown 코퍼스4)로부터 추출한다. 평균 3진 의미분별에서 77%의 정확률을 보였다.
본 논문에서 구축하는 의미정보는 동형이의어가 포함된 뜻풀이말의 표제어와, 해당 뜻풀이말에서 사용된 단어에서 체언(보통명사)과 용언(동사, 형용사)으로 구분된 단어와 각 단어의 출현 빈도로 구성한다.<표 4>는 의미정보의 구성 형태를 보이고 있는데 본 논문에서는 의미분별에 도움이 되지 않는 조사와 고유명사 등은 의미정보에 포함시키지 않았다.
본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다. 실험 결과 명사와 용언의 가중치가 0.
본 논문에서는 비학습 코퍼스(국어 정보 베이스(ver 1.0)와 ETRI 품사 부착 코퍼스)에서 9개의 동형이의어를 포함하고 있는 문장을 추출하여 3장에서 제시한 동형이의어 중의성 해결 모델의 일반성 및 강건성을 측정하였다. 비학습 코퍼스를 대상으로 한 실험에서 명사와 용언의 가중치는 0.
본 논문의 동형이의어 중의성 해결 모델에서는 교집합에 속하는 단어들의 의미분별력을 개별 의미정보 집합 내에서의 상대 빈도로 계산한다(3.2절 수식, (3), (4) 참조)
공기 관계를 구성한다. 본 연구에서는 사전 뜻풀이말에서 동형이의어와 함께 사용된 단어들간의 이와 같은 특성을 이용한 공기 정보를 의미정보로 이용한다. 다양한 의미정보를 추출하기 위하여 본 논문에서는 뜻풀이말을<표 2>와 같이 두 가지 유형으로 분류하였다.
의미 참조 네트워크로부터 의미 속성을 추출하고, 속성값은 Jaccard 측정식을 이용해 주어진 의미간의 유사도를 기반으로 한 퍼지 릴레이션을 이용하여 계산된다. 의미 속성과 속성값의 쌍을 속성 공간의한 벡터로 정의한 후, 유전자 알고리즘을 이용하여 최적의 클러스터링을 산출한다. 의미 참조 네트워크를 구성할 때 의미 중의성을 해결하는데, 의미분별을 하고자 하는 단어가 포함된 문장의 단어들과 의미분별을 하고자 하는 단어의 뜻풀이말들에 포함된 단어들이 많이 공유하는 의미를 의미분별을 하고자 하는 문장의 의미로 선택한다.
답이 알려진 데이타(labeled data)를 이용한 의미 중의성 해결은 데이타 구축에 사람의 많은 간섭이 필요함으로 많은 비용이 든다. 이를 최소화하기 위해 답이 알려져 있지 않은 데이타를 이용한 의미 중의성 해결 방법을 제시했다. 답이 알려진 데이타를 이용하여 의미 분별한 결과가 87%이고, 답이 알려져 있지 않은 데이타를 이용하여 의미 분별한 결과가 832%로 1.
구축하였다. 정확한 의미정보를 구축하기 위해서 뜻풀이말을 두 가지 유형으로 구분하였다. 첫 반째는 뜻풀이말의 해당 표제어와 동형이의어가 상-하의어의 관계를 가지는 유형이고, 두 번째는 동형이의어가 뜻풀이말의 중간에 나타나는 유형이다.

대상 데이터

5, 246문장의 사전 뚯풀이말을 학습 코퍼스로 하여 의미정보를 구축하였다. 정확한 의미정보를 구축하기 위해서 뜻풀이말을 두 가지 유형으로 구분하였다.
동형이의어의 의미분별에 적용될 명사와 용언의 가중치를 결정하기 위해 사용된 학습 코퍼스는의 9개의 동형이의어를 포함하고 있는 사전 뜻풀이말 5, 246 문장(1 차 유형의 뜻풀이말은 2, 065 문장)이다.
실험에 사용된 데이타는 총 1, 796 문장에 38, 266 어절로, 한 문장당 평균 어절 수는 21.3개이다. 동형이의어의 의미별 데이타 수와 실험 결과의 정확률은<표 11>과 같다.

데이터처리

로 고정하여 실험하였다. 3장과 4장의 실험에서 의미정보 추출을 위해서는 UNIX 환경에서 perl을 이용하였고, 의미 중의성 해결 실험은 Window NT 환경에서 Visual C十十를 이용하여 실험하였다.

이론/모형

먼저 의미 기술 문장에서 명사들의 의미 연관 관계를 나타내는 의미 참조 네트워크를 구축한다. 의미 참조 네트워크로부터 의미 속성을 추출하고, 속성값은 Jaccard 측정식을 이용해 주어진 의미간의 유사도를 기반으로 한 퍼지 릴레이션을 이용하여 계산된다. 의미 속성과 속성값의 쌍을 속성 공간의한 벡터로 정의한 후, 유전자 알고리즘을 이용하여 최적의 클러스터링을 산출한다.

성능/효과

평균 3진 의미분별에서 77%의 정확률을 보였다. 그리고 의미분별하고자 하는 단어가 포함된 문장을 구성하는 단어들의 목록을 무작위로 주고 사람이 의미분별을 하도록 실험한 결과 71%의 정확률을 보였다. 상기의 방법론은 통제 어휘 자체가 의미 중의성을 지닌 동형이의어가 많음으로 인해서 한계점이 있다.
44%였다. 그리고, 명사와 용언의 가중치를 0.9/0.1로 하였을 때 의미분별의 정확률이 96.11%로 가장 높았다. 이러한 결과는 다음의 이유에 의한 것으로 분석된다.
이를 최소화하기 위해 답이 알려져 있지 않은 데이타를 이용한 의미 중의성 해결 방법을 제시했다. 답이 알려진 데이타를 이용하여 의미 분별한 결과가 87%이고, 답이 알려져 있지 않은 데이타를 이용하여 의미 분별한 결과가 832%로 1.8%의 미세한 정확률 차를 보임으로써, 많은 비용이 필요한 데이타를 이용하지 않고도 의미 분별에 정확률을 향상시킬 수 있음을 알 수 있다.
둘째, 용언의 의미정보 집합간의 교집합이 체언 의미정보의 교■집합에 비해 상대적으로 크다. 이는 대부분의용언이 다의적으로 사용되어 많은 단어들과 의미 공기 관계를 이루고 있기 때문에, 용언만을 이용한 의미분별에서 교집합을 이루는 다른 의미의 집합에 간섭을 많이 받고, 결과적으로 의미분별의 정확률이 낮다고 분석할 수 있다.
3 어절로 구성). 따라서, 뜻풀이말의 구문구조 분석 오류로 인한 의미분별 실패보다는 의미정보 집합을 구성하는 단어들 자체가동형이의어임으로 인한 오분석과 빈도수 높은 소수의 단어에 의한 오분석이 의미분별 실패의 가장 큰 원인이었다.
또한 본 논문에서 제안하는 동형이의어 중의성 해결시스템의 일반성 및 강건성을 측정하기 위하여 국어정보 베이스 I과 ETRI 코퍼스에서 추출한 1, 796 문장의 비학습 코퍼스를 대상으로 한 실험에서 평균 80.73%의 정확률을 보였다.
3%의 정확률을 보인 반면, 명사와 동사의 분포를 순환적으로 학습하여 실험한 결과 61%의 정확률을 보여 자료부족 문제가 많이 완화됨을 알 수 있다. 또한, 사전의 의미 지시자와 단어 분류 정보를 포함한 실험에서 86.3%의 정확률로 코퍼스에서 추출한 명사와 동사의 분포 정보만을 이용한 경우보다 졍확률이 크게 향상됨으로써 사전에 포함된 의미 정보가 중요함을 확인할 수 있다.
본 논문에서 제안한 동형이의어 중의성 해결 시스템은 의미정보 내의 명사와 용언을 동시에 고려하여 명사만을 이용한 기존 연구의 자료 부족 문제를 크게 완화시켰으며, 비교적 작은 코퍼스인 사전만을 이용하여 제한된 의미 계층 구조를 유추하고 이용함으로써 대용량의 의미 계층 구조가 없는 경우에 적합한 모델이다. 본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다.
학습 코퍼스를 통해서 구축된 유사어 벡터의 자질값을 이용하여, 의미 중의성을 해결한다. 세 단어(배, 밤, 고개)를 대상으로 실험한 결과 의미 벡터만을 이용한 의미 분별에서보다, 의미 계층 구조의 유사어를 이용한 유사어 벡터의 자질값을 이용하였을 때 16%의 정확률향상을 보임으로써 의미 계층 구조가 의미 분별의 중요한 자원임을 확인할 수 있다. 그러나, 대용량의 우리말 의미 계층 구조를 구축하기 어려운 문제점이 있다.
의미 분별에 실패했을 때 한 단어의 여러 의미들 중에서 뜻풀이말이 긴 의미를 그 단어의 대표 의미로 가정한다. 세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다. 실험 대상 문장이 사전 뜻풀이말로 문장의 길이가 짧고, 제한된 단어(controlled vocabulary)> 사용했으므로 정확률에 크게 의미를 부여할 수는 없으나, 사전 뜻풀이말의 공기 관계를 이용하여 의미 분별을 향상시킬 수 있음을 확인할 수 있다.
본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다. 실험 결과 명사와 용언의 가중치가 0.9/0.1일 때 실험 대상의 9개의 동형이의어의 평균 의미분별 정확률이 96.11%로 가장 높았다.
세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다. 실험 대상 문장이 사전 뜻풀이말로 문장의 길이가 짧고, 제한된 단어(controlled vocabulary)> 사용했으므로 정확률에 크게 의미를 부여할 수는 없으나, 사전 뜻풀이말의 공기 관계를 이용하여 의미 분별을 향상시킬 수 있음을 확인할 수 있다.
또한, 사전 분석을 통해 의미분별을 하고자 하는 단어의 의미 지시자와 단어의 분류 정보를 추출한다. 이와같이 추출된 정보에서 명사의 정보만을 가지고 동사의 의미 분별을 한 경우 48.3%의 정확률을 보인 반면, 명사와 동사의 분포를 순환적으로 학습하여 실험한 결과 61%의 정확률을 보여 자료부족 문제가 많이 완화됨을 알 수 있다. 또한, 사전의 의미 지시자와 단어 분류 정보를 포함한 실험에서 86.
첫찌], 용언의 의미정보 집합보다 체언의 의미정보 집합이 상대적으로 크다, 이는 용언의 개수가 명사에 비해 상대적으로 적기 때문에 자료 부족 현상이 체언보다는용언의 의미정보에서 더욱 심하다고 할 수 있다.
먼저 LDOCE의 통제 어휘3) 2, 000개 중 1, 792개를 정의 개념 (defining concept)으로추출하고, 이 정의 개념들에 대한 통계 의미정보를 Brown 코퍼스4)로부터 추출한다. 평균 3진 의미분별에서 77%의 정확률을 보였다. 그리고 의미분별하고자 하는 단어가 포함된 문장을 구성하는 단어들의 목록을 무작위로 주고 사람이 의미분별을 하도록 실험한 결과 71%의 정확률을 보였다.

후속연구

연구가 필요하다. 둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다. 셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다.
셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다. 마지막으로 사전에서의 전체 동형이의어를 대상으로 의미정보를 구축하고 이를 정보검색이나 기계번역시스템에서 이용하는 방법들도 연구되어야 할 것이다.
있다. 비학습 코퍼스의 문장당 평균 어절 수는 21.3 개로, 3장의 가중치를 결정하기 위한 뜻풀이말(문장당 평균 7.3 어절)과는 달리 중문 및 복문의 형태이다, 따라서 완전한 형태의 구문구조 분석 없이도 동형이의어를 중심으로 인접한 좌우 7개의 어절(뜻풀이말에서의 평균 어절수)에서 명사와 용언을 추출하여 의미 분별하는 방법들이 추후 연구되어야 할 것이다.
둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다. 셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다. 마지막으로 사전에서의 전체 동형이의어를 대상으로 의미정보를 구축하고 이를 정보검색이나 기계번역시스템에서 이용하는 방법들도 연구되어야 할 것이다.
실험 과정에서 발생한 여러 유형의 오류를 해결하여 의미분별 정확률을 향상시키기 위해서는 앞으로 다음의 연구들이 더 진행되어야 할 것이다,
이는 의미 분별하고자 하는 동형이의어의 의미정보 집합 내에서의 의미 공기 관계를 가지는 단어들이 또, 다른 동형이의어일 경우 이를 분별하기 위해서는 두 개의 동형이의어 간의 복합적인 의미공기 유사도를 계산해야 하는 어려움이 따른다. 이에 대해서는 추후 연구가 더 진행되어야 할 것이다. 위<표 9>에서 오분석의 원인이 되는 중의성 단어들은 밑줄로 표시하였다.
첫째, 의미정보 구축 시의 자료부족 문제를 해결하기 위해 첫 번째 유형의 뜻풀이말을 다음 단계로 확장하는 방법의 연구가 필요하다. 둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템
A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템 A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

허정 (8) 옥철영 (42)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템
A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper