[국내논문]사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템 A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions원문보기
동형이의어는 문장에서 그와 함께 사용된 체언, 용언에 의해서 그의 의미를 확정지을 수 있다. 본 논문에서는 사전의 뜻풀이말에서 추출한 통계적 의미정보에 기반한 동형이의어 중의성 해결 시스템을 제안한다. 의미정보는 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 체언(보통 명사)와 용언(형용사, 동사)을 추출하여 구성된다. 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 두 가지로 분류하였다. 첫 번째 유형은 의미분별할 동형이의어와 표제어가 의미적으로 상-하의어 관계를 이루고 있는 경우로, 표제어의 뜻풀이말에서 동형이의어가 의미적으로 중심어이다. 이러한 상-하의어 관계는 의미계층 구조가 없는 경우에 활용할 수 있으며, 자료 부족 문제를 해결하기 위한 의미정보의 확장에 유용하다. 두 번째 유형은 동형이의어가 뜻풀이말의 중간에 사용된 경우이다. 본 논문에서 제안하는 동형이의어 중의성 해결 시스템은 체언과 용언 의미정보를 모두 고려한 모델로, 체언과 용언이 동형이의어 중의성 해결에 영향을 주는 정도(가중치)를 결정하기 위하여 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 코퍼스(사전 뜻풀이말)로 실험한 결과, 체언과 용언의 가중치가 0.9/0.1일 때 평균 96.11%의 중의성 해결 정확률이 가장 높았다. 또한 제안하는 동형이의어 중의성 해결 시스템의 일반성을 측정하기 위해, 학습되지 않은 외부 데이터 (국어 정보베이스 I과 ETRI코퍼스 1,796 문장)로 실험한 결과 평균 80.73%의 정화률을 보였다.
동형이의어는 문장에서 그와 함께 사용된 체언, 용언에 의해서 그의 의미를 확정지을 수 있다. 본 논문에서는 사전의 뜻풀이말에서 추출한 통계적 의미정보에 기반한 동형이의어 중의성 해결 시스템을 제안한다. 의미정보는 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 체언(보통 명사)와 용언(형용사, 동사)을 추출하여 구성된다. 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 두 가지로 분류하였다. 첫 번째 유형은 의미분별할 동형이의어와 표제어가 의미적으로 상-하의어 관계를 이루고 있는 경우로, 표제어의 뜻풀이말에서 동형이의어가 의미적으로 중심어이다. 이러한 상-하의어 관계는 의미계층 구조가 없는 경우에 활용할 수 있으며, 자료 부족 문제를 해결하기 위한 의미정보의 확장에 유용하다. 두 번째 유형은 동형이의어가 뜻풀이말의 중간에 사용된 경우이다. 본 논문에서 제안하는 동형이의어 중의성 해결 시스템은 체언과 용언 의미정보를 모두 고려한 모델로, 체언과 용언이 동형이의어 중의성 해결에 영향을 주는 정도(가중치)를 결정하기 위하여 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 코퍼스(사전 뜻풀이말)로 실험한 결과, 체언과 용언의 가중치가 0.9/0.1일 때 평균 96.11%의 중의성 해결 정확률이 가장 높았다. 또한 제안하는 동형이의어 중의성 해결 시스템의 일반성을 측정하기 위해, 학습되지 않은 외부 데이터 (국어 정보베이스 I과 ETRI 코퍼스 1,796 문장)로 실험한 결과 평균 80.73%의 정화률을 보였다.
A homonym could be disambiguated by anther words in the context such as nouns, predicates used with the homonym. This paper proposes a homonym disambiguation system based on statistical semantic information which is extracted from definitions in dictionary. The semantic information consists of nouns...
A homonym could be disambiguated by anther words in the context such as nouns, predicates used with the homonym. This paper proposes a homonym disambiguation system based on statistical semantic information which is extracted from definitions in dictionary. The semantic information consists of nouns and predicates that are used with the homonym in definitions. In order to extract accurate semantic information, definitions are used with the homonym in definitions. In order to extract accurate semantic information, definitions are classified into two types. One has hyponym-hypernym relation between title word and head word (homonym) in definition. The hyponym-hypernym relation is one level semantic hierarchy and can be extended to deeper levels in order to overcome the problem of data sparseness. The other is the case that the homonym is used in the middle of definition. The system considers nouns and predicates simultaneously to disambiguate the homonym. Nine homonyms are examined in order to determine the weight of nouns and predicates which affect accrutacy of homonym disambiguation. From experiments using training corpus(definitions in dictionary), the average accruracy of homonym disamguation is 96.11% when the weight is 0.9 and 0.1 for noun and verb respectively. And another experiment to meaure the generality of the homonym disambiguation system results in the 80.73% average accuracy to 1,796 untraining sentences from Korean Information Base I and ETRI corpus.
A homonym could be disambiguated by anther words in the context such as nouns, predicates used with the homonym. This paper proposes a homonym disambiguation system based on statistical semantic information which is extracted from definitions in dictionary. The semantic information consists of nouns and predicates that are used with the homonym in definitions. In order to extract accurate semantic information, definitions are used with the homonym in definitions. In order to extract accurate semantic information, definitions are classified into two types. One has hyponym-hypernym relation between title word and head word (homonym) in definition. The hyponym-hypernym relation is one level semantic hierarchy and can be extended to deeper levels in order to overcome the problem of data sparseness. The other is the case that the homonym is used in the middle of definition. The system considers nouns and predicates simultaneously to disambiguate the homonym. Nine homonyms are examined in order to determine the weight of nouns and predicates which affect accrutacy of homonym disambiguation. From experiments using training corpus(definitions in dictionary), the average accruracy of homonym disamguation is 96.11% when the weight is 0.9 and 0.1 for noun and verb respectively. And another experiment to meaure the generality of the homonym disambiguation system results in the 80.73% average accuracy to 1,796 untraining sentences from Korean Information Base I and ETRI corpus.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
! 값이 상대적으로 높은 단어(즉 의미분별에 결정적인 의미공기 관계에 있는 단어)뿐만 아니라, 비록尸(附;【, .) 값이 낮더라도 문장。게서 의미 공기 관계에 있는 단어가 많이 출현한 경우 의미 S와 유사하기 때문에 이를 고려하기 위해서이다.
본 논문에서는 동형이의어의 중의성을 해결하기 위하여 의미분별하고자 하는 동형이의어를 포함하고 있는 사전 뜻풀이말 전체에서 표제어와 동형이의어 간 의상-하의어 관계의 의미 계층 구조를 유추하고, 제한된 의미 계층 구조를 활용하여 체언과 용언의 공기 정보를 추출하여 의미정보로 구성하는 동형이의어 중의성 모델을 제안한다.
본 논문에서는 동형이의어의 증의성 해결을 위한 의미정보를 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 추출하고, 추출된 의미정보에서 명사와 동사를 모두 고려한 의미 중의성 해결 방법을 제안하였다,
가설 설정
(3) 철수는 배(신체부위)가 아프다고 했다.
의미 참조 네트워크를 구성할 때 의미 중의성을 해결하는데, 의미분별을 하고자 하는 단어가 포함된 문장의 단어들과 의미분별을 하고자 하는 단어의 뜻풀이말들에 포함된 단어들이 많이 공유하는 의미를 의미분별을 하고자 하는 문장의 의미로 선택한다. 의미 분별에 실패했을 때 한 단어의 여러 의미들 중에서 뜻풀이말이 긴 의미를 그 단어의 대표 의미로 가정한다. 세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다.
제안 방법
3개의 어 절로 구성되어 있다. 가중치 결정을 위한 실험은, 체언류와 용언류의 가중치를 Q1 씩 변화시키면서 그 정확률의 변화를 관찰하였다.<표 8>에 의하면 의미정보에서 용언만을 이용한 의미분별은 정확률이 평균 75.
다양한 의미정보를 추출하기 위하여 본 논문에서는 뜻풀이말을와 같이 두 가지 유형으로 분류하였다.
품사 부착 코피스로부터 구문 지식에 해당하는 선택 제약 지식을 추출하여 지식 획득의 병목 현상을 해소하며, 추출된 명사와 동사의 선택 제약지식을 순환적으로 학습하여 자료 부족 문제를 해소한다. 또한, 사전 분석을 통해 의미분별을 하고자 하는 단어의 의미 지시자와 단어의 분류 정보를 추출한다. 이와같이 추출된 정보에서 명사의 정보만을 가지고 동사의 의미 분별을 한 경우 48.
Luk(1995)은 자료 부족 문제를 최소화하기 위해서, LDOCE(Longman Dictionary of Contemporary English; Procter, 1978)의 통제 어휘 (controlled vocabulary) 와 Brown 코퍼스를 이용한 의미 중의성 해결 모델을 제안하였다[12]. 먼저 LDOCE의 통제 어휘3) 2, 000개 중 1, 792개를 정의 개념 (defining concept)으로추출하고, 이 정의 개념들에 대한 통계 의미정보를 Brown 코퍼스4)로부터 추출한다. 평균 3진 의미분별에서 77%의 정확률을 보였다.
본 논문에서 구축하는 의미정보는 동형이의어가 포함된 뜻풀이말의 표제어와, 해당 뜻풀이말에서 사용된 단어에서 체언(보통명사)과 용언(동사, 형용사)으로 구분된 단어와 각 단어의 출현 빈도로 구성한다.<표 4>는 의미정보의 구성 형태를 보이고 있는데 본 논문에서는 의미분별에 도움이 되지 않는 조사와 고유명사 등은 의미정보에 포함시키지 않았다.
본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다. 실험 결과 명사와 용언의 가중치가 0.
본 논문에서는 비학습 코퍼스(국어 정보 베이스(ver 1.0)와 ETRI 품사 부착 코퍼스)에서 9개의 동형이의어를 포함하고 있는 문장을 추출하여 3장에서 제시한 동형이의어 중의성 해결 모델의 일반성 및 강건성을 측정하였다. 비학습 코퍼스를 대상으로 한 실험에서 명사와 용언의 가중치는 0.
본 논문의 동형이의어 중의성 해결 모델에서는 교집합에 속하는 단어들의 의미분별력을 개별 의미정보 집합 내에서의 상대 빈도로 계산한다(3.2절 수식, (3), (4) 참조)
공기 관계를 구성한다. 본 연구에서는 사전 뜻풀이말에서 동형이의어와 함께 사용된 단어들간의 이와 같은 특성을 이용한 공기 정보를 의미정보로 이용한다. 다양한 의미정보를 추출하기 위하여 본 논문에서는 뜻풀이말을<표 2>와 같이 두 가지 유형으로 분류하였다.
의미 참조 네트워크로부터 의미 속성을 추출하고, 속성값은 Jaccard 측정식을 이용해 주어진 의미간의 유사도를 기반으로 한 퍼지 릴레이션을 이용하여 계산된다. 의미 속성과 속성값의 쌍을 속성 공간의한 벡터로 정의한 후, 유전자 알고리즘을 이용하여 최적의 클러스터링을 산출한다. 의미 참조 네트워크를 구성할 때 의미 중의성을 해결하는데, 의미분별을 하고자 하는 단어가 포함된 문장의 단어들과 의미분별을 하고자 하는 단어의 뜻풀이말들에 포함된 단어들이 많이 공유하는 의미를 의미분별을 하고자 하는 문장의 의미로 선택한다.
답이 알려진 데이타(labeled data)를 이용한 의미 중의성 해결은 데이타 구축에 사람의 많은 간섭이 필요함으로 많은 비용이 든다. 이를 최소화하기 위해 답이 알려져 있지 않은 데이타를 이용한 의미 중의성 해결 방법을 제시했다. 답이 알려진 데이타를 이용하여 의미 분별한 결과가 87%이고, 답이 알려져 있지 않은 데이타를 이용하여 의미 분별한 결과가 832%로 1.
구축하였다. 정확한 의미정보를 구축하기 위해서 뜻풀이말을 두 가지 유형으로 구분하였다. 첫 반째는 뜻풀이말의 해당 표제어와 동형이의어가 상-하의어의 관계를 가지는 유형이고, 두 번째는 동형이의어가 뜻풀이말의 중간에 나타나는 유형이다.
대상 데이터
5, 246문장의 사전 뚯풀이말을 학습 코퍼스로 하여 의미정보를 구축하였다. 정확한 의미정보를 구축하기 위해서 뜻풀이말을 두 가지 유형으로 구분하였다.
동형이의어의 의미분별에 적용될 명사와 용언의 가중치를 결정하기 위해 사용된 학습 코퍼스는의 9개의 동형이의어를 포함하고 있는 사전 뜻풀이말 5, 246 문장(1 차 유형의 뜻풀이말은 2, 065 문장)이다.
실험에 사용된 데이타는 총 1, 796 문장에 38, 266 어절로, 한 문장당 평균 어절 수는 21.3개이다. 동형이의어의 의미별 데이타 수와 실험 결과의 정확률은<표 11>과 같다.
데이터처리
로 고정하여 실험하였다. 3장과 4장의 실험에서 의미정보 추출을 위해서는 UNIX 환경에서 perl을 이용하였고, 의미 중의성 해결 실험은 Window NT 환경에서 Visual C十十를 이용하여 실험하였다.
이론/모형
먼저 의미 기술 문장에서 명사들의 의미 연관 관계를 나타내는 의미 참조 네트워크를 구축한다. 의미 참조 네트워크로부터 의미 속성을 추출하고, 속성값은 Jaccard 측정식을 이용해 주어진 의미간의 유사도를 기반으로 한 퍼지 릴레이션을 이용하여 계산된다. 의미 속성과 속성값의 쌍을 속성 공간의한 벡터로 정의한 후, 유전자 알고리즘을 이용하여 최적의 클러스터링을 산출한다.
성능/효과
평균 3진 의미분별에서 77%의 정확률을 보였다. 그리고 의미분별하고자 하는 단어가 포함된 문장을 구성하는 단어들의 목록을 무작위로 주고 사람이 의미분별을 하도록 실험한 결과 71%의 정확률을 보였다. 상기의 방법론은 통제 어휘 자체가 의미 중의성을 지닌 동형이의어가 많음으로 인해서 한계점이 있다.
44%였다. 그리고, 명사와 용언의 가중치를 0.9/0.1로 하였을 때 의미분별의 정확률이 96.11%로 가장 높았다. 이러한 결과는 다음의 이유에 의한 것으로 분석된다.
이를 최소화하기 위해 답이 알려져 있지 않은 데이타를 이용한 의미 중의성 해결 방법을 제시했다. 답이 알려진 데이타를 이용하여 의미 분별한 결과가 87%이고, 답이 알려져 있지 않은 데이타를 이용하여 의미 분별한 결과가 832%로 1.8%의 미세한 정확률 차를 보임으로써, 많은 비용이 필요한 데이타를 이용하지 않고도 의미 분별에 정확률을 향상시킬 수 있음을 알 수 있다.
둘째, 용언의 의미정보 집합간의 교집합이 체언 의미정보의 교■집합에 비해 상대적으로 크다. 이는 대부분의용언이 다의적으로 사용되어 많은 단어들과 의미 공기 관계를 이루고 있기 때문에, 용언만을 이용한 의미분별에서 교집합을 이루는 다른 의미의 집합에 간섭을 많이 받고, 결과적으로 의미분별의 정확률이 낮다고 분석할 수 있다.
3 어절로 구성). 따라서, 뜻풀이말의 구문구조 분석 오류로 인한 의미분별 실패보다는 의미정보 집합을 구성하는 단어들 자체가동형이의어임으로 인한 오분석과 빈도수 높은 소수의 단어에 의한 오분석이 의미분별 실패의 가장 큰 원인이었다.
또한 본 논문에서 제안하는 동형이의어 중의성 해결시스템의 일반성 및 강건성을 측정하기 위하여 국어정보 베이스 I과 ETRI 코퍼스에서 추출한 1, 796 문장의 비학습 코퍼스를 대상으로 한 실험에서 평균 80.73%의 정확률을 보였다.
3%의 정확률을 보인 반면, 명사와 동사의 분포를 순환적으로 학습하여 실험한 결과 61%의 정확률을 보여 자료부족 문제가 많이 완화됨을 알 수 있다. 또한, 사전의 의미 지시자와 단어 분류 정보를 포함한 실험에서 86.3%의 정확률로 코퍼스에서 추출한 명사와 동사의 분포 정보만을 이용한 경우보다 졍확률이 크게 향상됨으로써 사전에 포함된 의미 정보가 중요함을 확인할 수 있다.
본 논문에서 제안한 동형이의어 중의성 해결 시스템은 의미정보 내의 명사와 용언을 동시에 고려하여 명사만을 이용한 기존 연구의 자료 부족 문제를 크게 완화시켰으며, 비교적 작은 코퍼스인 사전만을 이용하여 제한된 의미 계층 구조를 유추하고 이용함으로써 대용량의 의미 계층 구조가 없는 경우에 적합한 모델이다. 본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다.
학습 코퍼스를 통해서 구축된 유사어 벡터의 자질값을 이용하여, 의미 중의성을 해결한다. 세 단어(배, 밤, 고개)를 대상으로 실험한 결과 의미 벡터만을 이용한 의미 분별에서보다, 의미 계층 구조의 유사어를 이용한 유사어 벡터의 자질값을 이용하였을 때 16%의 정확률향상을 보임으로써 의미 계층 구조가 의미 분별의 중요한 자원임을 확인할 수 있다. 그러나, 대용량의 우리말 의미 계층 구조를 구축하기 어려운 문제점이 있다.
의미 분별에 실패했을 때 한 단어의 여러 의미들 중에서 뜻풀이말이 긴 의미를 그 단어의 대표 의미로 가정한다. 세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다. 실험 대상 문장이 사전 뜻풀이말로 문장의 길이가 짧고, 제한된 단어(controlled vocabulary)> 사용했으므로 정확률에 크게 의미를 부여할 수는 없으나, 사전 뜻풀이말의 공기 관계를 이용하여 의미 분별을 향상시킬 수 있음을 확인할 수 있다.
본 논문에서는 명사와 용언이 의미분별에 기여하는 가중치를 결정하기 위해 의미정보 추출에 사용된 학습 코퍼스릍 이용하여 실험하였다. 실험 결과 명사와 용언의 가중치가 0.9/0.1일 때 실험 대상의 9개의 동형이의어의 평균 의미분별 정확률이 96.11%로 가장 높았다.
세 단어의 의미 분별 결과눈, 배, 차가 각각 81%, 74%, 83%의 정확률을 보였다. 실험 대상 문장이 사전 뜻풀이말로 문장의 길이가 짧고, 제한된 단어(controlled vocabulary)> 사용했으므로 정확률에 크게 의미를 부여할 수는 없으나, 사전 뜻풀이말의 공기 관계를 이용하여 의미 분별을 향상시킬 수 있음을 확인할 수 있다.
또한, 사전 분석을 통해 의미분별을 하고자 하는 단어의 의미 지시자와 단어의 분류 정보를 추출한다. 이와같이 추출된 정보에서 명사의 정보만을 가지고 동사의 의미 분별을 한 경우 48.3%의 정확률을 보인 반면, 명사와 동사의 분포를 순환적으로 학습하여 실험한 결과 61%의 정확률을 보여 자료부족 문제가 많이 완화됨을 알 수 있다. 또한, 사전의 의미 지시자와 단어 분류 정보를 포함한 실험에서 86.
첫찌], 용언의 의미정보 집합보다 체언의 의미정보 집합이 상대적으로 크다, 이는 용언의 개수가 명사에 비해 상대적으로 적기 때문에 자료 부족 현상이 체언보다는용언의 의미정보에서 더욱 심하다고 할 수 있다.
먼저 LDOCE의 통제 어휘3) 2, 000개 중 1, 792개를 정의 개념 (defining concept)으로추출하고, 이 정의 개념들에 대한 통계 의미정보를 Brown 코퍼스4)로부터 추출한다. 평균 3진 의미분별에서 77%의 정확률을 보였다. 그리고 의미분별하고자 하는 단어가 포함된 문장을 구성하는 단어들의 목록을 무작위로 주고 사람이 의미분별을 하도록 실험한 결과 71%의 정확률을 보였다.
후속연구
연구가 필요하다. 둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다. 셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다.
셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다. 마지막으로 사전에서의 전체 동형이의어를 대상으로 의미정보를 구축하고 이를 정보검색이나 기계번역시스템에서 이용하는 방법들도 연구되어야 할 것이다.
있다. 비학습 코퍼스의 문장당 평균 어절 수는 21.3 개로, 3장의 가중치를 결정하기 위한 뜻풀이말(문장당 평균 7.3 어절)과는 달리 중문 및 복문의 형태이다, 따라서 완전한 형태의 구문구조 분석 없이도 동형이의어를 중심으로 인접한 좌우 7개의 어절(뜻풀이말에서의 평균 어절수)에서 명사와 용언을 추출하여 의미 분별하는 방법들이 추후 연구되어야 할 것이다.
둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다. 셋째, 비학습 코퍼스를 매상으로, 한 실험에서 구문 구조를 고려하지 않아 발생한 오류 해결 방법들이 연구되어야 할 것이다. 마지막으로 사전에서의 전체 동형이의어를 대상으로 의미정보를 구축하고 이를 정보검색이나 기계번역시스템에서 이용하는 방법들도 연구되어야 할 것이다.
실험 과정에서 발생한 여러 유형의 오류를 해결하여 의미분별 정확률을 향상시키기 위해서는 앞으로 다음의 연구들이 더 진행되어야 할 것이다,
이는 의미 분별하고자 하는 동형이의어의 의미정보 집합 내에서의 의미 공기 관계를 가지는 단어들이 또, 다른 동형이의어일 경우 이를 분별하기 위해서는 두 개의 동형이의어 간의 복합적인 의미공기 유사도를 계산해야 하는 어려움이 따른다. 이에 대해서는 추후 연구가 더 진행되어야 할 것이다. 위<표 9>에서 오분석의 원인이 되는 중의성 단어들은 밑줄로 표시하였다.
첫째, 의미정보 구축 시의 자료부족 문제를 해결하기 위해 첫 번째 유형의 뜻풀이말을 다음 단계로 확장하는 방법의 연구가 필요하다. 둘째, 명사와 용언의 가중치를 결정하는 실험에서 발생한 두 개 이상의 동형이의어로 인한 복합적인 의미공기 유사도 측정 방법 및 소 수의고 빈도 단어에 의한 오분석 방지 방법들이 연구되어야 한다.
참고문헌 (18)
김영택, '자연언어처리', 교학사, 1994
박성배, 장병탁, 김영택, '의미 부착이 없는 데이타로 부터의 학습을 통한 의미 중의성 해소', 한국 정보과학회 '2000 봄 학술 발표 논문집 B', 제 27 권 1호, pp.330 - 332, 2000
박영자, '사전을 이용한 단어 의미 자동 클러스터링 : 유전자 알고리즘 접근법', Ph.D. these, 연세대학교, 1998
서희절, 이호, 백대호, 임해창, '유사어를 이용한 단어 의미 중의성 해결', 제 11 회 한글 및 한국어 정보처 리 학술대회 발표논문, pp.304 - 309, 1999
송도규, '인지언어학과 자연언어 지동처리', 홍롱과학출판사, 1997
송영빈, 최기선, '동사의 애매성 해소를 위한 시소러스 의 이용과 한계', 제 12 회 한글 및 한국어 정보처리 학술대회 발표논문, pp.255 - 261, 2000
조평옥, 옥철영, '의미속성에 기반한 한국어 명사 의미 체계', 정보과학회논문지(B), 26권, 4호, pp.584 -594, 1999
이창기, 이근배, '의미 애매성 해소를 이용한 WordNet 자동 매핑', 제 12 회 한글 및 한국어 정보 처리 학술대회 발표논문, pp.262 - 168, 2000
정보-전자 연구회 편, '자연언어처리업문', 대광서림, 1993
조정미, '코퍼스와 사전을 이용한 동사 의미분별', Ph.D. these, 한국과학기술원, 1998
Alpha k, Luk, 'Statistical Sense Disambiguation with Relatively Small Corpora Using Dictionary Definitions,' 33rd Annual Meeting of the ACL, pp.181-188, 1995
David Yarowsky, 'Word-Sense Disambiguation Using Statistical Models of Roget's Categories Trained on Large Corpora,' Preceedings of COLING 92, pp.454-460, 1992
James Allen, 'Natural Language Understanding,' The Benjamin / Cummings Publishing Company, Inc. 1994
Nancy Ide and Jean Veronis, 'Introduction to the Special Issue on Word Sense Disambiguation .The State of the Art,' Computational Linguistics, Vol 24, No. 1, pp1 - 40, 1998
※ AI-Helper는 부적절한 답변을 할 수 있습니다.