이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다.
이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다.
In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on...
In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.
In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on using some kinds of features. Dictionary definition describes the meaning of an entry in detail, but words in the dictionary definition are implicative or abstractive, and then its length is not long. The word clustering using only features extracted from the dictionary definition results in a lots of small-size clusters. In order to make large-size clusters and improve the performance, we need to transform the features into more general words with keeping the original meaning of the dictionary definition as intact as possible. In this paper, we propose two methods for extending the dictionary definition using ontology. One is to extend the dictionary definition to parent words on the ontology and the other is to extend the dictionary definition to some words in fixed depth from the root of the ontology. Through our experiments, we have observed that the proposed systems outperform that without extending features, and the latter's extending method overtakes the former's extending method in performance. We have also observed that verbs are very useful in extending features in the case of word clustering.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 특징은 뜻풀이말을 이용한 단어 군집화 결과가 다수의 작은 군집으로 나타난다. 이 논문에서는 다수의 작은 군집을 양질의 큰 군집으로 만들기 위하여 사전의 뜻 풀이말로 사용된 단어(혹은 자질)를 온톨로지 상에서 한 단계 위의 단어로 확장하거나 최상위 개념에서 특정한 높이에 있는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다.
이 논문에서는 외부 평가 CRorzd Statistic, Jaaxird Coefficient, Folkes and Mallows Index, 와 상대 평가Indices, Davies-Bouldin Index)를 이용하여 입력 자질에 따른 단어 군집화 성능을 평가할 것이다.
이 논문은 사전의 뜻 풀이말을 이용한 단어 군집화의 성능향상에 관련된다. 일반적으로 사전의 뜻 풀이말은 함축적이고 추상적인 말로 표제어를 설명한다.
가설 설정
사전 뜻 풀이말의 중첩된 정도를 이용하여 단어의 모호성을 제거하는 연구가 있어 왔다[9, 13], 이 연구에서는 뜻 풀이말에 같은 말이 나타나면 서로 연관이 있는 단어로 가정한다. 그러나 이 연구에서는 사전 뜻 풀이말이 작아서 서로 겹치지 않는 것이 문제가 된다.
사전의 뜻 풀이말에서 계층 정보를 추출하여 어휘 계층망을 구축하려는 연구가 있어 왔다[18]. 이 연구에서는 사전의 뜻풀이말의 마지막 풀이말이 계층 정보를 포함한다고 가정하고 이를 단어의 의미 계층 형성에 이용하였다.
제안 방법
이 논문에서는 단어 군집 평가의 객관성을 위하여 결과 군집의 개수를 19개로 통일한다. 그리고 최종 결과 군집을 외부 평가와 상대 평가 방법으로 자질 확장 방법에 따른 성능을 비교하고 분석한다. 또한 2.
이러한 특징은 뜻풀이말을 이용한 단어 군집화 결과가 다수의 작은 군집으로 나타난다. 다수의 작은 군집을 양질의 큰 군집으로 만들기 위하여 뜻 풀이말에 추상적인 말이 쓰인다는 특성을 자질확장에 이용하였다. 여기서 추상적인 말은 온톨로지 상에서 상위 단어에 해당하는 단어로 이 논문에서는 뜻 풀이말의 추상적인 자질을 한 단계 위의 상위 단어로 확장하거나 온톨로지 상에서 어떤 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안하였다.
그리고 최종 결과 군집을 외부 평가와 상대 평가 방법으로 자질 확장 방법에 따른 성능을 비교하고 분석한다. 또한 2.3절에서 언급했듯이 객관적인 평가를 위하여 외부평가와 상대 평가를 이용한다. 외부 평가 방법으로는 RandStatistic, Jaccard Coefficient, Folkes and Mallows Index, F-measure를 사용할 것이고, 상대 평가 방법으로는 Dunn Indix와 Davies-Bouldin Index를 사용할 것이다.
사용하였다. 또한 고정높이는 조정이 가능하나, 이 논문에서는 고정높이를 3으로 고정하여 모든 실험을 수행하였다. 6개의 온톨로지 군집에서 모두 210개의 단어를 추출한 뒤, 군집의 개수를 지정하지 않았을 때, 자질의 확장 방법에 따라 군집의 개수가 <표 6>과 같다.
실험은 군집화 시스템의 입력 단어의 자질을 각각 뜻 풀이말, 뜻 풀이말의 상위 단어 치환 및 추가, 고정 높이 단어 치환 및 추가 등 모두 5가지 방법으로 자질을 확장하고 각 방법에 대해서 단어 군집화를 수행했을 때의 성능을 비교하고 분석한다.
다수의 작은 군집을 양질의 큰 군집으로 만들기 위하여 뜻 풀이말에 추상적인 말이 쓰인다는 특성을 자질확장에 이용하였다. 여기서 추상적인 말은 온톨로지 상에서 상위 단어에 해당하는 단어로 이 논문에서는 뜻 풀이말의 추상적인 자질을 한 단계 위의 상위 단어로 확장하거나 온톨로지 상에서 어떤 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안하였다. 실험 결과, 단어를 군집화할 때 단어의 자질로 뜻 풀이말을 사용한 방법보다 뜻 풀이말에 온톨로지 상의 상위 단어로 추가하는 방법이 50%의 성능 향상을 보였고 고정 높이 단어로 치환하는 방법이 59.
이 논문에서는 사전의 뜻 풀이말이 단어를 함축적으로 가장 잘 표현한다는 사실을 이용하여 사전의 뜻 풀이말을 이용한 단어 군집화 시스템을 설계하고 구현하였다. 그러나 사전의 뜻 풀이말 자체는 매우 함축적으로 단어를 표현하기 때문에 자질이 매우 작은 특징이 있다.
이 논문에서는 자질을 확장하기 위해서 자질 집합에 속한 단어를 다른 단어로 치환하는 방법과 기존의 자질에 새로운 단어를 추가하는 방법을 사용하며, UWIN 상에서 상위 단어 (parent word)로 확장하는 방법과 최상위 개념에서 고정 높이에 해당하는 단어로 확장하는 방법으로 구분한다.
1 에서 추출된 단어를 군집화하기 위해서는 먼저 각 단어의 자질을 추출하여야 한다. 이 논문은 2.1 절에서 언급했듯이 사전의 뜻 풀이말을 이용하여 자질을 추출하며 각 단어(표제어)의 뜻 풀이말로부터 명사와 동사를 추출하여 자질로 이용한다. 예를 들어 군집 대상 단어 '갈아지'의 경우 전자사전의 뜻 풀이말은 <표 3>과 같다.
이 연구에서는 뜻 풀이말 크기 문제를 해결하기 위해 울산대학교의 UWINE16, 1기의 단어 계층적 구조를 이용하였다. 사전의 뜻 풀이말에서 계층 정보를 추출하여 어휘 계층망을 구축하려는 연구가 있어 왔다[18].
단어의 뜻 풀이말을 자질로 이용하는 방법은 “유사한 단어는 비슷한 뜻 풀이말을 가진다”라는 가정에 근거한다. 이 연구에서는 사전의 뜻 풀이말과 온톨로지에서 표제어의 위치 정보를 이용하여 단어 군집을 형성하고 이를 바탕으로 단어의 모호성을 해소하고 정보 검색에 적용했다[9].
이러한 문제를 해결하려는 연구가 있었다[14]. 이 연구에서는 사전의 뜻 풀이말을 대량의 말뭉치에서 추출한 언어정보로 확장하여 뜻 풀이말의 크기를 확장하였다. 그러나 이 방법은 말뭉치에 따라 빈번히 사용되는 단어가 다르기 때문에 성능이 다르고 상대적으로 사용 빈도가 낮은 단어에 대해서는 자질 확장이 어려운 단점이 있다.
있어야 한다. 이를 위해서 이 논문에서는 온톨로지 UWIN을 이용하여 정답 군집을 구축하고 정답 군집에 속한 일부의 단어를 실험 대상 단어로 추출한다. 이 논문은 UWIN 상에서 '배(ship)', '풀', '나무', '꽃', '포유류', '건물'의 6개 단어를 선택하여 그들 단어에 속한 하위 단어 210개를 단어 군집화 대상 단어로 추출한다.
대상 데이터
이를 위해서 이 논문에서는 온톨로지 UWIN을 이용하여 정답 군집을 구축하고 정답 군집에 속한 일부의 단어를 실험 대상 단어로 추출한다. 이 논문은 UWIN 상에서 '배(ship)', '풀', '나무', '꽃', '포유류', '건물'의 6개 단어를 선택하여 그들 단어에 속한 하위 단어 210개를 단어 군집화 대상 단어로 추출한다.
이론/모형
3절에서 언급했듯이 객관적인 평가를 위하여 외부평가와 상대 평가를 이용한다. 외부 평가 방법으로는 RandStatistic, Jaccard Coefficient, Folkes and Mallows Index, F-measure를 사용할 것이고, 상대 평가 방법으로는 Dunn Indix와 Davies-Bouldin Index를 사용할 것이다.
이 논문에서는 Rand Statistic, Jaccard Coefficient, Folkes and Mallows Index, F-measure을 이용할 것이다.
UWIN은 단어의 사전적 뜻 풀이말을 바탕으로 단어의 세부의미 수준까지 계층 분류가 되어 있고 단어의 모호성 해소 시스템 및 형태소 분석기 등에 응용되고 있다. 이 논문에서는 결과 군집 평가와 자질을 확장할 때 울산대학교의 UWIN을 사용하였다.
자질을 표현하는 대표적인 방법으로 tfricff, 상호정보량(mutual ir^ormation) 등이 있다[26, 27]. 이 논문에서는 뜻 풀이말 자질이 정보검색에서 검색 대상인 문헌보다 크기가 상대적으로 작기 때문에 icff 가중치 기법이 아닌 宓 기법을 사용한다[28丄 m개의 자질 벡터를 Wi= xi2, ..., xim) 라고 할 때, 坦访는 (식 7)와 같다.
군집화 알고리즘에 사용되는 유사도 즉정 방법은 코사인 계수(cosine coefficient), 카이 제곱(eft/ square), 자카드 계수(_/aca矿d coefficient) 등이 있다[29]. 이 논문에서는 비교적 성능이 우수한 계층적 군집화 방법 중에 단일 연결(Sin이e-link) 방법 [30, 31]으로 단어 군집화를 수행하였고, 유사도 측정 계수로 (식 8)와 같은 코사인 계수를 사용하였다.
이 논문에서는 상대 평가 방법으로 Dunn 如血(와 Davies- Bouldin, Index를 이용할 것이다. 각각의 결과 군집이 S, i二1, 2, …, n'일 때 , Dunn 血dex과 Davies-Bouldin Index는 각각 (식 5)과 (식 6)과 같다.
성능/효과
객관적인 평가를 위하여, 1차 단어 군집화 후에 나타난 결과에서 군집의 개수가 가장 많고 단어의 개수가 가장 작은 군집을 기준으로 자질 추출, 확장, 표현, 군집화를 수행해서 최종 단어 군집 결과를 낸다.
이는 뜻 풀이말을 온톨로지 상의 상위 단어로 확장할 때, 기존의 뜻 풀이말의 명사와 동사를 이용하는 것이 단어 군집화 성능 향상의 요인이라고 판단할 수 있다. 고정 높이 치환 방법은 뜻 풀이말을 사용한 방법보다 59.2% 의 성능 향상을 보이고 상위 단어 추가 방법보다 18.3%의 성능 향상을 보이고 상위 단어 치환 방법보다 45.1%의 성능향상을 보인다. 이에 반해 고정 높이 추가 방법은 뜻 풀이말을 사용한 방법보다 58.
이는 뜻 풀이말을 확장할 때 온톨로지 상의 상위 단어보다 최상위 개념 노드에서 고정 높이에 해당하는 단어를 사용하는 것이 단어 군집화 성능을 크게 향상 시키는 것으로 판단된다. 또한 뚯 풀이말을 온톨로지 상의 상위 단어로 확장할 경우, 동사를 제거하고 명사를 치환하는 방법보다 뜻 풀이말에 상위 단어를 추가하는 방법이 33.1%의 성능 향상을 보였다. 이는 단어를 군집할 때 뜻 풀이말의 동사가 단어의 의미를 구분하는데 도움이 된다고 판단 할 수 있다.
상대 평가는 단어 군집화의 결과를 절대적인 기준으로 비교할 수는 없지만 상대적으로 뜻 풀이말을 단어 군집화에 사용하는 방법보다 뜻 풀이말을 온톨로지 상의 단어로 확장하는 방법이 좋은 성능을 보인다. 이러한 결과는 앞에서 언급한 외부 평가 결과와 일치한다.
이는 단어를 군집화하는데 뜻 풀이말 자체를 사용하는 방법보다 뜻 풀이말을 온톨로지 상의 상위 단어로 치환하는 방법이 좋은 군집을 형성한다고 볼 수 있다. 상위단어 추가 방법이 뜻 풀이말을 사용한 방법보다 50%의 성능 향상을 보이고 상위 단어 추가 방법보다 33.1%의 성능향상을 보인다. 이는 뜻 풀이말을 온톨로지 상의 상위 단어로 확장할 때, 기존의 뜻 풀이말의 명사와 동사를 이용하는 것이 단어 군집화 성능 향상의 요인이라고 판단할 수 있다.
여기서 추상적인 말은 온톨로지 상에서 상위 단어에 해당하는 단어로 이 논문에서는 뜻 풀이말의 추상적인 자질을 한 단계 위의 상위 단어로 확장하거나 온톨로지 상에서 어떤 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안하였다. 실험 결과, 단어를 군집화할 때 단어의 자질로 뜻 풀이말을 사용한 방법보다 뜻 풀이말에 온톨로지 상의 상위 단어로 추가하는 방법이 50%의 성능 향상을 보였고 고정 높이 단어로 치환하는 방법이 59.2%의 성능 향상을 보였다. 이는 뜻 풀이말을 확장할 때 온톨로지 상의 상위 단어보다 최상위 개념 노드에서 고정 높이에 해당하는 단어를 사용하는 것이 단어 군집화 성능을 크게 향상 시키는 것으로 판단된다.
외부 평가와 상대 평가를 종합해 보면, 뜻 풀이말 자체를 단어 군집화의 자질로 사용하는 방법보다 뜻 풀이말을 온톨로지 상의 상위 단어나 고정 높이에 해당하는 단어로 치환 및 추가하는 방법이 좋은 성능을 보인다.
온톨로지 상의 고정 높이 단어를 단어 군집화 자질 확장에 사용할 경우, 치환 방법과 추가 방법에는 거의 차이가 없고 오히려 뜻 풀이말을 치환하는 방법이 약간의 성능 저하를 보인다. 이러한 결과로 볼 때, 자질을 확장할 때 사용하는 단어로 뜻 풀이말의 상위 단어보다 고정 높이 단어를 사용하는 방법이 월등히 좋다고 판단된다.
1%의 성능향상을 보인다. 이에 반해 고정 높이 추가 방법은 뜻 풀이말을 사용한 방법보다 58.4%의 성능 향상을 보이지만 고정높이 치환 방법에 비해서 1.8%의 성능 손실을 보인다. 온톨로지 상의 고정 높이 단어를 단어 군집화 자질 확장에 사용할 경우, 치환 방법과 추가 방법에는 거의 차이가 없고 오히려 뜻 풀이말을 치환하는 방법이 약간의 성능 저하를 보인다.
참고문헌 (31)
임영희, '후처리 웹 문서 클러스터링 알고리즘', 한국정보처리학회 논문지 B, Vol.9, No.1, pp.7-16, 2002
최준혁, 전성해, 이정현, '베이지안 SOM과 부트트랩을 이용한 문서 군집화에 의한 문서 순위조정', 한국정보처리학회 논문지, Vol.7, No.7, pp.2108-2115, 2000
김건오, 고영중, 서정연, '어휘 클러스터링을 이용한 자동 문서요약', 한국정보과학회 논문집 B, Vol.29, No.1, pp.464-465, 2002
Franz, M., McCarley, J. S., Ward, T., and Zhu, W.-J., 'Unsupervised and supervised clustering for topic tracking', Proceedings of SIGIR Forum, Vol.24, pp.310-317, 2001
Shin, S. and Choi, K.-S., 'Automatic word sense clustering using collocation for sense adaptation', Proceedings of Global WordNet Conference, pp.320-325, 2004
이상훈, 김기태, '클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장', 한국정보과학회 논문집, Vol.30, No.1, pp.479-481, 2003
Brown, P. F., Della Pietra, V. J., de Souza, P. V., Lai, J. C. and Mercer, R. L. 'Class-based n-gram models of natural language', Computational Linguistics, Vol.18, No.4, pp.467-479, 1992
Chen, J. N. and Chang, J. S., 'Topical clustering of MRD senses based on information retrieval techniques', Computational Linguistics, Vol.24, No.1, pp.61-96, 1998
The EAGLES Lexicon Interest Group, Preliminary Recommendations on Lexical Semantic Encoding, Final Report EAGLES LE3-4244, 1999
Federici, S., Montemagni, S., and Pirrelli, V. 'Inferring semantic similarity from distributional evidence : An Analogy-based approach to word sense disambiguation', Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. pp.90-97, 1997
Smadja, F. 'Retrieving collocations from text : Xtract', Computational Linguistics, Vol.19, No.1, pp.143-177, 1993
Lesk, M. 'Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone', Proceedings of SIGDOC '86, pp.24-26, 1986
Banerjee, S. and Pedersen, T. 'An adapted Lesk algorithm for word sense disambiguation using WordNet', Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, Vol.2276, pp.136-145, 2002
※ AI-Helper는 부적절한 답변을 할 수 있습니다.