[논문]분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구

이재윤

doi:10.3743/kosim.2007.24.4.267

문제 정의

따라서용어에 대해서 적용한 분포 유사도는 동일한 방식을 관점을 바꾸어 문헌에 대해서 적용해볼 수도 있다. 문헌 클러스터링에 분포 유사도를 적용하여 기존의 코사인 유사도 방식을 적용한 경우보다 높은 성능을얻는 것이 이 연구의첫 번째 목표이다.
다이버전스 공식은 정보이론 분야에서 유래한 일종의 분포 유사도 공식으로서 최근 용어 클러스터링 분야에 성공적으로 적용되고 있다. 이 연구에서는 이와 같은 다이버전스 공식을 이용하여문헌 사이의 유사도를산출하는방안을 세 가지 고안한 다음, 이를 적용하여 문헌 클러스터링성능을 향상시킬수 있는지 여부를 모색해보았다. 또한 2차적인 분포 유사도라고할 수 있는 피어슨 상관계수 행렬로 문헌 클러스터링 실험을 수행하였다.
이 연구에서는유사계수의적용 단계에 특히 집중하되, 전통적으로문헌 클러스터링에사용되어온 코사인계수(Salton & McGill 1983) 를 비롯한벡터유사도 방식을벗어나서다이버전스(divergence)를 비롯한 분포 유사도 방식을 적용하여 분류 성능을 개선하고자 한다.
다만 2차 분포 유사도는 산출 시간이 추가되므로설사 성능이 좋더라도 검색 결과 문헌과 같은 소수의 문헌집단에 대해서 적용하는 것이 바람직하다. 이와 같이 2차 분포 유사도 산출 방식을 적용하여 문헌 클러스터링 성능을 향상시키는 것이 이 연구의 두 번째 목표이다.

제안 방법

Medline 실험집단은 의학논문 초록 1,033개로 구성되었고, 이중에서696개의 문헌이 30개의 질의에 적합한 것으로 나뉘어져 있다. 30개 질의 중에서 적합문헌 수가 많은 순서대로 8개 질의를 대분류 범주로, 이질의들의 적합문헌 276개를 소속문헌으로 추출하여 분류실험집단MQ를 구성하였다.
COS (ltf) 방식이 아닌 COS 방식과 세 가지 다이버전스 공식을 적용한 경우는 문헌 벡터의 단어 출현빈도를그대로 가중치로처리하였다.
분포 유사도를적용한 클러스터링성능을검증하기 위해서 <표 1>과 같이 실험 문헌 집단을 구성하였다. 각 실험집단은 실험질의와 적합문헌이 정해진 정보검색 실험용 문헌집단에서 추출한 것으로서, 각 질의를 하나의 주제범주로 보고 질의에 대한 적합문헌을주제범주에 소속한 문헌으로 간주하였다. 이와 같이 검색질의와 적합문헌으로 분류범주와 소속문헌 집단을 구축한 것은, 최근 문헌 클러스터링 연구가 검색결과문헌의 클러스터링을주요 과제로 하고 있는 점도 감안한 것이다.
다섯 가지 유사도 산출 방식 각각에 대해서 실험 집단 세 종류, 클러스터링 기법 세 종류, I DF 적용 여부 두 종류를 조합한 1 8가지 경우의 성능을 산출하여 과 에서 비교하였다.
다섯 가지 유사도 산출 방식을 적용하여 생성한 앞 절의 1차 문헌 유사도 행렬에서 각 행사이의 피어슨 상관계수를 구하여 도출한 2차 분포 유사도 행렬 다섯 가지를 입력 데이터로 하여 문헌 클러스터링 실험을 수행하였다. 실험은 1차 유사도 행렬을 이용한 앞 절의 상황과 같이 IDF 가중치 적용 여부, 실험집단, 클러스터링 기법 등을 달리하여 조합한 18가지 경우에 대해서 진행하여 성능을 얻었다.
단어 가중치의중요 요소인 역문헌빈도 IDF 의 적용 여부에 따라서 문헌 클러스터링 성능이 달라질 수도 있으므로 I DF 가중치를 적용한 경우와 그렇지 않은 경우를 모두 실험해보았다.
따라서 아래 공식과 같이 평균하여 도출한 확률분포 avg(q,r)를 두 번째 항으로 두고, 원래의 두 확률분포를 번갈아서 첫 번째 항으로 삼아서 KL 다이버전스를 두 차례 산출한 후 두 값의 평균을 구하여 최종 다이버전스를 계산한다.
이 연구에서는 이와 같은 다이버전스 공식을 이용하여문헌 사이의 유사도를산출하는방안을 세 가지 고안한 다음, 이를 적용하여 문헌 클러스터링성능을 향상시킬수 있는지 여부를 모색해보았다. 또한 2차적인 분포 유사도라고할 수 있는 피어슨 상관계수 행렬로 문헌 클러스터링 실험을 수행하였다.
전반적으로는 2차 분포 유사도 행렬을 사용한 경우에도 I DF 가중치를 적용한 경우의 성능이 IDF 가중치를 적용하지 않은 경우보다 더 좋게 나타났다. 또한 다섯 가지 유사도 산출 방식 중에서 가장 좋은 경우는 1차 유사도 행렬을 적용했을때와 마찬가지로이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용한 MSD 방식이었다.
분포 유사도를적용한 클러스터링성능을검증하기 위해서 과 같이 실험 문헌 집단을 구성하였다.
분포 유사도방식을 이용한문헌 클러스터링의 성능을 검증한 후에는 다음 단계로 2차 분포 유사도 산출 방식을 적용해보고자 한다. 2차 분포 유사도란 1차적으로 산출된 유사도값으로 구성된 행렬에서 각 행(혹은 열)간의 유사도를 다시 산출한 것이다.
다섯 가지 유사도 산출 방식을 적용하여 생성한 앞 절의 1차 문헌 유사도 행렬에서 각 행사이의 피어슨 상관계수를 구하여 도출한 2차 분포 유사도 행렬 다섯 가지를 입력 데이터로 하여 문헌 클러스터링 실험을 수행하였다. 실험은 1차 유사도 행렬을 이용한 앞 절의 상황과 같이 IDF 가중치 적용 여부, 실험집단, 클러스터링 기법 등을 달리하여 조합한 18가지 경우에 대해서 진행하여 성능을 얻었다. 실험 결과는 IDF 가중치의 적용 여부에 따라 구분 하여 <표 6>과 <표 7>에 제시하였다.
와 에서는 다섯 가지 유사도 산출 방식의 성능을 I DF 가중치를 적용하지 않은 경우와 적용한 경우로 구분하여 비교 하였다.
적합문헌 수가 많은 순서대로 8개 질의와 이 질의들의 적합문헌 263개를 각각 범주와 소속문헌으로 추출하여 분류실험집단 CQ를 구성하였다. 원래 CACM 실험집단에서 추출한 적합문헌들 중에는 둘 이상의 질의에 적합한 복수주제 문헌이 있으나 배타적 클러스터링실험을 위해서 제거하고 CQ를 구성하였다.
이 논문의 2장에서는 다이버전스 공식으로 문헌간 유사도를 산출하는 방법을 제안하고, 3.1절에서는 제안한 방법으로 분포유사도를 적용하는 클러스터링실험을 수행하여 기존의 코사인 유사도를적용한 경우와 성능을 비교해 보았다.
클러스터링을 위한 문헌간 거리(혹은 유사도)는 두 문헌 중 어느 쪽을 기준으로 하더라도 같은 값이어야 하므로 대칭공식인Jenson-Shannon 다이버전스는 그대로 사용할 수 있지만, 비대칭 공식인 스큐 다이버전스는 대칭적인 값을 얻어내기 위한 별도의 조치가 필요하다. 이 연구에서는 두 문헌간 대칭적인 스큐다이버전스를산출하기위해서 다음의 두 가지 방식을 고안하였다.
CQ는 컴퓨터과학 분야 초록으로 구성된 CACM 실험집단에서 추출한 것이다. 적합문헌 수가 많은 순서대로 8개 질의와 이 질의들의 적합문헌 263개를 각각 범주와 소속문헌으로 추출하여 분류실험집단 CQ를 구성하였다. 원래 CACM 실험집단에서 추출한 적합문헌들 중에는 둘 이상의 질의에 적합한 복수주제 문헌이 있으나 배타적 클러스터링실험을 위해서 제거하고 CQ를 구성하였다.
클러스터링결과의평가 기준으로는여러 가지가 제시되어 있으나, 이 연구에서는 개별 문헌을 단위로클러스터링성능을평가하는단일 척도인 WACS 척도(정영미, 이재윤 2001)를 기준으로평가한결과를보고하였다. WACS 척도 이외에CSIM, 엔트로피, 카이제곱통계량, F척도 등의 주요 평가 척도를 모두 적용해보았으나 클러스터링결과의 상대적인성능 우열에는 거의 차이가 없는 것으로 나타났으므로 다른 평가 척도를 적용한 결과는 소개하지 않았다.
② COS (ltf) : 코사인 유사도 계수를 적용 하되 용어빈도에로그를 취하고 1을 더한 로그 TF 공식을 함께 적용한 경우이다. 흔히 정보검색이나 자동분류에서 단순단어빈도보다 로그 TF 공식을 적용하는 것이 좋은 성능을 보이는 경우가 많았으므로 이 연구에서도 이를 적용해보았다.

대상 데이터

HQ는 한국어 정보검색 실험집단인 HANTEC 실험집단에서 추출하였다. HANTEC에는 약 4만 여건의 문헌들을 대상으로 질의 30여개에 대한 1 2만 건의 적합성 판정이 이루어져있다.
HANTEC에는 약 4만 여건의 문헌들을 대상으로 질의 30여개에 대한 1 2만 건의 적합성 판정이 이루어져있다. 적합문헌 수가 많은 순서대로 5개 질의와 이 질의들의 적합문헌 351개를 각각 범주와 소속문헌으로추출하여 분류 실험집단 HQ를 구성하였다.

데이터처리

이상과 같은 다섯 가지 유사도 산출 방식들 사이의 성능 차이가 통계적으로유의한지여부를 검증하기 위해 상황 변수가 조합된 18가지 경우의 성능에 대해서 비모수검증 방식인 Wilcoxon 부호순위 검증을 실시하였다.

이론/모형

실험에서사용한 클러스터링기법은널리 사용되고 있는 네 가지 계층적 클러스터링 기법 중에서 단일연결 기법을 제외한 평균연결 기법, 완전연결 기법, Ward 기법의 세 가지를 적용하였다. 단일연결기법은 문헌 클러스터링에 적용하였을 때 성능이 매우 나쁘다고 알려져 있기 때문에 제외하였다(Griffith et al.

성능/효과

1차적인 문헌간 유사도를 산출한 후 유사도 행렬로부터 2차적으로 피어슨 상관계수를 구하는 2차 분포 유사도 방식을적용한실험에서는, 1차 유사도 산출 단계에서 어느 유사도 산출 공식을 사용하였더라도 성능 향상 효과를 얻을 수 있는 것으로 나타났다. 2차 분포 유사도 행렬을 적용하여 얻는 성능 향상 효과는 1차 유사도 행렬을 적용하였을 때의 성능에 반비례하였다.
JSD와 SSD의 두 가지 다이버전스 공식은 MQ 실험 집단과 HQ 실험 집단에서는코사인 유사도를 적용한 경우(COS)보다 높은 성능을 보였으나, 의 CQ 실험 집단에서는 그렇지 못했다.
그 결과<표 5>와같이 MSD는 COS 및 COS (ltf) 보다는 99% 유의수준에서, 그리고 다른 다이버전스 공식인 JSD나 SSD보다는 95% 유의 수준에서클러스터링 성능이앞선 것으로 검증되었다. 결국 MSD 방식은 코사인 유사도를 적용한 경우 뿐만 아니라 다른 다이버전스 공식을 적용한 경우에 비해서도 좋은 클러스터링 성능을 보인다는 것이 95% 유의수준에서 검증된 것이다.
결론적으로다이버전스공식 중에서이 연구에서 고안한 최소 스큐 다이버전스 공식 MSD 가 모든 경우의 실험 조건에서 가장 뛰어난 평균 성능을 보였으며, 전통적인 코사인 유사도 방식을 포함한 다른 방식과의 성능 차이는 통계적으로 유의한 것으로 검증되었다.
그 결과와같이 MSD는 COS 및 COS (ltf) 보다는 99% 유의수준에서, 그리고 다른 다이버전스 공식인 JSD나 SSD보다는 95% 유의 수준에서클러스터링 성능이앞선 것으로 검증되었다.
그런데 I DF 가중치를 적용한 에서는 MSD 방식은 평균 11.2% 향상된 반면에 COS 방식은 평균 34.7% 향상되어 향상율의 차이가 상대적으로 크게 나타났다.
3 %의 높은 성능 향상율을 보였다. 다른 다이버전스 방식인 JS D와 SSD는 I DF 가중치를 적용하지 않았을 때 COS 방식에 비해서 각각 12.4 %와 10.9 %의 성능 향상 율을 보였으나 MSD 방식의 성능과는 뚜렷한 차이가 있었다.
다섯 가지 방식에 대해서 각각 2차 분포 유사도 행렬을 도출하여 클러스터링한 결과에서는 다섯 가지 방식 사이의 성능 차이가 1차 유사도를 적용한 실험에서와 다소 다른 양상을 보였다. 성능이 더 좋은 IDF 가중치를 적용한 경우인 <표 7>을 보면, 평균 성능이 가장 좋은 것은 여전히 MSD 방식이고 두 번째는 SSD 방식이지만, 또 다른 다이버전스 공식인 JSD 방식이 COS 방식보다도 더 나쁜 성능을 보이는 것으로 나타났다.
다섯 가지 유사도 산출 방식 각각에 대해서 실험 집단 세 종류, 클러스터링 기법 세 종류, I DF 적용 여부 두 종류를 조합한 1 8가지 경우의 성능을 산출하여 <표 3>과 <표 4>에서 비교하였다. 다섯 가지 유사도 산출 방식 중에서 가장 좋은 결과를 보인 것은 MSD 방식으로서1 8가지 경우 중에서 1 2가지 경우에 1위로 나타났다.
성능이 더 좋은 I DF 가중치를 적용한 경우인 <표 9>를 살펴보면 대부분의 경우에 성능이 향상된 것으로 나타났다. 다섯가지 유사도 산출 방식과 세 가지 실험 집단, 그리고 세 가지 클러스터링 기법을 조합한 4 5가지 클러스터링 결과 중에서 2차 분포 유사도 행렬을 적용하였을 때의 성능이 1차 유사도 행렬을 적용하였을 때보다 저하된 것은 네 경우에 불과했고 나머지 4 1가지 경우에는 모두 성능이 향상되었다.
다이버전스공식중에서JS D와 SSD는 COS 방식보다 클러스터링 성능이 우세하다는 것이 95% 유의수준에서검증되었지만, 로그TF 가중치 공식을 사용한 COS(ltf) 방식보다는 통계적으로 유의한 성능 차이를 보이지 못했다.
2차 분포 유사도 행렬을 적용하여 얻는 성능 향상 효과는 1차 유사도 행렬을 적용하였을 때의 성능에 반비례하였다. 따라서1차 유사도 행렬을 적용한 실험에서 성능이 가장 좋았던 최소 스큐 다이 버전스는2차 분포 유사도 행렬을 적용하면 성능향상 효과가 가장 낮게 나타났다. 그러나 여전히 평균 성능은 최소 스큐 다이버전스로1차 유사도를 구한 후 피어슨 상관계수 행렬을 산출하여 클러스터링을 수행한 경우가 가장 좋 았다.
또한 에서 가장 성능이 좋은 MSD 방식의 성능 향상율도 1차 유사도 행렬을 적용하였을 때의 24.2%(COS 대비)와 22.3% (COS(ltf) 대비)에 비해서 훨씬 낮은 2.6%(COS 대비)와 2.5% ( COS(ltf) 대비)에 불과하였다.
2% 의 높은 클러스터링 성능 향상율을 보였다. 또한 최소 스큐 다이버전스 공식은 다른 코사인유사도만아니라 여타 다이버전스 공식들에비해서도우세한 성능을보이는 것이 통계적으로 검증되었다.
성능이 더 좋은 I DF 가중치를 적용한 경우인 를 살펴보면 대부분의 경우에 성능이 향상된 것으로 나타났다.
성능이 더 좋은 IDF 가중치를 적용한 경우인 을 보면, 평균 성능이 가장 좋은 것은 여전히 MSD 방식이고 두 번째는 SSD 방식이지만, 또 다른 다이버전스 공식인 JSD 방식이 COS 방식보다도 더 나쁜 성능을 보이는 것으로 나타났다.
세가지 실험 집단에서 모두 MSD 방식이 가장 좋은 평균 성능을 보이는 것으로 나타났다.
실험 결과 이 연구에서 제안한 문헌간 다이 버전스 산출 방식을 사용하였을 때 전통적인 코사인 유사도 공식에 비해서 더 높은 클러스터링 성능을 얻을 수 있었다. 특히 최소 스큐다이버전스(MSD) 공식은코사인 유사도에 비해서 24.
세 가지 클러스터링 기법별로 다섯 가지 유사도 산출 방식의 성능을 평균한 결과는 <그림7>, <그림 8>, <그림 9>에 제시하였다. 역시 MSD 방식이 세 가지 클러스터링기법 모두에서 가장 좋은 평균 성능을 보였다. JS D와 SSD의 두가지 다이버전스 공식은 완전 연결기법과 Ward 기법에서는 COS 및 COS(ltf)보다더 높은 성능을 보였으나, 평균연결기법을 적용한 <그림 7>에서는 그렇지 못했다.
전반적으로는 2차 분포 유사도 행렬을 사용한 경우에도 I DF 가중치를 적용한 경우의 성능이 IDF 가중치를 적용하지 않은 경우보다 더 좋게 나타났다. 또한 다섯 가지 유사도 산출 방식 중에서 가장 좋은 경우는 1차 유사도 행렬을 적용했을때와 마찬가지로이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용한 MSD 방식이었다.
전체 문헌의 수가 D이고, 수작업 범주의 수가 m, 자동생성 클러스터의 수가 n이라고 할 때, 수작업 범주와 자동생성 클러스터를 각각 M과 C로 표기하면 특정 클러스터링 결과의 WACS 척도값은다음 공식으로 산출한다.
전체적으로는 2차 분포 유사도 행렬을 적용 하면 코사인이나 다이버전스 공식을 불문하고 모든 경우에 1차 유사도 행렬을 적용하였을 때의 최고 성능(MSD의 0.631 9)보다 더 좋은 성능을 얻을 수 있었다. 따라서 처리 시간이 중요한 응용분야에서는 최소 스큐 다이버전스 공식을 적용하여 문헌 클러스터링을 수행하는 것이 가장 좋고, 처리 시간보다 클러스터링 성능이 더 중요한 응용분야에는 2차 유사도행렬 방식을 적용하는 것이 바람직하다.
코사인과 다이버전스 공식 사이의 클러스터링 성능 차이는 줄어들었지만, 2차 분포 유사도 행렬을 적용한 경우의 성능을 앞 절의 1차 유사도 행렬을 적용한 경우와 비교해보면 , , , 에서와 같이 크게 향상된 것을 알 수 있다.
특히 전체적인 성능이 더 좋은 의 I DF 가중치를 적용한 경우에 MSD 방식은 COS 방식에 비해서는 24.2%, COS(ltf) 방식에비해서는22.3 %의 높은 성능 향상율을 보였다.
실험 결과 이 연구에서 제안한 문헌간 다이 버전스 산출 방식을 사용하였을 때 전통적인 코사인 유사도 공식에 비해서 더 높은 클러스터링 성능을 얻을 수 있었다. 특히 최소 스큐다이버전스(MSD) 공식은코사인 유사도에 비해서 24.2% 의 높은 클러스터링 성능 향상율을 보였다. 또한 최소 스큐 다이버전스 공식은 다른 코사인유사도만아니라 여타 다이버전스 공식들에비해서도우세한 성능을보이는 것이 통계적으로 검증되었다.

후속연구

다이버전스나 2차 유사도와 같은 분포 유사 도가 문헌 클러스터링에 효과적임이 확인되었으므로 향후에는 또 다른 자동분류인 문헌 범주 화에서 분포 유사도를 적용하여 성능 향상을 모색해보는 후속 연구가 필요하다.

핵심어	질문	논문에서 추출한 답변
	문헌 클러스터링은 어떤 기법인가?	문헌 클러스터링은각 문헌을표현하는자질 들을 비교하여 문헌간 유사성을 측정한 다음 비슷한 내용의 문헌들을동일한 집단에 속하도록 군집화하는 기법이다(정영미 2005). 최근까지 다양한 클러스터링 기법이 제안되어왔지만, 생성된 클러스터의 품질 면에서는 계층적 클러스터링모형이가장 뛰어난 것으로 알려져 있다.
	클러스터링 모형의 단계는 어떻게 구성되는가?	최근까지 다양한 클러스터링 기법이 제안되어왔지만, 생성된 클러스터의 품질 면에서는 계층적 클러스터링모형이가장 뛰어난 것으로 알려져 있다. 클러스터링 모형은 대상 항목의 선정, 분류자질의 빈도행렬 작성, 유사계수의 적용, 클러스터 생성 기법의 적용 등 여러 단계로 구성된다. 각 단계마다 다양한 경우의 수가 있으므로 클러스터링결과도적용한 모형에 따라서 달라지게 된다(정영미, 이재윤2 0 0 1 ) .
	클러스터링 모형의 각 단계마다 다양한 경우의 수가 있으므로 클러스터링 결과도 적용한 모형에 따라 어떻게 되는가?	클러스터링 모형은 대상 항목의 선정, 분류자질의 빈도행렬 작성, 유사계수의 적용, 클러스터 생성 기법의 적용 등 여러 단계로 구성된다. 각 단계마다 다양한 경우의 수가 있으므로 클러스터링결과도적용한 모형에 따라서 달라지게 된다(정영미, 이재윤2 0 0 1 ) .

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구
Improving the Performance of Document Clustering with Distributional Similarities 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구 Improving the Performance of Document Clustering with Distributional Similarities 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

이재윤 (37)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구
Improving the Performance of Document Clustering with Distributional Similarities 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper