[논문]계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법

최종필; 김민구

문제 정의

본 논문에서는 Salton의 DNF 방법의 문제점을 극복할 수 있는 적합성 피드백 방법을 제안한다. 이 방법에서 모든 불리언 질의어는 논리합 정규형(disjunctive normal form)으로 표현될 수 있고 단어들이 AND 연산자로 결합된 각 논리곱은 서로 다른 개념을 나타낸다고 가정한다.
이러한 사실은 잠재적으로 DNF 방법이 검색될 문서 수의 추정치에 상당히 민감하게 영향을 받는다는 것을 알려준다. 본 실험에서는 DNF 방법의 문제점을 밝히기 위해 다양한 추정된 검색될 문서 수를 두 데이타 집합에 적용하여 수행하고 결과를 살펴본다.
본 연구에선 확장 불리언 검색 모델을 위한 Salton이 제안한 DNF 방법에서 사용한 검색될 문서 수의 추정치에 관련된 문제점을 보이고 이 문제점을 해결할 수 있는 계층적 클러스터링 기법을 이용한 적합성 피드백 방법을 제안하였다. 또한 두 방법을 상대적으로 작은 TREC 1의 DOE 컬렉션과 상대적으로 큰 Web TREC 10 컬렉션에서 비교 실험하여 제안한 방법의 우수성을 살펴보았다.
본 연구에서 두 가지 실험을 수행하였다. 첫 번째 실험은 Salton의 DNF 방법의 문제점올 밝히기 위해 수행되었고 두 번째 실험은 제안한 확장 불리언 모델을 위한 계층적인 클러스터링 기법을 이용한 적합성 피드백 방법을 평가하기 위해 수행되었다. 이러한 실험을 위하여 두 개의 데이타 컬렉션이 사용되었는데 하나는 TREC 1에 있는 DOE(Department of Energy) 컬렉션이고 다른 하나는 Web TREC 10 컬렉션이다.

가설 설정

둘째로 심지어 사용자가 검색될 문서의 수를 알 수 있어도 다음 세 가지 경우를 생각할 수 있다. 1) T의 값이 작다면 용어의 기대 포스팅 빈도 대부분은 T보다 커서 중요한 절들이 선택되기 힘들다. 2) T가 크다면 용어의 기대 포스팅 빈도 대부분이 T보다 작기 때문에 중요하지 않은 절들이 선택될 수 있다.
나) 검색 성능은 T의 값이 커질 때 나빠진다.
나) 검색 효율은 7、의 값이 클 때 나빠진다.
다) T 값에 관계없이 초기 질의어 보다 검색 성능이 떨어진다.
또한 주어진 주제의 검색될 문서의 정확한 수를 데이타 컬렉션에 존재하는 그 주제의 총 적합한 문서 수라고 가정하고 실험을 수행하였다. DOE 컬렉션의 평균 적합한 문서 수는 120이고 Web TREC 10 컬렉션의 평균 적합한 문서 수는 1, 408이다.
수 있는 적합성 피드백 방법을 제안한다. 이 방법에서 모든 불리언 질의어는 논리합 정규형(disjunctive normal form)으로 표현될 수 있고 단어들이 AND 연산자로 결합된 각 논리곱은 서로 다른 개념을 나타낸다고 가정한다. 이러한 가정 하에서 검색된 적합한 문서들을 서로 다른 그룹으로 클러스터링을 수행함으로써 개념들을 얻고 이렇게 얻어진 개념들을 OR 연산자로 연결함으로써 질의어를 재구성할 수 있다.

제안 방법

있다. Salton과 동료들은 검색될 문서 수를 정확히 알 수 없기 때문에 추정 문서 수를 실험적으로 결정하였다. 이러한 사실은 잠재적으로 DNF 방법이 검색될 문서 수의 추정치에 상당히 민감하게 영향을 받는다는 것을 알려준다.
DOE 컬렉션은 비교적 작은 데이타 집합으로 약 220, 000 개의 문서를 포함하고 있다. TREC에서 제공한 65, 66, 68, 75, 82, 96, 111, 123, 134, 135 주제 10개를 가지고 DOE 컬렉션에서 실험을 수행하였다. 정확한 실험 결과를 얻기 위해 많은 수의 주제가 사용되어야 하는데 본 실험에서 사용한 DOE 컬렉션과 관련이 있는 주제의 수가 적어 위와 같이 1。개 주제만을 사용하였다.
먼저 사용자로부터 재구성된 질의어로 검색될 대략적인 문서의 수(T)를 입력받는다. 다음으로 질의어로 선택된 절들로 구해질 것으로 기대되는 문서 수가 T에 근접하도록 첫 번째 과정에서 구한 k개의 용어, m개의 쌍, n개의 트리플 절들 중에서 높은 적합한 절들을 선택한다. 이렇게 선택된 절들을 OR 연산자로 연결하여 논리합 정규형의 확장 불리언 질의어를 구한다.
의미한다. 두 번째 부분에서 불리언 연산자 AND, OR, NOT와 위 식을 이용하여 구한 가중치(*Dp) 를 갖는 용어들을 이용하여 새로운 질의어를 생성한다. 질의어를 생성하기위해 우선 용어들을 아래와 같이 일련의 가중치 플로어(f)에 따라 여러 영역으로 나눈다.
제안하였다. 또한 두 방법을 상대적으로 작은 TREC 1의 DOE 컬렉션과 상대적으로 큰 Web TREC 10 컬렉션에서 비교 실험하여 제안한 방법의 우수성을 살펴보았다. 하지만 제안한 방법도 용어를 선택하는 방법에 따라 성능의 차이가 발생한다는 것을 알았다.
먼저 데이타 크기가 상대적으로 작은 doe 컬렉션의 실험 결과를 재현율 0.1과 평균에서 살펴보자. 초기 질의어 결과가 나쁜 그룹의 경우 초기 질의어와 비교하여 재현율 0.
1 절에서 설명한 세 개의 용어 선택 방법 (Salton, Porter, F4MODIFIED)을 사용하였다. 우리가 제안한 방법과 Salton이 제안한 방법의 차이점을 명백하게 하기 위해 두 데이타 컬렉션의 주제를 두 개의 서브 그룹으로 나누었다. 하나는 초기 질의어 결과가 나쁜 그룹으로 DOE 컬렉션의 경우 검색된 상위 100개의 문서에 20개 이하의 적합한 문서를 포함한 주제가 그리고 Web TREC 10 컬렉션의 경우 50개 이하의 적합한 문서를 포함한 주제가 이 그룹에 속한다.
이 실험에선 계충적인 클러스터링 기법에 기반한 적합성 피드백 방법을 사용하여 질의어를 재구성하고 이렇게 확장된 질의어를 이용하여 검색을 수행한 결과와 DNF 방법의 결과를 비교한다. 이 실험에 이용된 제안한 적합성 피드백 방법과 DNF 방법을 위해 사용한 매개변수들은 다음과 같다.
두 번째 과정은 첫 번째 과정에서 구한 용어들을 적당한 AND/OR 연산자를 이용하여 확장된 질의어를 구하는데 일반적으로 논리합 정규형의 질의어를 생성한다. 이 절에서는 Dillono] 제안한 방법[14]과 Salton등이 Dillon 방법을 개선하여 제안한 DNF(disjunctive normal form) 방법[9]을 통하여 기존에 연구된 불리언 질의어의 적합성 피드백 방법을 살펴본다.
이 절에선 계층적인 클러스터링 기법에 기반한 확장 불리 언 모델의 새로운 적합성 피드백 방법을 제안한다. 제안하는 방법의 아이디어는 다음과 같다.
AND NOTT(N)) 서브 질의어(G4)를 구한다. 이들 서브 질의어들 중 양수 가중치 값을 갖는 영역에서 구한 G1과 G2를 OR 연산자로 연결하여 (Gl OR G2)를 구하고 음수 가중치 값을 갖는 영역에서 구한 G3와 G4를 AND 연산자로 연결하여 (G3 AND G4)를 구하고 이 둘을 다시 AND 연산자로 연결하여 최종 확장된 질의어 (Gl OR G2) AND (G3 AND G4)를 구한다.
다음으로 질의어로 선택된 절들로 구해질 것으로 기대되는 문서 수가 T에 근접하도록 첫 번째 과정에서 구한 k개의 용어, m개의 쌍, n개의 트리플 절들 중에서 높은 적합한 절들을 선택한다. 이렇게 선택된 절들을 OR 연산자로 연결하여 논리합 정규형의 확장 불리언 질의어를 구한다. 이렇게 T를 이용하여 Dillon 방법의 특징 중 질의어에 포함되는 절의 수를 제어할 수 있다.
이루어진다. 첫 번째 과정은 검색된 적합한 문서들에 존재하는 개념을 찾는 과정으로 본 논문에선 계층적인 클러스터링 방법을 이용한다. 이 과정은 트리 구조(dendrogram)와 같은 문서 클러스터를 생성하는데 우리는 이것을 클러스터 트리라고 부른다.

대상 데이터

이 실험에 이용된 제안한 적합성 피드백 방법과 DNF 방법을 위해 사용한 매개변수들은 다음과 같다. P-Value, 적합성 피드백 문서 수(R기euari源 feedback), qcount는 실험1에서 설명한 내용과 같고 Salton의 DNF 방법에서 사용되는 추정된 검색될 문서 수(T)는 500으로 사용하였다. 우리가 제안하는 방법에서 클러스터 트리를 생성할 때 클러스터링을 제어하기 위해 클러스터 트리의 최대 깊이는 4, 단말노드에 존재하는 문서의 최소수는 5로 하였다.
TREC에서 제공한 65, 66, 68, 75, 82, 96, 111, 123, 134, 135 주제 10개를 가지고 DOE 컬렉션에서 실험을 수행하였다. 정확한 실험 결과를 얻기 위해 많은 수의 주제가 사용되어야 하는데 본 실험에서 사용한 DOE 컬렉션과 관련이 있는 주제의 수가 적어 위와 같이 1。개 주제만을 사용하였다. 반면에 DOE 컬렉션과 비교하여 Web TREC 10 컬렉션은 비교적 커다란 데이타 집합이고 1, 600, 000 이상의 문서를 포함하고 있다.
0에서 다른 값들보다 좋은 결과를 보였다. 사용자의 적합성 피드백 문서수(7?以四効能枷dbach)는 검색된 상위 100개 문서로 제한하였다. qc이询는 222절에 설명한 것과 같이 질의어에 포함된 용어에 대하여 포함되지 않은 용어보다 적합한 문서에 출현한 빈도수를 증가시기 위해 사용되는 값으로 Sal- ton이 실험에 이용한 것과 동일한 값인 2를 사용하였다.
반면에 DOE 컬렉션과 비교하여 Web TREC 10 컬렉션은 비교적 커다란 데이타 집합이고 1, 600, 000 이상의 문서를 포함하고 있다. 이 데이타 컬렉션에서 실험을 수행하기 위해 TREC에서 제공하는 501'550 주제 50개를 이용하였다.
첫 번째 실험은 Salton의 DNF 방법의 문제점올 밝히기 위해 수행되었고 두 번째 실험은 제안한 확장 불리언 모델을 위한 계층적인 클러스터링 기법을 이용한 적합성 피드백 방법을 평가하기 위해 수행되었다. 이러한 실험을 위하여 두 개의 데이타 컬렉션이 사용되었는데 하나는 TREC 1에 있는 DOE(Department of Energy) 컬렉션이고 다른 하나는 Web TREC 10 컬렉션이다. DOE 컬렉션은 비교적 작은 데이타 집합으로 약 220, 000 개의 문서를 포함하고 있다.

이론/모형

질의어에 사용될 용어는 질의어에 존재하는 용어를 배제하고 검새된 문서에 존재하는 용어들 중 적합한 문서를 식별하는데 유용한 정도에 따라 선택된다. Dillone 용어의 유용한 정도를 측정하기 위해 다음과 같은 용어 가중치(Q厂四)를 사용하였다.
그룹을 대표할 수 있는 가장 유력한 용어를 선택하기 위해 우리는 적합성 피드백 분야에서 잘 알려진 용어 선택 방법인 Salton 방법, F4MODIFIED 방법, Porter 방법을 사용한다[17]. Salton 방법은 DNF 방법에서 적합성 가중치를 계산하기 위해 사용한 식 (3) 을 이용하여 용어를 선택하는 것이고 다른 용어 선택 방법들은 다음과 같다.
또한 3.1 절에서 설명한 세 개의 용어 선택 방법 (Salton, Porter, F4MODIFIED)을 사용하였다. 우리가 제안한 방법과 Salton이 제안한 방법의 차이점을 명백하게 하기 위해 두 데이타 컬렉션의 주제를 두 개의 서브 그룹으로 나누었다.
이 데이타 컬렉션에서 초기 질의어를 자동으로 만든 이유는 타이틀에 존재하는 용어의 수가 제한적이기 때문이다. 또한 질의어 용어의 가중치는 역문서 빈도수(Inverse Document Frequency)를 이용하여 구하였다. 예를 들어 다음과 같은 주제 65와 주에 501에 대하여 생성된 초기 질의어와 확장된 질의어를 살펴보면 아래와 같다.
위에서 언급한 데이타 집합과 주제를 이용하여 실험에 대한 검색 성능 평가를 위해 고정된 재현율(recall) 레벨(0.1 단계로 0」부터 1.0까지)어】서 모든 주제에 대하여 평균 정확율(precision)을 구하는 재현율-정확율 평균(recall-precision average) 방법을 사용한다. 이 방법은 주로 TREC 컨퍼런스에서 사용되는 방법이다.
그러나, 이러한 질의어는 가중치를 사용하지 못하므로 그 표현력이 약해 정확한 검색을 꾀할 수 없다. 이러한 문제를 해결하기 위하여 많은 확장 불리언 모델이 연구되었고 [2, 10-12] 그 중에서 본 논문은 Salton과 동료들이 제안한 P-norm을 이용한 확장 불리언 모델[11] 을 사용한다.
이렇게 선택된 절들을 OR 연산자로 연결하여 논리합 정규형의 확장 불리언 질의어를 구한다. 이렇게 T를 이용하여 Dillon 방법의 특징 중 질의어에 포함되는 절의 수를 제어할 수 있다.
이렇게 구한 초기 질의어를 Salton의 DNF 방법과 본 논문에서 제안한 방법을 이용하여 구한 확장된 질의어는 다음과 같다.
첫 번째 과정은 초기 질의어와 검색된 적합한 문서에 존재하는 용어들로부터 좋은(good) 용어 절을 만드는 과정이다’ 이때 절은 하나의 용어 또는 두개 이상의 용어들이 AND 연산자(八)로 연결되어 있는 것을 의미한다. 좋은 용어 절을 구하기 위해 Dillon 방법의 용어의 중요도를 나타내는 가중치(q*u)와 유사하게 시스템으로부터 적합한 문서를 검색하는데 유용한 정도를 나타내는 적합성 가중치를 이용한다’ 임의의 절 c의 적합성 가중치는 다음 식을 이용하여 구한다.
클러스터 트리를 생성하기 위해 분할 계층적인 클러스터링 (divisive hierarchical 이ustering)을 수행한다. 이 클러스터링은 우선 모든 적합한 검색된 문서를 하나의 그룹에 넣고 그룹을 두 개의 서브 그룹으로 나누는 작업을 반복 수행한다.

성능/효과

1) T의 값이 작다면 용어의 기대 포스팅 빈도 대부분은 T보다 커서 중요한 절들이 선택되기 힘들다. 2) T가 크다면 용어의 기대 포스팅 빈도 대부분이 T보다 작기 때문에 중요하지 않은 절들이 선택될 수 있다. 3) T가 적당한 크기라도 검색 결과는 컬렉션의 크기에 민감할 수 있다.
2) T가 크다면 용어의 기대 포스팅 빈도 대부분이 T보다 작기 때문에 중요하지 않은 절들이 선택될 수 있다. 3) T가 적당한 크기라도 검색 결과는 컬렉션의 크기에 민감할 수 있다. 컬렉션의 크기가 큰 경우 T가 컬렉션의 크기에 상대적으로 작기 때문에 1)과 같은 현상이 나타날 수 있다.
HCR3는 -4% 향상을 보였다. DNF 방법은 초기질의어와 동일한 결과를 보였는데 우리가 제안한 방법은 초기 재현율에서 성능 감소를 보였지만 평균적으로 향상된 것을 보여주었다. DNF 방법의 경우 확장된 질의어가 초기 질의어와 동일하여 질의어 확장이 제대로 이루어 지지 않는 것을 살펴볼 수 있었다.
1에서 DNF는 12% 향상, HCR1 은 155% 향상, HCR2는 160% 향상, HCR3 는 -8% 향상을 보였고 평균의 경우 DNF는 2% 향상, HCR1 은 81% 향상, HCR2는 53% 향상, HCR3는 -8% 향상을 보였다. DOE 컬렉션과 같이 제안한 방법이 DNF 방법에 비교하여 월등히 높은 성능을 보인다는 것을 보여준다.
P-Valued P-norm 확장 불리언 모델에의 P 값으로 실험을 통하여 2.0에서 다른 값들보다 좋은 결과를 보였다. 사용자의 적합성 피드백 문서수(7?以四効能枷dbach)는 검색된 상위 100개 문서로 제한하였다.
가) 검색될 문서의 추정 수가 점차적으로 증가되는 경우 용어와 절의 평균수도 또한 증간된다.
게다가 T 값이 충분히 작은 경우 질의어 확장이 되지 않고 초기 질의어가 동일한 경우가 많이 발생한다는 것을 실험에서 발견할 수 있었다. 위의 실험 결과로부터 Salton의 DNF 방법의 성능은 검색될 문서의 추정 수에 종속적이라는 것을 알 수 있었다.
향상되었다. 결론적으로 우리가 제안한 방법이 Salton의 DNF 방법과 비교하여 좋은 성능을 보이는 것을 실험을 통하여 확인하였다. 특히 초기 질의어 결과가 나쁜 그룹에서 초기 질의어와 비교하여 60% 이상의 성능 향상을 보였다.
다) 검색될 문서의 올바른 추정치의 경우 검색 성능은 초기 질의어 보다는 좀 더 좋지만 T:1OO, T:500의 경우보다 나쁜 것을 볼 수 있다.
첫째로, 사용자가 검색된 문서의 수를 알지 못한다면 이 방법은 질의어를 적절하게 재구성할 수 없다. 둘째로, 사용자가 검색된 문서의 수를 추정할 수 있다고 하더라도 이 방법은 커다란 문서 집합의 경우 부적절한 질의어를 만들어낼 수 있다.
하지만 제안한 방법도 용어를 선택하는 방법에 따라 성능의 차이가 발생한다는 것을 알았다. 또한 이 연구에서 단순히 확장 불리언 검색 모델의 적합성 피드백 방법에서 용어를 선택하고 적절한 불리언 연산자(AND/OR)로 연결하여 질의어를 확장하는데 집중하였을 뿐 적합성 피드백의 다른 부분인 용어의 가중치를 조정하는 방법에는 소홀 하였다. 추후 연구로 좀 더 좋은 성능을 갖는 용어 선택 방법을 찾고 확장된 질의어에 존재하는 용어의 가중치를 조정하는 방법에 대하여 연구하고 많은 데이타 집합에서 실험을 수행함으로써 뛰어난 성능을 갖는 적합성 피드백 방법을 찾겠다.
라) 검색될 문서의 올바른 추정치의 경우 검색 성능은 초기 질의어 보다 나쁜 것을 볼 수 있다.
향상, HCR3는 -1% 향상을 보였다. 모든 방법이 초기 질의어 결과와 비교하여 성능이 떨어지는 것을 볼 수 있었지만 우리가 제안한 방법이 DNF 방법보다 좋은 성능을 보였다.
반면에 초기 질의어 결과가 좋은 그룹의 경우 재현율 0, 1에서 DNF는 -9% 향상, HCR1은 -3% 향상, HCR2 는 -3% 향상, HCR3는 0% 향상을 보였고 평균에서 DNF는 -10% 향상, HCR1은 -4% 향상, HCR2는 -11% 향상, HCR3는 -1% 향상을 보였다. 모든 방법이 초기 질의어 결과와 비교하여 성능이 떨어지는 것을 볼 수 있었지만 우리가 제안한 방법이 DNF 방법보다 좋은 성능을 보였다.
반면에 초기 질의어 결과가 좋은 그룹의 경우 재현율 0, 1에서 DNF는 0% 향상, HCR1은 -12% 향상, HCR2 는 1% 향상, HCR3는 -9% 향상을 보였고 평균에서 DNF는 0% 향상, HCR1은 0% 향상, HCR2는 7% 향상, HCR3는 -4% 향상을 보였다. DNF 방법은 초기질의어와 동일한 결과를 보였는데 우리가 제안한 방법은 초기 재현율에서 성능 감소를 보였지만 평균적으로 향상된 것을 보여주었다.
둘째 용어의 중요도를 구하는 식에서 검색된 부적합한 문서를 이용함으로써 G3와 G4처럼 NOT 연산자를 포함하는 질의어를 얻을 수 있는데 이것은 정보 검색에서 NOT 연산자 고유의 문제에 직면할 수 있다. 셋째 단순히 용어의 중요도를 나타내는 가중치8厂四)와 플로어를 이용하여 서브 질의어를 구하므로 확장된 질의어에 너무 많은 절이 포함되어 검색성능을 제어하기 어렵다. 넷째 자동으로 효과적인 플로어 값을 구하기 어렵다.
셋째, 둘째에서 구한 각 그룹에 대응하는 질의어를 논리합 연산자로 결합함으로써 사용자의 정보 요구를 표현하는 논리합 정규형으로 표현된 확장된 질의어를 구할 수 있다.
실험에서 발견할 수 있었다. 위의 실험 결과로부터 Salton의 DNF 방법의 성능은 검색될 문서의 추정 수에 종속적이라는 것을 알 수 있었다.
1에서 DNF는 22% 향상, HCRLe 51% 향상, HCR2는 124% 향상, HCR3는 78% 향상을 보였고 평균의 경우 DNF는 22% 향상, HCR1은 83% 향상, HCR2는 106% 향상, HGR3는 63% 향상을 보였다. 이것은 제안한 방법이 DNF 방법에 비교하여 월둥히 높은 성능을 보인다는 것을 보여준다.
Salton과 동료들은 검색될 문서 수를 정확히 알 수 없기 때문에 추정 문서 수를 실험적으로 결정하였다. 이러한 사실은 잠재적으로 DNF 방법이 검색될 문서 수의 추정치에 상당히 민감하게 영향을 받는다는 것을 알려준다. 본 실험에서는 DNF 방법의 문제점을 밝히기 위해 다양한 추정된 검색될 문서 수를 두 데이타 집합에 적용하여 수행하고 결과를 살펴본다.
전체 주제에 대한 성능은 초기 질의어 결과가 나쁜 그룹과 좋은 그룹의 평균으로 DOE 컬렉션의 경우 DNF는 방법과 우리가 제안한 방법 모두 성능 향상을 보였고 Web TREC 10 컬렉션의 경우 DNF는 방법은 성능이 감소한 반면 제안한 방법은 성능이 향상되었다. 결론적으로 우리가 제안한 방법이 Salton의 DNF 방법과 비교하여 좋은 성능을 보이는 것을 실험을 통하여 확인하였다.
첫째 초기 질의어에 포함된 용어들은 자동으로 확장된 질의어에 사용되지 않는다. 둘째 용어의 중요도를 구하는 식에서 검색된 부적합한 문서를 이용함으로써 G3와 G4처럼 NOT 연산자를 포함하는 질의어를 얻을 수 있는데 이것은 정보 검색에서 NOT 연산자 고유의 문제에 직면할 수 있다.
이 가정은 다음과 같은 두 가지 문제점을 불러일으킬 수 있다. 첫째로, 사용자가 검색된 문서의 수를 알지 못한다면 이 방법은 질의어를 적절하게 재구성할 수 없다. 둘째로, 사용자가 검색된 문서의 수를 추정할 수 있다고 하더라도 이 방법은 커다란 문서 집합의 경우 부적절한 질의어를 만들어낼 수 있다.
1과 평균에서 살펴보면 다음과 같다. 초기 질의어 결과가 나쁜 그룹의 경우 초기 질의어와 비교하여 재현율 0.1에서 DNF는 12% 향상, HCR1 은 155% 향상, HCR2는 160% 향상, HCR3 는 -8% 향상을 보였고 평균의 경우 DNF는 2% 향상, HCR1 은 81% 향상, HCR2는 53% 향상, HCR3는 -8% 향상을 보였다. DOE 컬렉션과 같이 제안한 방법이 DNF 방법에 비교하여 월등히 높은 성능을 보인다는 것을 보여준다.
1과 평균에서 살펴보자. 초기 질의어 결과가 나쁜 그룹의 경우 초기 질의어와 비교하여 재현율 0.1에서 DNF는 22% 향상, HCRLe 51% 향상, HCR2는 124% 향상, HCR3는 78% 향상을 보였고 평균의 경우 DNF는 22% 향상, HCR1은 83% 향상, HCR2는 106% 향상, HGR3는 63% 향상을 보였다. 이것은 제안한 방법이 DNF 방법에 비교하여 월둥히 높은 성능을 보인다는 것을 보여준다.
결론적으로 우리가 제안한 방법이 Salton의 DNF 방법과 비교하여 좋은 성능을 보이는 것을 실험을 통하여 확인하였다. 특히 초기 질의어 결과가 나쁜 그룹에서 초기 질의어와 비교하여 60% 이상의 성능 향상을 보였다. 하지만 초기 질의어 결과가 좋은 그룹에서 제안한 방법으로 확장된 질의어가 초기 질의어 보다 나쁜 결과를 보였고 용어를 선택 방법에 따라 성능의 차이가 발생하는 것도 알 수 있었다.
또한 두 방법을 상대적으로 작은 TREC 1의 DOE 컬렉션과 상대적으로 큰 Web TREC 10 컬렉션에서 비교 실험하여 제안한 방법의 우수성을 살펴보았다. 하지만 제안한 방법도 용어를 선택하는 방법에 따라 성능의 차이가 발생한다는 것을 알았다. 또한 이 연구에서 단순히 확장 불리언 검색 모델의 적합성 피드백 방법에서 용어를 선택하고 적절한 불리언 연산자(AND/OR)로 연결하여 질의어를 확장하는데 집중하였을 뿐 적합성 피드백의 다른 부분인 용어의 가중치를 조정하는 방법에는 소홀 하였다.
특히 초기 질의어 결과가 나쁜 그룹에서 초기 질의어와 비교하여 60% 이상의 성능 향상을 보였다. 하지만 초기 질의어 결과가 좋은 그룹에서 제안한 방법으로 확장된 질의어가 초기 질의어 보다 나쁜 결과를 보였고 용어를 선택 방법에 따라 성능의 차이가 발생하는 것도 알 수 있었다.

후속연구

또한 이 연구에서 단순히 확장 불리언 검색 모델의 적합성 피드백 방법에서 용어를 선택하고 적절한 불리언 연산자(AND/OR)로 연결하여 질의어를 확장하는데 집중하였을 뿐 적합성 피드백의 다른 부분인 용어의 가중치를 조정하는 방법에는 소홀 하였다. 추후 연구로 좀 더 좋은 성능을 갖는 용어 선택 방법을 찾고 확장된 질의어에 존재하는 용어의 가중치를 조정하는 방법에 대하여 연구하고 많은 데이타 집합에서 실험을 수행함으로써 뛰어난 성능을 갖는 적합성 피드백 방법을 찾겠다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법
Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법 Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

최종필 (1) 김민구 (20)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

계층적 클러스터링 기법을 이용한 확장 불리언 모델의 적합성 피드백 방법
Relevance Feedback Method of an Extended Boolean Model using Hierarchical Clustering Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper