[논문]유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구

박동진; 최기석; 이명선; 이상태

doi:10.5392/jkca.2009.9.11.054

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구
A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.9 no.11, 2009년, pp.54 - 62

박동진 (공주대학교 산업시스템공학과) , 최기석 (한국과학기술정보연구원) , 이명선 (한국과학기술정보연구원) , 이상태 (한국표준과학연구원 전산정보팀)

초록
AI-Helper

국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

Abstract ▼ AI-Helper

To avoid the redundant investment on the project selection process, it is necessary to check whether the submitted research topics have been proposed or carried out at other institutions before. This is possible through the search engines adopted by the keyword matching algorithm which is based on boolean techniques in national-sized research results database. Even though the accuracy and speed of information retrieval have been improved, they still have fundamental limits caused by keyword matching. This paper examines implemented TFIDF-based algorithm, and shows an experiment in search engine to retrieve and give the order of priority for similar and redundant documents compared with research proposals, In addition to generic TFIDF algorithm, feature weighting and K-Nearest Neighbors classification methods are implemented in this algorithm. The documents are extracted from NDSL(National Digital Science Library) web directory service to test the algorithm.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 국가과학기술종합정보서비스(NTIS)의 하위시스템 중의 하나인 유사과제 검색시스템에 필요한 알고리즘을 연구하는데 있다. 연구성과물에 대한 단순 키워드 매칭 기반의 검색을 지양하고, 연구과제 제안서 문서를 기반으로 기존의 연구 중인(혹은 완료된) 과제의 문서 및 연구성과물을 검색하여 유사한 것들을 찾아내는 알고리즘이다.
본 연구에서는 입력되는 질의 문서와 데이터베이스에 저장된 문서(검색 문서) 중에서 가장 유사한 문서를 찾아내는 것이다. 질의 문서와 검색 문서간의 유사도는 아래와 같이 각 문서의 색인어 가중치 벡터를 이용해서 계산한대5].
연구성과물에 대한 단순 키워드 매칭 기반의 검색을 지양하고, 연구과제 제안서 문서를 기반으로 기존의 연구 중인(혹은 완료된) 과제의 문서 및 연구성과물을 검색하여 유사한 것들을 찾아내는 알고리즘이다. 즉, 본 연구에서는 문서단위의 비교 검색을 함으로써 키워드 매칭 검색엔진의 근본적인 문제점을 해결한다.

제안 방법

즉 문서 대 문서로 비교함으로써 정확도를 향상시켰으며 우선순위별로 배열이 가능하다. k-nn 기법을 도입하여 검색시간을 현저하게 줄이고, Feature weighing 기법을 도입함으로서 전문가의 판단을 객관적이고 일관성 있게 반영하였다. 본 알고리즘은 유사 과제 판단을 위한 것 뿐 아니라 다양한 분야에 적용할 수 있음을 확인 하였다.
따라서 포함된 문서가 정확히 해당 분야에 소속된다고 볼 수 없으며, 분야별 적합도를 보여주고 있지 않다. 따라서 본 연구에서는 각 대분류 분야 전공별로 자문 교수를 초빙하여 문서를 재분류 하였다. 자문교수단에 의한 문서분류는 첫째, 각 문서의 대.
기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치 (feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서 (KNN: K-Nearest Neighbors) 기법을 반영한 알고리즘을 제시한다. 본 연구를 통해서 개발된 알고리즘은 유사과제를 검색하는 시스템에 적용될 수 있을 뿐 아니라 디렉토리 검색 서비스를 위한 자동문서 분류시스템에도 적용가능하다.
본 연구에서는 연구과제 제안서를 저장하고 있는 데이터베이스 확보의 어려움으로 인해서 제안서의 주요 구성항목과 일치하는 연구보고서 데이터베이스를 활용한다. 구체 적 으로 KISTI에서 운영 하는과학기 술정 보 포털서비스인 YesKiSTi(현재의 NDSL)의 디렉토리 검색 서비스인 "표준주제검색” 서비스에서 문서를 발췌하였다.
형태소분석을 거쳐 Excel 포맷으로 된 데이터를 통합하여 Access 테이블로 전환하고 이를 불용어를 처리한다. 불용어가 처리된데이블을 학습테이블 및 질의테이블로 구분한 후 각 색인어에 대한 가중치(weight)를 계산한다. 실험용 S/W 는 window2000 서버에서 Visual Basic으로 응용프로그램을 작성하고, 데이터 처리는 SQL 서버 DBMS를 이용한다.
소프트웨어 환경은 다음과 같다. 형태소분석을 거쳐 Excel 포맷으로 된 데이터를 통합하여 Access 테이블로 전환하고 이를 불용어를 처리한다. 불용어가 처리된데이블을 학습테이블 및 질의테이블로 구분한 후 각 색인어에 대한 가중치(weight)를 계산한다.
형태소분석이 끝난 색인어(학습용 테이블) 46, 556 단어 중 상위 15%에 해당되는 고빈도 색인어를 불용어 처리기준으로 설정하였다. 예를 들면 “연구개발, 내용, 증가, 확립, 변화, 요구, 제시, 시스템 .

대상 데이터

"표준주제검색”의 대분류인 기계금속분야 (BA), 전기전자분야(BB), 정보통신분야(BI), 화학 화공분야(BK), 생명분야, 환경건설분야, 이상 6개 분야 중 코드화한 4개의 각 분야에 250개의 문서, 총 1, 000개의 문서를 발췌하였다.<첨부 1> 기계금속분야의 코드체계이다.
구체 적 으로 KISTI에서 운영 하는과학기 술정 보 포털서비스인 YesKiSTi(현재의 NDSL)의 디렉토리 검색 서비스인 "표준주제검색” 서비스에서 문서를 발췌하였다. 본 연구에서는 아래와 [표 2]와 같이 문서를 발췌하였다.
아래 리스트 박스에서는 테스트 문서를 선택할 수 있다. 100개의 테스트 문서를 한꺼번에 테스트를 할 수도 있으며 10개의 문서를 한단위로 실험을 실시 할 수도 있다.
그러나 그 중에서 식별 색인어로서 가치가 있다고 판단되는 색인어 들은 불용어로 처리하지 않았다. 결국 143%를 불용어로 처 리하고 총 40, 156 색인어를 최종적으로 선택하였다.<첨부 2>는 연구과제 제안 도메인의 불용어 리스트이다.

이론/모형

예를 들면 상식적으로 두 문서 간에 제목 속성에 소속된 색인어들이 서로 매칭되면 다른 속성들에 비해서 더 많은 가중치를 부여하는 것이 바람직하다. 다기준 의사결정문제를 해결하는 기법 중의 하나인 계층분석과정 (AHP: Analytical Hierarchy Process)방법을 이용하여 각 속성에 대한 중요도를 파악할 수 있다. AHP 방법을 통하여 각 속성들 간의 중요도를 파악하여 유사도 계산시 반영하는 것이 고려될 필요가 있다.
본 연구에서는 문서의 색인어들에 대한 가중치를 부여하는 벡터공간검색(Vector-Space Retrieval) 모델의한 종류인 TFEDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치 (feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서 (KNN: K-Nearest Neighbors) 기법을 반영한 알고리즘을 제시한다.
모델과 벡터모델이 있다. 본 연구에서는 문서의 색인어들의 가중치 부여를 위해서 벡터 공간검색의 한 종류인 TFIDF를 채택한다{4]. TFIDF는 부분 매칭을 가능하게 하고, 부울리언 방법과는 달리 비이진 가중치를 부여하고 이 가중치를 이용해서 유사도 점수를 계산한다.

성능/효과

현재 적중률이 다소 떨어진 것은 불용어처리가 미흡하기 때문이다. 둘째, 기존의 키워드 매칭에 의한 검색 결과는 유사도의 개념이 없고 검색시스템의 기준에 따른 나열이다. 그러나 본 알고리즘의 결과는 유사도 계산결과에 따라 자동으로 배열된다.
첫째, 입력하는 몇 개의 키워드가 제안하는 문서를 대표할 수가 없다. 둘째, 키워드의 정확한(exact) 매칭의 결과만을 제공하는 부얼리언 알고리즘에서는 너무 많은 수의 혹은 너무 적은 수의 결과가 나올 수 있다. 셋째, 제목, 저자, 요약문 등과 같이 연구과제 제안문서에 포함된 구조적인 특성을 검색시 반영할 수 없다.
예를 들면 디렉토리서비스를 위한 자동 문서 분류의 알고리즘으로 사용 가능하다. 본 알고리즘은 비교적 단순한데 반하여 성능은 매우 뛰어남을 알 수 있다. 따라서 장차 국가 가학 기술정보 시스템 (NTIS)의 하위시스템 중의 하나인 유사 과제검색시스템에 필요한 핵심 알고리즘으로 적용될 수 있다.
k-nn 기법을 도입하여 검색시간을 현저하게 줄이고, Feature weighing 기법을 도입함으로서 전문가의 판단을 객관적이고 일관성 있게 반영하였다. 본 알고리즘은 유사 과제 판단을 위한 것 뿐 아니라 다양한 분야에 적용할 수 있음을 확인 하였다. 예를 들면 디렉토리서비스를 위한 자동 문서 분류의 알고리즘으로 사용 가능하다.
본 연구를 통하여 개발된 알고리즘은 중복과제를 파악함에 있어서 기존의 단순 키워드 매칭에 따른 문제점을 해결하였다. 즉 문서 대 문서로 비교함으로써 정확도를 향상시켰으며 우선순위별로 배열이 가능하다.
이는 전문가의 판단에 따른 순위 배열과 매우 유사한 결과를 보인다. 셋째, 더 많은 케이스가 학습문서에 저장될수록 각 단어에 대한 가중치가 더욱 정교해지므로 시간이 갈수록 정확도가 증가되는 것이 본 알고리즘의 중요한 특성이다. 넷째, 본 실험은 제안서와 같은 구조를 같는 연구보고서를 이용하였으며, 실험에 사용된 문서의 크기는 매우 작다.
이상의 결과는 다음과 같은 의미를 갖는다. 첫째, 기존의 키워드 매칭에 비해서 다수의 색인어를 포함하는 문서 대 문서의 비교이므로 정확도는 당연히 뛰어날 수밖에 없다. 그러나 색인어를 정확하게 유지하는 것이 매우 중요하다.

후속연구

따라서 본 실험을 통한 성공률은 실제 제안서를 대상으로 하는 결과와는 차이가 있을 수 있다. 개발된 알고리즘에 대한 복잡도 및 소요 시간 등에 대한 객관적인 분석이 이루어지지 않았으므로 실제 적용을 위해서는 이를 위한 체계적인 분석이 필요하다. 알고리즘의 실험도 파라메타 값을 다양하게 하고, k-nn 및 feature weighting 도 알고리즘에 적절하게 추가적으로 반영하여야 하는데 이에 대한 고려가 부족하였다.
알고리즘의 실험도 파라메타 값을 다양하게 하고, k-nn 및 feature weighting 도 알고리즘에 적절하게 추가적으로 반영하여야 하는데 이에 대한 고려가 부족하였다. 따라서 추후에는 알고리즘의 정교화를 위한 다양한 시도가 있어야 하며 불용어 처리 방법을 개선하고, 시소러스와 같은 용어의 의미 및 관계를 보여주는 것들에 대한 보완이 이루어져야 한다.
또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치 (feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서 (KNN: K-Nearest Neighbors) 기법을 반영한 알고리즘을 제시한다. 본 연구를 통해서 개발된 알고리즘은 유사과제를 검색하는 시스템에 적용될 수 있을 뿐 아니라 디렉토리 검색 서비스를 위한 자동문서 분류시스템에도 적용가능하다. 본연구는 서론에 이어 제2장에서는 이론적 배경을 기술하였고, 제3장에서는 알고리즘의 개발을, 그리고 4장에서는 실험 및 알고리즘의 평가를 다루고, 마지막으로 제5장에서는 결론 및 연구의 한계점을 기술한다.

참고문헌 (9)

과학기술정보통합서비스, http://www.ndsl.kr
국가과학기술종합정보서비스, http://www.ntis.go.kr
중복지원방지시스템, https://www.naris.re.kr/naris
Goffinet L. and Noirhomme-Fraiture M. (1995) Automatic hypertext link generation based on similarity measures between documents, Research Paper, RP-96-034, Institut d'Informatique, FUNDP. Available at http://www.fundp.ac.be/-lgoffine/Hypertext/semantic_links.html (visited November, 2002).
최준영, 배환국, 김기태, "하이퍼링크 정보를 이용한 웹문서의 핵심어 추출 및 개념구성," 98 ES 및 MIS 춘계학회 자료집, 1998.
T. Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In Proc. of the European Conference on Machine Learning, Springer, 1998.
Y. Yang and X Liu, A reexamination of text categorization methods, In SIGIR-99, 1999.
이종운 "사례기반추론을 이용한 한글 문서분류 시스템의 성능 향상에 관한 연구", 아주대학교 대학원 경영정보학과 석사학위논문, 2001.
F. Debole and F. Sebastiani, Supervised tern weighting for automated text categorization, In Proc. of SAC-03, 18th ACM Symposium of Applied Computing, pp.784-788, 2003.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구
A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (9)

이 논문을 인용한 문헌

저자의 다른 논문 :

박동진 (18) 최기석 (8) 이명선 (13) 이상태 (16)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구
A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper