[논문]XML 기술과 스트링 매칭 기법을 이용한 구조 기반 정보 검색 알고리즘

한기덕; 권혁철

문제 정의

1에서 언급한 사용자 Query와 검색 대상이 되는 XML 문서를 이용하여유사도를 측정하는 방법이 명확하게 제시되어야 한다. 본 논문에서는 스트링 매칭 기법을 이용한 유사도 측정 방법을 제시한다.
따라서 XML 정보를 다루는 근본적인 기술의 개발은 의미에 기반을 둔 정보 검색 기술의 발전에 이바지할 수 있을 것이다. 본 논문은 Parsing의 결과물인 Parse Tree, XML 기술 및 Approximate String Matching[6] 기법을 활용하여 구조에 기반을 둔 정보 검색 알고리즘을 제안한다. 제안되는 알고리즘은 확장이 가능한 형태이며, Parse Tree가 의미에 기반을 둔 Parsing 기법을 이용하여 생성되었다면 제안하는 알고리즘의 적용 혹은 확장적용을 통해 의미에 기반을 둔 정보 검색 기능의 개발도 가능할 것이다.
본 논문은 위와 같이 변환된 XML 정보를 가지고 정보를 검색하는 기법을 제시하는 것이 목적이며, Parsing의 성능 등은 고려 대상에 포함되지 않는다.

가설 설정

위치이며, 비교 대상이 되는 문자들인 (0, i) 위치의 문자와 (j, 0) 위치의 문자가 동일한지의 여부에 따라 계산 방식이 달라진다. 지금 계산해야 하는 문자들이 동일하고 지금 계산해야 하는 Table의 위치가 (i, j)라면, (i-1, j)에 insertion cost를 더한 값, (i, j-1)에 deletion cost를 더한 값, (i-1, j-1)의 값들 중에 가장 작은 값이 (i, j)의 값이 되며, 지금 계산해야 하는 문자들이 동일하지 않고 지금 계산해야 하는 Table의 위치가 (i, j)라면, (i-1, j)의 값에 insertion cost를 더한 값, (i, j-1)에 deletion cost를 더한 값, (i-1, j-1)에 substitution cost 를 더한 값들 중에 가장 작은 값이 (i, j)의 값이 된다.

제안 방법

제안되는 알고리즘은 확장이 가능한 형태이며, Parse Tree가 의미에 기반을 둔 Parsing 기법을 이용하여 생성되었다면 제안하는 알고리즘의 적용 혹은 확장적용을 통해 의미에 기반을 둔 정보 검색 기능의 개발도 가능할 것이다. 제안하는 알고리즘을 간단하게 설명하자면 Query 정보와 문서 정보를 Parsing 하여 얻은 Parse Tree를 XML 형태의 정보로 변환한 후, 두 정보를 가지고 Approximate String Matching 기법을 적용하여 Query 정보와 문서 정보 간의 유사도를 계산한다는 방식이다.
제안한 알고리즘의 속도라는 측면에서의 성능은 XML Parser의 처리 속도에 Approximate String Matching 기법을 적용하는 동작의 처리 속도를 더한 합이 된다. XML Parser의 처리 속도를 Tag 간의 비교를 하는 동작의 수를 이용하여 계산한다면 XML 정보의 모든 Tag 와 Query의 Root Tag와의 동일 여부를 계산해야 하므로 ㊀ (N) 이 된다.

이론/모형

유사도 측정을 위해 사용하는 스트링 매칭 기법은 Approximate String Matching이며, 적용 방법은 다음과 같다.

성능/효과

1) XML 문서의 내용 중에 Query 정보의 Root Tag와 동일한 태그에 대해서만 Approximate String Matching 기법을 적용하며, Query 정보의 Root Tag 와 동일한 태그의 태그 및 하위 정보들까지가 Approximate String Matching 기법의 적용 범위가 된다. (그림 6 참고)
논문에서 제시한 구조에 기반을 둔 정보검색 알고리즘은 파싱 기술과 Approximate String Matching 기법을 이용한다는 특징을 가지고 있다. Parsing 작업의 결과인 Parse Tree를 XML 형태로 변환함으로써 기존에 존재하는 XML 기술을 이용할 수 있다는 장점이 있으며, Query와 문서 정보를 Parsing 한결 과에 대해 Approximate String Matching 기법을 이용한 유사도 측정 방법을 사용하여 구조에 의한 정보 검색, 약간 철자가 다른 단어나 오타가 발생한 단어에 대해서도 처리가 가능한 비슷한 단어에 대한 정보 검색, 비슷한 구조에 대한 정보 검색 등이 가능하다. 향후 과제로는 알고리즘의 검색 성능을 측정하기 위한 시스템구축 및 실험을 할 계획이며, 제시한 알고리즘에 적합한 색인 구조에 관한 연구를 진행할 계획이다.
이 Tree 정보를 정보 검색에 이용함으로써 구조에 기반을 둔 정보 검색이 가능하다. 논문에서 제시한 구조에 기반을 둔 정보검색 알고리즘은 파싱 기술과 Approximate String Matching 기법을 이용한다는 특징을 가지고 있다. Parsing 작업의 결과인 Parse Tree를 XML 형태로 변환함으로써 기존에 존재하는 XML 기술을 이용할 수 있다는 장점이 있으며, Query와 문서 정보를 Parsing 한결 과에 대해 Approximate String Matching 기법을 이용한 유사도 측정 방법을 사용하여 구조에 의한 정보 검색, 약간 철자가 다른 단어나 오타가 발생한 단어에 대해서도 처리가 가능한 비슷한 단어에 대한 정보 검색, 비슷한 구조에 대한 정보 검색 등이 가능하다.
) 등의 구조적 정보를 가지고 있다. 본 논문에서 제시하는 알고리즘은 Parsing의 결과인 Parse Tree의 정보를 정보 검색에 이용함으로써 구조에 기반을 둔 정보 검색기법이라고 말할 수 있다. 또한, 의미 기반의 Parsing 기법에 의해 생성된 Parse Tree에 본 논문에서 제시한 알고리즘을 적용한다면 높은 수준의 의미에 기반을 둔 정보 검색 기능의 구현이 가능할 것이다.
제안하는 알고리즘의 장점은 구조 기반의 정보 검색 기능이 가능하고 비슷한 정보에 대한 검색 기능이 가능하며, 비슷한 구조에 대한 검색 기능이 가능하다는 것이다.

후속연구

Query와 문서 정보는 Parsing에 의해 Parse Tree로 표현되며, Parse Tree를 XML 정보로 변환하여 유사도 측정을 위해 Approximate String Matching 기법을 적용하는 것이 제시한 알고리즘으로 XML 정보의 검색은 표준화된 XML Parser 기법인 DOM이나 SAX를 구현한 XML Parser 프로그램이나 라이브러리가 존재하므로 해당 프로그램이나 라이브러리를 이용한다면 XML 검색을 위한 모듈은 쉽게 개발이 가능하다.
본 논문에서 제시하는 알고리즘은 Parsing의 결과인 Parse Tree의 정보를 정보 검색에 이용함으로써 구조에 기반을 둔 정보 검색기법이라고 말할 수 있다. 또한, 의미 기반의 Parsing 기법에 의해 생성된 Parse Tree에 본 논문에서 제시한 알고리즘을 적용한다면 높은 수준의 의미에 기반을 둔 정보 검색 기능의 구현이 가능할 것이다.
방법에 대해서는 설명하지 않았다. 이 부분에 대해서는 더 많은 연구를 통해 제시한 알고리즘에 최적화된 색인 구조 및 색인 방법을 찾을 계획이며, 이 알고리즘을 문서 집합에서 Query와 연관된 문서를 검색하는 곳에 이용하려고 할 때에는 속도나 성능을 위해서 색인 기법에 대한 고려가 필요하다.
본 논문은 Parsing의 결과물인 Parse Tree, XML 기술 및 Approximate String Matching[6] 기법을 활용하여 구조에 기반을 둔 정보 검색 알고리즘을 제안한다. 제안되는 알고리즘은 확장이 가능한 형태이며, Parse Tree가 의미에 기반을 둔 Parsing 기법을 이용하여 생성되었다면 제안하는 알고리즘의 적용 혹은 확장적용을 통해 의미에 기반을 둔 정보 검색 기능의 개발도 가능할 것이다. 제안하는 알고리즘을 간단하게 설명하자면 Query 정보와 문서 정보를 Parsing 하여 얻은 Parse Tree를 XML 형태의 정보로 변환한 후, 두 정보를 가지고 Approximate String Matching 기법을 적용하여 Query 정보와 문서 정보 간의 유사도를 계산한다는 방식이다.
Parsing 작업의 결과인 Parse Tree를 XML 형태로 변환함으로써 기존에 존재하는 XML 기술을 이용할 수 있다는 장점이 있으며, Query와 문서 정보를 Parsing 한결 과에 대해 Approximate String Matching 기법을 이용한 유사도 측정 방법을 사용하여 구조에 의한 정보 검색, 약간 철자가 다른 단어나 오타가 발생한 단어에 대해서도 처리가 가능한 비슷한 단어에 대한 정보 검색, 비슷한 구조에 대한 정보 검색 등이 가능하다. 향후 과제로는 알고리즘의 검색 성능을 측정하기 위한 시스템구축 및 실험을 할 계획이며, 제시한 알고리즘에 적합한 색인 구조에 관한 연구를 진행할 계획이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

XML 기술과 스트링 매칭 기법을 이용한 구조 기반 정보 검색 알고리즘
Structure Based Information Retrieval Algorithm Using XML Technology and String Matching Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

XML 기술과 스트링 매칭 기법을 이용한 구조 기반 정보 검색 알고리즘 Structure Based Information Retrieval Algorithm Using XML Technology and String Matching Algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

XML 기술과 스트링 매칭 기법을 이용한 구조 기반 정보 검색 알고리즘
Structure Based Information Retrieval Algorithm Using XML Technology and String Matching Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper