1990년대 중반부터 다양하고 강력한 문서편집기의 보편화와 더불어 국내외의 대학에서는 책자형태의 논문제출과 동시에 전자형태 학위논문의 제출을 의무화하고 있다. 그러나 제출된 방대한 야의 전자형태의 논문들은 한글, MS-Word, Latexe 등 다양한 문서편집기로 작성되었고 문서형식의 표준화가 이루어지지 않아 효율적으로 활용되지 못하고 있는 실정이다. 본 논문에서는 다양한 형태로 존재하는 학위논문들을 하나의 통일된 중간포맷으로 변혼하고, 변환된 논물들을 전문데이터베이스(Full Text Datsbase)화하여 이를 인터넷을 통해 효육적으로 검색하고 서비스하기 위한 학위논문 전문검색시스템을 구현한다.
1990년대 중반부터 다양하고 강력한 문서편집기의 보편화와 더불어 국내외의 대학에서는 책자형태의 논문제출과 동시에 전자형태 학위논문의 제출을 의무화하고 있다. 그러나 제출된 방대한 야의 전자형태의 논문들은 한글, MS-Word, Latexe 등 다양한 문서편집기로 작성되었고 문서형식의 표준화가 이루어지지 않아 효율적으로 활용되지 못하고 있는 실정이다. 본 논문에서는 다양한 형태로 존재하는 학위논문들을 하나의 통일된 중간포맷으로 변혼하고, 변환된 논물들을 전문데이터베이스(Full Text Datsbase)화하여 이를 인터넷을 통해 효육적으로 검색하고 서비스하기 위한 학위논문 전문검색시스템을 구현한다.
Form the middle of 199os, most universities in Korea have requested their students to submit not only the original text books but also their Electronic Theses and Dissertations(ETD) for masters degree and doctorates degree. The ETD submitted by the students are usually developed by various kinds of ...
Form the middle of 199os, most universities in Korea have requested their students to submit not only the original text books but also their Electronic Theses and Dissertations(ETD) for masters degree and doctorates degree. The ETD submitted by the students are usually developed by various kinds of word processors such as MS-Word, LaTex, and HWP. Since there is no standard format for ETD to merge various different formats yet, it is difficult to construct the integrated database that provides full-tex service. In this paper, we transform three different ETD formats into a unified one, construct a full-text database, and implement the full-text retrieval system for effective search in the Internet environment.
Form the middle of 199os, most universities in Korea have requested their students to submit not only the original text books but also their Electronic Theses and Dissertations(ETD) for masters degree and doctorates degree. The ETD submitted by the students are usually developed by various kinds of word processors such as MS-Word, LaTex, and HWP. Since there is no standard format for ETD to merge various different formats yet, it is difficult to construct the integrated database that provides full-tex service. In this paper, we transform three different ETD formats into a unified one, construct a full-text database, and implement the full-text retrieval system for effective search in the Internet environment.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 이들 프로그램들은 영어권에서 개발되었기 때문에 한글과 같은 2바이트 문자에 대한 고찰이 전혀 이뤄지지 않았다. 따라서 본 연구에서는 한글로된 DVI 파일을 텍스트로 변환하는 프로그램을 작성하였다.
본 논문에서는 활용되지 못하고 적재되어 있는 전자형태의 논문들을 자동으로 전문데이터베이스화하기 위한 효율적인 복합문서 변환 방법과 인터넷상에서 효율적으로 서비스할 수 있는 전문 검색시스템을 개발하였다. 적용사례로써 KMST와 포항공대의 전자형태논문 2, 200건에 대한 텍스트전문데이터베이스를 구축하였고 이를 연구개발정보센터 정보검색시스템인 KIHSTAL-Ⅱ를 사용하여 서비스 환경을 구현하였다.
본 논문의 주요 목적은 현재 활용되지 못하고 있는 각 대학들의 방대한 양의 전자형태의 논문들을 하나의 전문데이터베이스로 구축하고 이를 활용하는 것이다. 첫째, 여러 형태의 전자문서를 하나의 데이터베이스로 통일시키기 위한 효율적인 복합문서 변환 및 처리 방법을 제시한다.
차지하고 있다[5]. 본 연구에서는 각기 다른 형식 (HWP, DOC, TEX)으로 저장되어 있는 전자문서를 동일한 형식(DVI형식)으로 변환하기 위한 DVI 처리 도구를 개발하였다M. 문서변환기로써 TeXplus 라이터, TeXplus HWP 라이터를 개발하였으며, 페이지 단위로 문서를 검색하기 위하여 DVI형식의 문서로부터 텍스트를 추출하는 텍스트 추출기(DVI2TXT), 그리고 DVI 문서에서 특정 페이지를 추출하기 위한 DVI서버(DVI Split)와 DVI문서를 브라우저로 볼 수 있는 DVI뷰어 (TeXplus)를 개발하였다.
가설 설정
. 전송도중 열람이 가능해야 한다.
1) 사용자들은 클라이언트에서 검색할 질의어를 입력한다.
제안 방법
있다. 1990년 중반 이전의 학위논문은 거의 책자 형태로 보관하고 있으므로 이들에 대해서는 TIFF 형식의 이미지 형태로 데이터베이스를 구축하였다 . 사용자들은 학위논문의 서지사항을 검색하여 자신이 원하는 원문을 이미지로써 접근할 수 있고, 또한 TOC (Table of Gontents)를 통해 원하는 페이지의 원문을 직접 열람하도록 디자인하였다.
소프트웨어다. HWP 문서는 한글워드나 엑셀, 훈민정음 등이 일반적으로 사용하는 윈도우 표준 인쇄방식을 사용하지 않고 HWP 자체의 인쇄 경로를 사용하기 때문에 TeXplus 라이터를 사용하여 HWP 문서를 DVI로 변환할 수 없기 때문에 별도로 개발하게 되었다. TeXplus 라이터와 마찬가지로 TeXplus HWP 라이터 또한 원본과 동일하게 수식과 그래픽을 포함한 한글 DV1 파일을 만늘 뿐 아니라 텍스드를 코드값으로 저장하여 검색엔진을 쓰는 전자도서관 구축에 적당하다[1].
첫째, 여러 형태의 전자문서를 하나의 데이터베이스로 통일시키기 위한 효율적인 복합문서 변환 및 처리 방법을 제시한다. 둘째, 구축된 전문 데이터베이스를 인터넷상에서 효율적으로 서비스할 수 있는 전문검색시스템을 구현한다.
문서구조정보는 국내 전자도서관사업 등 타기관과의 문서교환을 갑안하여 SGML로 제작하였다 TOC는 TIFF 형식이 아닌 타 매체를 수용할 수 있도록 구성하였으며, TIFF 이미지를 PDF 등 타 이미지로 변환했을 때도 사용할 수 있도록 독립척으로 저장하고 관리토록 하였다.
본 연구에서는 각기 다른 형식 (HWP, DOC, TEX)으로 저장되어 있는 전자문서를 동일한 형식(DVI형식)으로 변환하기 위한 DVI 처리 도구를 개발하였다M. 문서변환기로써 TeXplus 라이터, TeXplus HWP 라이터를 개발하였으며, 페이지 단위로 문서를 검색하기 위하여 DVI형식의 문서로부터 텍스트를 추출하는 텍스트 추출기(DVI2TXT), 그리고 DVI 문서에서 특정 페이지를 추출하기 위한 DVI서버(DVI Split)와 DVI문서를 브라우저로 볼 수 있는 DVI뷰어 (TeXplus)를 개발하였다. 개발된 DVI 처리 도구들의 구성도는 (그림 1)에 나타나 있으며, 각 변환刀와 처리기의 주요 특징과 기능은 다음과 같다.
부분만을 볼 수 있어야 한다. 본 연구에서는 이러한 필요성에 따라 DVI 문서를 페이지 별로 재구성하여 요구하는 부분만 전송하도록 했다. 즉 여러 페이지로 구성되어 있는 DVI 파일에서 필요로 하는 본문만을 떼어내서 새로운 DVI 파일로 재구성한 후 사용자에게 전송하는 방식이다.
그러나 각 대학들에 제출된 많은 양의 논문들은 대다수 디스켓으로 보관되어 있을 뿐 활용되지 못하고 있으며, 현재까지 논문들을 전문 데이터베이스화하여 인터넷을 통하여 효율적으로 서비스하고 있는 곳은 세계적으로도 거의 없는 실정이다. 본 연구에서는 활용되지 않고 디스켓 형태로 보관된 대용량의 다양한 전자형태의 석박사학위 논문들을 중간 형태(DVI)로 변환한 후 전문검색이 가능한 데이터베이스를 구축하고 이를 서비스하는 시스템을 구현하였다.
1990년 중반 이전의 학위논문은 거의 책자 형태로 보관하고 있으므로 이들에 대해서는 TIFF 형식의 이미지 형태로 데이터베이스를 구축하였다 . 사용자들은 학위논문의 서지사항을 검색하여 자신이 원하는 원문을 이미지로써 접근할 수 있고, 또한 TOC (Table of Gontents)를 통해 원하는 페이지의 원문을 직접 열람하도록 디자인하였다.
서변환기(Texplus라이터, Texplus HWP라이터)를 이용하여 DVI형태로 변환하였다. 이렇게 생성한 DVI파일은 전문검색을 위하여 KRISTAL-n DVI서버에 보관하게 된다.
인터넷에서 검색속도의 향상을 위하여 본문 데이터베이스를 검색할 때에는 원하는 페이지만을 전송하여 검색하고 인쇄하도록 DVI 문서분할기를 사용하였다. 특히 자연어 질의를 통해 텍스트전문에 대한 검색 뿐만 아니라 그림이나 표도 검색하기 위해 그림과 표에 있는 텍스트로부터 색인어를 추출하여 검색시 활용할 수 있도록 디자인하였다.
적용사례로써 KMST와 포항공대의 전자형태논문 2, 200건에 대한 텍스트전문데이터베이스를 구축하였고 이를 연구개발정보센터 정보검색시스템인 KIHSTAL-Ⅱ를 사용하여 서비스 환경을 구현하였다.
0은 전자도서관 구축에 필요한 몇가지의 기능을 추가하고 있다. 정보 검색에 익숙하지 않는 사용자도 KIHSTAL-Ⅱ 를 쉽게 이용할 수 있도록 검색 결과의 랭킹 기능을 도입하고, KRISTALTI 적재 기능을 개선하여 일반 적재 뿐만 아니라 자동으로 실시간 정보 수정/삭제/추가가 가능하도록 했다. 또한 상용 데이터베이스 시스템에 자료가 이미 적재되어 있을 경우에도 KRISTAL-n* 이용하여 검색이 가능하도록 KRISTAL-n 시스템과 상용 데이터베이스 시스템의 연동 기능을 부가했다[5].
제2장은 다양한 형태의 전자문서들의 특징과 차이를 비교하고 문서의 변환과 전송의 기준을 제시한다. 중간포맷으로 DVI를 선정한 배경을 설명하고 문서변환을 위해 개발한 각종 도구들을 기술한다. 제3장에서는 정보검색시스템으로 사용한 KRISTALTI를 간략히 소개하고 전문데이터베이스 구축 과정을 설명한다.
것이다. 첫째, 여러 형태의 전자문서를 하나의 데이터베이스로 통일시키기 위한 효율적인 복합문서 변환 및 처리 방법을 제시한다. 둘째, 구축된 전문 데이터베이스를 인터넷상에서 효율적으로 서비스할 수 있는 전문검색시스템을 구현한다.
특히 우리나라에서 많이 사용하고 있는 한 글 워 드프로세 서 인 (쥐마이 크로소프트의 한글워 드, 삼성전자의 훈민정음, 핸디소프트의 아리랑 등에서 원본과 동일하게 수식과 그래픽을 포함한 한글 DVI파일을 만들수 있도록 구현하였다. TeXplus 라이터는 TeX 이 어려워서 사용하기 힘들었던 점을 고려하여 윈도우용 응용프로그램에서 쉽게 사용할 수 있도록 하였다.
인터넷에서 검색속도의 향상을 위하여 본문 데이터베이스를 검색할 때에는 원하는 페이지만을 전송하여 검색하고 인쇄하도록 DVI 문서분할기를 사용하였다. 특히 자연어 질의를 통해 텍스트전문에 대한 검색 뿐만 아니라 그림이나 표도 검색하기 위해 그림과 표에 있는 텍스트로부터 색인어를 추출하여 검색시 활용할 수 있도록 디자인하였다.
대상 데이터
전문 데이터베이스 구축 대상은 KANST와 포항공대, 두 대학으로 선정하였는데, 각 대학이 소장하고 있는 전자형태의 학위논문의 분포는과 같다.
이론/모형
본 연구에서는 학위논문의 표준문서형식으로 DVI를채택하였다. DVI형식은 학술 문서교환 및 출력을 위한 용도로 미국 스탠포드대학에서 고안된 문서 포맷이다.
후속연구
이러한 결과는 선자형태 원문에 대한 페이지 난 위 검색 및 전송 기능 등을 갖추게 함으로써 사용자들에게 편리성을 제공함과 아울러 향후 전자형태 문서에 대한 데이터베이스화의 길을 여는데 크게 기여하리라 생각된다.
참고문헌 (12)
이기호 외, '전자도서관 인프라 및 데이터베이스 구축', pp.263, 연구개발정보센터, 1998
이준호 외, '정보검색을 위한 효율적인 저장시스템 개발', pp.162, 연구개발정보센터, 1997
유성준 외, '인터넷/인트라넷 환경에서의 온라인 문서관리를 위한 MS-Word형식문서의 처리에 관한 연구', pp.22, 연구개발정보센터, 1998
서영진 외, '인터넷을 통한 복합문서의 전송 및 처리방안에 관한 연구', pp.83, 연구개발정보센터, 1998
박혁로 외, '효율적 정보검색 환경구현', pp.203, 연구개발정보센터, 1998
DVI 문서형식가 PDF 문서형식의 비교, http://ww.w.texplus.com/texplus/cornp5.html
문성빈, '적합성 피드백을 이용한 전문검색시스템의 검색 효율성 증진을 위한 연구', 정보관리학회지, 제10권, 제2호, pp.43-67, 1993
Status of ETD Initiatives in the US and Canada, http://www.fis.utoronto.ca/etd/report1.html
An SGML/HTML Electronic Thesis and Dissertation Library, http://www.stg.brown.edu/webs/tei10/tei10.papers/erickson.html
Blair, D.C., & Maron, M.E., 'Full Text Information Retrieval : Further Analysis and Clarification, Information Processing and Management,' Vol.26, No.3, pp.437-447, 1990
Blair, D.C., & Maron, M.E., 'An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System,' Communication of the ACM, Vol.28, No.3, pp.289-299, 1985
※ AI-Helper는 부적절한 답변을 할 수 있습니다.