웹기록물.아카이빙.웹크롤로.아키텍처.장기보존 포맷.Web records.Archiving.Web-Crawler.Architecture.Archival Data Format.
초록▼
공공기관에서 서비스되고 있는 전자 행정 자료, 국정 홍보물등의 웹기록물들 역시 후대에 전승되어야 할 중요한 사료임에도 수집, 보존, 활용 방안이 없이 소멸되고 있는 실정이다. 본 연구에서는 국가의 각 주요기관에서 생산하고 있는 웹기록물들에 대해 체계적으로 저장, 관리, 보존, 전승하기 위하여 웹기록물 보존 연구를 진행하였다. 현재 국내의 기록물 보존 방법은 특정한 규약 없이 각 수집 기관의 보존 정책에 의해 관리되고 있으며 수집된 기록물의 상호 교환시 필요한 데이터의 포맷 및 메타데이터에 대한 정의등이 부재한 상황이다.
공공기관에서 서비스되고 있는 전자 행정 자료, 국정 홍보물등의 웹기록물들 역시 후대에 전승되어야 할 중요한 사료임에도 수집, 보존, 활용 방안이 없이 소멸되고 있는 실정이다. 본 연구에서는 국가의 각 주요기관에서 생산하고 있는 웹기록물들에 대해 체계적으로 저장, 관리, 보존, 전승하기 위하여 웹기록물 보존 연구를 진행하였다. 현재 국내의 기록물 보존 방법은 특정한 규약 없이 각 수집 기관의 보존 정책에 의해 관리되고 있으며 수집된 기록물의 상호 교환시 필요한 데이터의 포맷 및 메타데이터에 대한 정의등이 부재한 상황이다. 이를 해결하기 위하여 저장 표준으로 IIPC(international internet preservation consortium)의 WARC(Web ARC) 포맷을 기반으로 전자기록물 준현용/비현용 기록 메타와 호환성을 유지할 수 있는 메타데이터를 추가함으로써 한국형 기록물 보존 방법을 제시하였다. WARC로 구성된 웹기록물은 단순히 저장되는 것뿐만이 아니라 저장된 기록물의 내용 및 연결 정보등을 확인하고 운영자(operator)가 메타데이터를 추가할 수 있는 기능을 함께 구현하였다. 또한 웹기록물을 구성하는 내용을 직접 전할 경우 일반적으로 웹 응용 프로그램의 소스등을 포함하게 되는데 이 경우 또한 보존을 위한 특정 포맷이 존재하지 않고 있어 이를 WARC 포맷으로 저장하여 이후 이 기록을 이용하여 사이트를 복원할 수 있는 기초자료로 활용할 수 있도록 구성하였다. 본 연구는 현재 웹기록물을 수집하기 위한 시스템 환경과 원격 수집(Remote Harvesting)을 수행할 수 있는 기술들에 대한 개발을 진행하고 테스트베드를 구축하여 몇몇 웹 사이트를 대상으로 한 수집 및 평가를 진행하였으며 웹기록물의 구성 비율의 통계 기능을 통해 사이트의 구성 특성들을 확인할 수 있었다. 하지만 심층 웹(deep web)과 다양한 구현 환경을 모두 수용하기 위해서는 끊임없는 연구와 조사가 수반되어야 하며 효과적이고 가치 있는 웹 자원을 수집하기 위해서는 대상 기관과의 유기적인 협력 관계를 통해 웹기록물의 수집을 진행하여야 한다.
Abstract▼
The web documents, such as electrical administrative documents provided by public institutes, the materials for publicity campaign by government, etc., are disappearing in the absence of the methods for collection, preservation (archiving) and utilization although they are significant historical rec
The web documents, such as electrical administrative documents provided by public institutes, the materials for publicity campaign by government, etc., are disappearing in the absence of the methods for collection, preservation (archiving) and utilization although they are significant historical records that should be transmitted from generation to generation. We were working on the research on web archiving method in order to systematically save, manage, preserve and transmit web records, produced by the government agencies. In the current domestic method of preserving the web records, there are no standard regulations such as the definitions of data format and metadata, etc. necessary for the exchange of the records collected. So each institute collects and manages the web records in its own reservation policy. In order to solve this, we are proposing a web archiving method for the related environment in Korea. This method includes metadata, based on WARC(web ARC) format of IIPC(International Internet Preservation Consortium), in the preservation standard. Also this metadata can be compatible with electrical record semi-current/ non-current metatdata. Web records based on WARC are not only being saved but also provided with functions that allow the operator to verify the content and the link information of the preserved records and add metadata. Also if the content for web records is directly delivered, it generally includes the source of web application, etc. Because no specific standard format for archiving exists for this case also, we made the records be saved as WARC format and be used as basic information for web site restoration. In this research, we have developed the system environment for web archiving and the technologies for remote harvesting and built a testbed. With this testbed, we have preceeded the collection and evaluation on some web sites and were able to verify their features through the statistics function about the ration of each web records component. However, in order to include all of deep web and various web environment, further research and investigation are required. Also to collect valuable web records effectively, it is necessary a continuous collection for web records through the cooperative relationship
※ AI-Helper는 부적절한 답변을 할 수 있습니다.