이 연구에서는 국립중앙도서관이 구축 및 운영하는 웹 아카이브 OASIS 콘텐츠의 특성과 현황을 살펴보았다. 2013년 12월-2014년 11월 OASIS에 공개된 웹사이트 55,581건의 수량적 성장과 주제 분포, '최신 수집자료'의 아카이빙 현황 등을 검토하였다. 급격한 수량적 성장에도 불구하고, '사회과학'(63.6%)에 집중한 주제 편향성, '정치학'(34.7%. 2003년 전체의 21.4%)의 과도한 편중, '최신 수집자료'의 저작자 권위 및 학술적 가치의 근거 미약, 웹사이트와 인스턴스의 혼용에 따른 통계의 중복 및 부정확성 등 문제점이 다시 확인되었다. 양적 성장에 동반하지 않는 질적 수준 문제가 지속되며, 시급한 수집정책 개선과 품질제어가 필요한 것으로 나타났다.
이 연구에서는 국립중앙도서관이 구축 및 운영하는 웹 아카이브 OASIS 콘텐츠의 특성과 현황을 살펴보았다. 2013년 12월-2014년 11월 OASIS에 공개된 웹사이트 55,581건의 수량적 성장과 주제 분포, '최신 수집자료'의 아카이빙 현황 등을 검토하였다. 급격한 수량적 성장에도 불구하고, '사회과학'(63.6%)에 집중한 주제 편향성, '정치학'(34.7%. 2003년 전체의 21.4%)의 과도한 편중, '최신 수집자료'의 저작자 권위 및 학술적 가치의 근거 미약, 웹사이트와 인스턴스의 혼용에 따른 통계의 중복 및 부정확성 등 문제점이 다시 확인되었다. 양적 성장에 동반하지 않는 질적 수준 문제가 지속되며, 시급한 수집정책 개선과 품질제어가 필요한 것으로 나타났다.
The purpose of this research is to examine the characteristics and current status of OASIS, a web archive, developed and operated by the National Library of Korea. From December 2013 to November 2014, an analysis of a numerical growth and subject distribution of 55,581 websites archived at OASIS sho...
The purpose of this research is to examine the characteristics and current status of OASIS, a web archive, developed and operated by the National Library of Korea. From December 2013 to November 2014, an analysis of a numerical growth and subject distribution of 55,581 websites archived at OASIS shows many problems in quality, including an overwhelming proportion of 'Social Science' and its subclass 'Politics', consequential lack of balance in subject distribution, lack of authority or scholarly value of some contents, unclear application of selection criteria for personal creators/publishers, and inaccurate and overlapping statistics. Despite an impressive growth in quantity, immediate improvement of selection policies and quality control is needed.
The purpose of this research is to examine the characteristics and current status of OASIS, a web archive, developed and operated by the National Library of Korea. From December 2013 to November 2014, an analysis of a numerical growth and subject distribution of 55,581 websites archived at OASIS shows many problems in quality, including an overwhelming proportion of 'Social Science' and its subclass 'Politics', consequential lack of balance in subject distribution, lack of authority or scholarly value of some contents, unclear application of selection criteria for personal creators/publishers, and inaccurate and overlapping statistics. Despite an impressive growth in quantity, immediate improvement of selection policies and quality control is needed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
여기에서는 이전에 수집된 웹사이트의 현재 보존 여부 및 접근 가능성을 보기 위하여 이전 연구(2011)에서 살펴보았던 55건을 검토하였다. 사이트명 키워드 검색 결과, 2014년 3월 시점에 이들 중 30건(54.
그동안 OASIS의 현황과 발전에 주목해온 일련의 연구들(김유승 2007, 2008; 윤정옥 2010, 2011, 노영희, 고영선 2012)에 따르면 OASIS는 공개된 웹 자료의 선정기준 미흡, 수집 통계의 부정확성, 수집된 콘텐츠 가치의 적절성 부족 등 다수의 문제점을 노출하고 있으며, 수집 기준과 정책의 개선이 시급한 것으로 나타났다. 이 연구는 이전 연구들의 연속선상에서 2014년 11월 시점의 OASIS 콘텐츠 현황을 검토하여, 문제점을 도출하고 가능한 개선의 방향을 제안하는 것을 그 목적으로 하였다.
이들이 과연 OASIS가 천명한 목표에 부합하는 “가치 있는 인터넷 자료”이며, “국가적 차원에서 수집·축적하여 미래 세대에 연구 자료로 제공”(국립중앙도서관. OASIS 2009) 될 만한 자료인가 하는 의문이다.
가설 설정
‘최신 수집자료’ 웹사이트에서는 몇 가지 문제점이 관찰되었다. 첫째, 아카이빙 최신성의 정의이다. <표 4> 왼쪽 칼럼의 최초 웹사이트 4건의 아카이빙 날짜는 모두 2013년 10월 30일이다.
제안 방법
여기에서는 지난 2013년 12월부터 2014년 11월 사이 수시로 OASIS 홈페이지에 공개된 웹 자원 현황을 검토한 결과를 토대로 하여, OASIS 수집 자료의 수량적 성장, 주제별 분포 추이, 콘텐츠의 지속성과 최신성 등을 분석하였다.
우선 2009년, 2013년 및 2014년 OASIS 수집 웹 자원 통계를 중심으로 주제별 수량적 성장의 추이를 분석하고, 2014년 11월 시점의 ‘최신 수집자료’ 웹사이트와 ‘주제 브라우징’ 및 ‘테마 브라우징’ 리스트에서 개별 웹사이트와 아카이빙 버전을 검토하였다.
이 연구에서는 국가 웹 아카이브 관련 국내외 문헌 및 웹사이트 등을 검토하고, 2013년 12월 26일부터 2014년 11월 10일 사이 수시로 OASIS 홈페이지에 공개된 웹 자원의 현황을 분석하였다. 우선 2009년, 2013년 및 2014년 OASIS 수집 웹 자원 통계를 중심으로 주제별 수량적 성장의 추이를 분석하고, 2014년 11월 시점의 ‘최신 수집자료’ 웹사이트와 ‘주제 브라우징’ 및 ‘테마 브라우징’ 리스트에서 개별 웹사이트와 아카이빙 버전을 검토하였다.
대상 데이터
‘나눔재단(http://www.nanu.or.kr)’도 2012년 1월 19일과 2012년 8월 3일에 각각 2건의 별개 웹사이트로 아카이빙 되었다.
OASIS 수집 웹 자원의 최신성을 확인하기 위하여 2014년 1월 22일, 4월 12일, 11월 10일 세 차례에 걸쳐 OASIS ‘최신 수집자료’ 웹사이트를 검토하여, 공개된 20건 중 처음 12건으로 를 구성하였다.
OASIS가 출범한지 10년이 되었다. 국민의 세금으로 운영되며 국가 지식자원 수집과 보존의 책임을 위탁받은 국립중앙도서관이 이처럼 국가적으로 의미 있는 서비스를 제대로 운영해 왔다는 확신이 있다면, 10주년은 기념하고 자랑할 만한 시점이다.
성능/효과
넷째, 수집 웹사이트의 최신성 정의 또한 분명하지 않았다. ‘최신 수집자료’ 웹사이트들의 아카이빙 시점과 공개 시점 사이에 4-5개월 시간차가 있고, 2013년 수집된 웹사이트가 2014년 11월에도 최신 수집 자료로 공개되기도 하였으며, 웹사이트 자체는 2009년도 것이기도 하는 등 최신성의 범위가 모호하였다.
둘째, 2013년 12월 시점의 KDC 10개 ‘주제별 브라우징’ 리스트는 ‘사회과학’이 전체의 63.6%를, 그 안에서 ‘정치학’ 소주제가 34.7%(전체의 21.4%)를 각각 구성할 정도로 수집 웹사이트의 주제 불균형이 심각함을 보여준다.
둘째, 수집 자원의 급속한 양적 성장에 대한 집착보다는 진정한 가치를 가진 양질의 콘텐츠에 초점을 맞춘 완만한 성장을 인정할 수 있어야 한다. OASIS의 운영주체는 매년 사업의 성과와 목표 달성 여부를 수치로 증명해야 하는 부담이 있겠지만, 현재뿐만 아니라 미래의 이용자들이 동의할 만한 질적 가치를 갖지 못하는 콘텐츠는 모아두어도 별 의미가 없다.
셋째, 수집 웹사이트의 지속성 여부도 확실하지 않았다. 2011년 공개 웹사이트들 중 사이트명이 확인 가능한 55건은 2014년 4월 현재 30건(54.
이 2개의 ‘나눔재단’ 상세정보의 ‘수집 메인 화면’은 동일하게 ‘3 captures: 2011/07/29-2012/08/3’이라는 정보를 포함하고, 3차례 캡처 가운데 2차례 캡처된 것, 즉 2개의 인스턴스를 2건의 별개 수집 웹사이트로 간주하고 있음을 확인할 수 있었다.
초기에 아카이빙은 인터넷 상 자료들 중 선별적이며 아주 작은 부분만 수집할 수 있었으나, 오늘날 급격한 기술 발전과 정책 변화로 웹상에서 이용할 수 있는 것과 아카이빙 할 수 있는 것 사이 격차가 줄어들고 있음을 강조하며, PANDORA 운영 기간 동안 자체의 디지털 아카이빙 시스템인 PANDAS가 3차례나 전면적 변화를 겪었음을 보고하였다. 이 연구는 초기에 꼼꼼한 정책적 및 기술적 검토와 준비로 시작된 국가 웹 아카이브의 모델이라고도 할 수 있는 PANDORA도 실제 운영과 실행의 과정에서 시행착오와 궤도 수정을 경험해야 한다는 것을 증명하였다. 한편 앞에서 언급했던 호주의 PADI 이니셔티브는 주요한 웹 아카이브 관련 연구 및 실행 사례들을 분석하여 자료를 제공하고 있다.
첫째, 무엇보다 OASIS 출범 당시 천명한 수집기준을 충실하게 적용하기만 해도 질적인 성장을 보장하고, 의심스러운 콘텐츠의 수집을 최소화할 수 있을 것이다. OASIS 출범 당시 여러 연구자들(서혜란 2004; 이혜원 2005)이 디지털 문화유산의 아카이빙 정책 방향을 제시하였고, OASIS 정책은 국가 차원에서 수집할 만한 콘텐츠의 가치와 적합성을 명백히 선언하였다.
첫째, 지난 10년 사이 OASIS 수집 웹사이트의 수량적 성장은 괄목할 만하지만, 콘텐츠의 품질은 의문시된다. 특히 ‘최신 수집자료’ 및 ‘주제별 브라우징’ 웹사이트 등은 “저작자 혹은 발행자의 권위 및 학술적 가치”와 같은 OASIS의 선정 근거에 따라 국가적 디지털 자산으로서 적합한 콘텐츠 가치를 가진 웹 자원이 수집되었는지 의문을 갖게 한다.
후속연구
이러한 문제점들은 이전 연구들(김유승 2008; 윤정옥 2011; 노영희, 고영선 2012)에서도 지적된 바 있으며, 현재 상황은 연구들에서도 제안된 개선방안들이 전혀 고려되지 않았음을 입증한다. OASIS는 계속 지적된 문제점들을 시발점으로 하여 전체 콘텐츠를 체계적으로 분석 및 평가하고 수집 방법과 절차 등 현황을 철저히 검증해야 할 것이다. 구체적 개선 방안은 검증 이후 OASIS 운영 주체인 국립중앙도서관이 자체적으로 수립해야 하겠지만, 이 연구에서 제안 가능한 개선 방향은 다음과 같다:
그다지 가치가 인정되지 않을 것들을 다량 수집하는 데 급급함으로써 오히려 가치 있는 것들이 앞서 언급한 ‘디지털 블랙홀’에 사라질 수도 있다는 우려를 정책에 반영하고, 질적 수집에 더욱 주목해야 할 것이다.
OASIS 출범 당시 여러 연구자들(서혜란 2004; 이혜원 2005)이 디지털 문화유산의 아카이빙 정책 방향을 제시하였고, OASIS 정책은 국가 차원에서 수집할 만한 콘텐츠의 가치와 적합성을 명백히 선언하였다. 선언한 바대로, 충실한 정책 실행이야말로 가장 단순하면서도 분명한 해결책이 될 수 있을 것이다.
셋째, 수집 자원의 품질을 제고하기 위해서는 수집 방법을 점검할 필요가 있다. 매년 디지털 자원 수집과 서비스 유지관리에 할당된 한정된 예산 안에서 불가피하게 여겨진 기계적 수집이나 최저가 입찰에 의존한 외주 업무 등 절차적 문제를 재고할 필요가 있다.
하지만 무엇인가 하고는 있다는 명분만 근근이 유지해오고 있었다면 철저한 점검과 반성이 필요한 시점이다. 오류와 시행착오가 있었다면 이를 객관적으로 평가하고 문자 그대로 미래를 위하여 개선방안을 모색해야 할 것이다.
이러한 중복이나 불명확한 아카이빙 버전 표시의 사례가 전체 수집 웹사이트들 가운데 얼마나 나타날지 이 연구에서 확인할 수 없었으나 분명 문제가 있는 것은 사실이다. 중복이 있다면, 그 규모가 얼마나 큰지, 그것이 단순 오류인지, 의도적인 숫자 부풀리기인지는 향후 전수조사로서만 답을 얻을 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
OASIS의 문제점은 무엇인가?
그동안 OASIS의 현황과 발전에 주목해온 일련의 연구들(김유승 2007, 2008; 윤정옥 2010, 2011, 노영희, 고영선 2012)에 따르면 OASIS는 공개된 웹 자료의 선정기준 미흡, 수집 통계의 부정확성, 수집된 콘텐츠 가치의 적절성 부족 등 다수의 문제점을 노출하고 있으며, 수집 기준과 정책의 개선이 시급한 것으로 나타났다. 이 연구는 이전 연구들의 연속선상에서 2014년 11월 시점의 OASIS 콘텐츠 현황을 검토하여, 문제점을 도출하고 가능한 개선의 방향을 제안하는 것을 그 목적으로 하였다.
OASIS의 구축 목적은 무엇인가?
우리나라는 2004년 국립중앙도서관이 OASIS(Online Archiving & Searching Internet Sources)라는 명칭의 국가 웹 아카이브를 구축하고 “가치 있는 인터넷 자료를 국가적인 차원에서 수집·축적하여 미래 세대에 연구 자료로 제공”하겠다는 목표를 선언하였다(국립중앙도서관. OASIS 2009).
호주에서 구축한 국가 웹 아카이브는 무엇인가?
그동안 여러 나라에서 급격히 증대하는 웹 정보자원 가운데 가치 있는 자국 관련 인터넷 자료를 다양한 기준과 관점에 의거하여 수집, 보존하고 이용자에게 제공하려는 목적으로 국가 웹 아카이브를 구축하기 시작하였고, 지난 십여 년 사이 그러한 노력의 성과 또한 웹상에서 공개되고 있다. 호주는 일찍이 1996년부터 National Library of Australia(2014)가 “호주와 호주인에 관련된 역사적 온라인 간행물의 컬렉션”인 PANDORA를 구축하고 있으며, 미국의회도서관도 일찍부터 “미래 세대가 이용할 수 있도록 현재의 디지털 표현물(digital expressions)을 보존”하는 것의 중요성을 강조하면서 국가 디지털 기반구조 및 보존 프로그램(National Digital Infrastructure and Preservation Program)의 계획을 선도하였다(Beagrie 2003).영국은 2004년부터 British Library가 UK Web Archive(2014)를 구축하여 “연구를 공개하고, 영국 전역의 생활, 관심 및 활동의 다양성을 반영하며 웹 혁신을 증명하는 웹사이트” 및 “브리핑, 보고서, 정책선언, 그 밖의 단명하지만 중요한 형태의 정보를 수록하는 회색문헌”을 수집하고 있다.
참고문헌 (28)
국립중앙도서관. 2010 국립중앙도서관연보. 서울: 국립중앙도서관, 2011. (National Library of Korea. 2011. Annual Report 2010 National Library of Korea. Seoul: National Library of Korea.)
국립중앙도서관. 2012 국립중앙도서관연보. 서울: 국립중앙도서관, 2013. (National Library of Korea. 2013. Annual Report 2012 National Library of Korea. Seoul: National Library of Korea.)
국립중앙도서관. OASIS. 2009. OASIS 소개. 개요. [cited 2009.5.22] (National Library of Korea. OASIS. 2009. OASIS Introduction. Overview. [cited 2009.5.22].)
국립중앙도서관. OASIS. 2013. OASIS 소개. 자원 수집 지침. [cited 2013.3.22] (National Library of Korea. OASIS. 2013. Selection Guidelines. [cited 2013.3.22.].)
김유승. 2008. 복합적 웹 아카이빙 정책에 관한 고찰: 프랑스국립도서관의 사례를 중심으로. 한국문헌정보학회지, 42(4): 159-179. (Kim, You-seung. 2008. "A Study of Combined Web Archiving Policy : BnF's Three Layers Web Archiving Strategy." Journal of the Korean Society for Library and Information Science, 42(4): 159-179.)
김유승. 2007. 웹 아카이빙의 법?제도적 문제에 대한 고찰: 웹 정보자원의 특성을 중심으로. 한국문헌정보학회지, 41(3): 5-24. (Kim, You-seung. 2007. "A Study of Legal Issues for Web Archiving." Journal of the Korean Society for Library and Information Science, 41(3): 5-24.)
노영희, 고영선. 2012. OASIS의 선정지침 개선(안)에 관한 연구. 한국비블리아학회지, 23(93): 105-137. (Noh, Younghee, & Go, Youngsun. 2012. "A Study on Improving the OASIS Selection Guidelines." Journal of the Korean Biblia Society for Library and Information Science, 23(3): 105-137.)
서혜란. 2004. 디지털 납본제도 방안. 서울: 국립중앙도서관. (Suh, Hye-Ran. 2004. Policies of Digital Deposits. Seoul: National Library of Korea.)
윤정옥. 2010. 웹 아카이브 OASIS에 관한 고찰. 한국문헌정보학회지, 44(2): 5-27. (Yoon, Cheong-Ok. 2010. "A Research on the OASIS, a Web Archive in Korea." Journal of the Korean Society for Library and Information Science, 44(2): 5-27.)
윤정옥. 2011. 웹 아카이브 OASIS의 현황에 관한 연구. 정보관리연구, 42(3): 95-116. (Yoon, Cheong-Ok. 2011. "A Research on the OASIS, a Web Archive in Korea, Revisited." Journal of Information Management, 42(3): 95-116.)
이소연. 2008. 믿을 수 있는 디지털 아카이브 인증기준: OASIS 적용사례. 정보관리학회지, 25(3): 5-25. (Lee, So-Yeon. 2008. "Trustworthy Repositories Audit Criteria: Self-Assessment of OASIS." Journal of the Korean Society for Information Management, 25(3): 5-25.)
이혜원. 2005. 온라인 디지털 자원 구축 사례: 국립중앙도서관을 중심으로. 서울: 국립중앙도서관. (Lee, Hyewon. 2004. Development of Online Digital Resources: The Case of the National Library of Korea. Seoul: National Library of Korea.)
Beagrie, Neil. National Digital Preservation Initiatives: An Overview of Development in Australia, France, the Netherlands and the United Kingdom and of Related International Activity. Washington, D.C.: Council on Library and Information Resources and Library of Congress, 2003. [cited 2014.12.4].
Brazier, Caroline. 2013. Born.digital@british.library: the opportunities and challenges of implementing a digital collection development strategy. Paper presented at: IFLA WLIC 2013-Singapore-Future Libraries: Infinite Possibilities in Session 198-National Libraries. [cited 2014.11.4].
British Library. From Stored Knowledge to Smart Knowledge: The British Library's Content Strategy 2013-15. [cited 2014.11.4].
Crook, Edgar. 2008. [cited 2014.11.12].
Day, Michael. 2003. Collecting and Preserving the World Wide Web: A Feasibility Study Undertaken for the JISC and Wellcome Trust. UKOLN, University of Bath. Version 1.0. [cited 2014.11.4].
Gomes, Daniel, Miranda, Joao, and Costa, Miguel. 2011. "A Survey on Web Archiving Initiatives." Proceedings of the 15th International Conference on Theory Practice Digital Libraries, Rese. Adv. Technol. Digital Libraries: 408-420. [cited 2014.11.4].
Meyer, Eric. 2012. Researcher Engagement with Web Archives-Challenges and Opportunities. Technical Report, Joint Information Systems Committee (JISC). [cited 2014.11.4].
Meyer, Eric. 2011. The State of the Art and the Future(s) of Web Archiving. Presented at the Oxford Internet Institute, October 7, 2011. [cited 2014.11.4].
National Library of Australia. 2014a. Pandora Overview. [cited 2014.11.4].
National Library of Australia. 2014b. PANDORA archive size and monthly growth. Statistics as at 26 October 2014. 2014b. [cited 2014.11.4].
National Library of Australia. Preserving Access to Digital Information (PADI). 2014. Web Archiving. [cited 2014.11.4].
Toyoda, M., and Kitsuregawa, M. 2012. "The History of Web Archiving." Proceedings of the IEEE 100: 1441-1443.
UK Web Archive. 2014a. UK Web Archive statistics. Statistics at 06 November, 2014. [cited 2014.11.6].
UK Web Archive. 2014b. What is the UK Web Archive? [cited 2014.11.4].
UNESCO. 2004. Charter on the Preservation of Digital Heritage. Records of the General Conference, 32nd Session, Paris, 29 September to 17 October 2003. Paris: UNESCO, 2004. [cited 2014.11.6].
※ AI-Helper는 부적절한 답변을 할 수 있습니다.