본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF(Portable Document Format)를 이용해서 고문헌의 원문을 디지털화하여, 웹상에서 이용자가 고문헌의 원문을 손쉽게 검색할 수 있도록 하기 위한 방안에 대해 연구한 것이다. 이전의 Acrobat 3.0판은 한글 지원에 문제가 많았으나, 이번에 개정된 4.0판에서는 다국어폰트의 지원으로 한글, 중국어, 일본어 등의 PDF변환이 가능해졌다. 따라서 <한글97>(속칭<아래아 한글>)로 구축된 고문헌의 원문파일을 PDF로 변환은 물론 편집도 가능하게 되었다. PDF파일의 뷰어인 Acrobat Reader는 웹상에서 무상으로 다운로드 받을 수 있으므로, 이 PDF를 이용하여 고문헌의 원문을 디지털화 한다면, 향후 개선되어야 할 문제가 있긴 하지만, 이용자가 인터넷상에서 손쉽게 고문헌의 원문을 검색할 수 있게 될 것이다.
본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF(Portable Document Format)를 이용해서 고문헌의 원문을 디지털화하여, 웹상에서 이용자가 고문헌의 원문을 손쉽게 검색할 수 있도록 하기 위한 방안에 대해 연구한 것이다. 이전의 Acrobat 3.0판은 한글 지원에 문제가 많았으나, 이번에 개정된 4.0판에서는 다국어폰트의 지원으로 한글, 중국어, 일본어 등의 PDF변환이 가능해졌다. 따라서 <한글97>(속칭<아래아 한글>)로 구축된 고문헌의 원문파일을 PDF로 변환은 물론 편집도 가능하게 되었다. PDF파일의 뷰어인 Acrobat Reader는 웹상에서 무상으로 다운로드 받을 수 있으므로, 이 PDF를 이용하여 고문헌의 원문을 디지털화 한다면, 향후 개선되어야 할 문제가 있긴 하지만, 이용자가 인터넷상에서 손쉽게 고문헌의 원문을 검색할 수 있게 될 것이다.
This article is a study on methods of digitalization for eider books using PDF (Portable Document Format) supported by Acrobat 4.0 which was introduced in April of 1999. Acrobat 3.0 has caused many problems in supporting Korean language or Hangul. However, the revised 4.0 version of this software ma...
This article is a study on methods of digitalization for eider books using PDF (Portable Document Format) supported by Acrobat 4.0 which was introduced in April of 1999. Acrobat 3.0 has caused many problems in supporting Korean language or Hangul. However, the revised 4.0 version of this software made the conversion of Korean, Japanese and Chinese language possible due to its support by the multi-language fonts. Therefore, it Is possible to converse and to edit the text file of older books written with Hangul. The Acrobat Reader, the viewer of PDF, can be downloaded for free from its website. However, the digitalized text of older books by PDF has still some problems. But the user can retrieve the text of older books from the Internet easily.
This article is a study on methods of digitalization for eider books using PDF (Portable Document Format) supported by Acrobat 4.0 which was introduced in April of 1999. Acrobat 3.0 has caused many problems in supporting Korean language or Hangul. However, the revised 4.0 version of this software made the conversion of Korean, Japanese and Chinese language possible due to its support by the multi-language fonts. Therefore, it Is possible to converse and to edit the text file of older books written with Hangul. The Acrobat Reader, the viewer of PDF, can be downloaded for free from its website. However, the digitalized text of older books by PDF has still some problems. But the user can retrieve the text of older books from the Internet easily.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
실험조건에 따라 다양한 결과가 나타날 수 있기 때문이다. 따라서이 부분에 대해서는 미국 Adobe사의 한국기술지원업체인 대양이앤씨 담당자 정태동팀장과 현재 TIFF파일을 PDF로 변환하여 사용하고 있는 서울대학교 규장각의 담당자 김태환과 동아대학교 고문헌전산화구축사업을 담당한 페이퍼리스사의 이상재실장과 전화상으로 조사한 내용으로 그 결과를 대신하고자 한다.
본 논문에서 필자는 고문헌을 PDF텍스트 파일로 디지털화하여 그의 데이터베이스를 구축하는데 주된 목적을 두었다. 하지만, 이번 실험 결과 컴퓨터 상의 문자폰트인식의 한계및 폰트 개발의 미비로 인하여 상당히 많은 문제가 발생하였다.
본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF를 활용하여 고문헌의 원문을 디지털화 하기 위한 방안에 대해 살펴본 것이다. 그 고구 결과는 다음과 같다.
이 세 가지 방법중어느 것을 사용해도 PDF를 활용한 고문헌의 원문디지털화가 가능하다. 본 연구에서는 이 세 가지 방법을 모두 활용하여 고문헌의 원문을 디지털화해본후에 거기에서 발생하는 기술적인 문제와 그의 해결 방안에 대해 논하고, 이들을 기존의 이미지입력방식과 비교하여 그 효용성에 대해 논의하고자 한다.
여기에서는 栗谷先生이 저술한 2) 의 全文을 로 입력하여 텍스트파일을 구축한 후에 이를 PDF텍스트파일로 변환하고, 이 과정에서 발생하는 문제점 및 그의 해결 방안에 대해 논의 하고자 한다.
이 절에서는 PDF를 활용한 다양한 변환 실례를 다음의 세 가지 방법으로 구분하여 고문헌의 원문을 디지털화 해 보고자 한다.1) 워드프로세서를 이용하여 고문헌의 텍스트파일을 구축한 후에 이를 PDF텍스트파일로 변환하는 방법, 2) 워드프로세서를 이용하여 고문헌의 텍스트파일을 구축한 후에 이를 PDF이미지파일로 변환하는 방법, 3) 스캐너를 사용하여 기존의 TIFF, JPG 등으로 저장해 놓은 고문헌파일을 PDF이미지파일로 변환하는 방법 등이 바로 그것이다.
이에 본 논문에서는 먼저 PDF의 개념에 대해 간략히 살펴본 후, PDF를 통해 고문헌의원문을 디지털화 하는 작업을 실제로 수행하면서 발생하는 문제점과 그의 해결 방안에 대해 살펴보고, 실제 도서관에서의 활용 방안에 대해 고찰해 보고자 한다.
가설 설정
또한 고문헌의 원문을 입력하는데, XML 상에서 한자를 일일이 입력하여 태그를 붙이는 것보다 로 입력하는 편이 훨씬 어려움이 적어질 것이다.
제안 방법
구결자는 의 문자표에 수록된 구결자 269종을 대상으로 파일을 작성하고 이를 PDF 텍스트파일로 변환시켜 보았다.
전 절에서 로 구축한 고문헌 파일을 PDF텍스트파일, PDF이미지파일로 변환시켜 보고, 기존의 TIFF와 JPG로 저장된 파일을 PDF로 변환시켜 보았다.
파일의 PDF 텍스트파일 변환과정에서 변환되지 못한 28종 32자의 처리에 대해 여러 가지로 고심해 본 결과, PDF가 텍스트, 이미지, 그래픽 등을 파일 내의 정해진 위치에서 그대로 인식한다(장수진 1999, adobepdf)는 점에 착안하여, 이들 글자에 대해 이미지소프트웨어인 PAINTSHOP을 활용하여 이미지로 처리하여 문서를 완성한 후에 이를 PDF파일로 변환시켜 보았다.
성능/효과
(2) 로 작성한 파일을 PDF로 변환하는 과정에서 변환되지 못한 한자들을 조사해 본 결과 윈도우 지원 한자 4888자 외의 한자는 변환되지 못했는데, 깨지거나 이상하게 나오지 않고그글자 부분만 공백으로 남겨졌다.
1) 텍스트방식에는 打入方式(Key in)과 OCR소프트웨어방식과 마크업 언어방식((Markup Language)의 세 방식이 있다.
2) 파일을 PDF이미지파일로 변환시켜본 결과, 순한문과 한글고어자와 구결자 모두 파일에 나타난 글자 그대로 변환되 었다.
3) 기존에 TIFF와 JPG로 저장한 고문헌파일을 PDF로 변환해 본 결과, TIFF파일은 크기가 줄어들고 JPG파일은 크기가 늘어났다. 또 파일의 종류와 크기에 따라 압축률에 차이가 발생하여 정량적인 결과는 얻지 못했다.
③ 구결자의 경우 의 문자표에 수록된 구결자 269종을 대상으로 PDF 텍스트파일로 변환시켜 보았는데, 전체 269종 가운데 256종이 변환되어 95%의 변환율을 보여주었다.
또 파일의 종류와 크기에 따라 압축률에 차이가 발생하여 정량적인 결과는 얻지 못했다. 관계자들은 그 변환율을 1:1정도로 보고 크기 역시 차이가 없다고 하여 이미지로 입력할 경우 TIFF와 PDF 모두 파일 크기상의 차이는 거의 없는 것으로 보았다.
(그림 7참조). 그 결과 전체 269종 가운데 13종을 제외한 256종이 변환되어 95%의 높은 변환율을 보여주었다.
본 논문을 통해 PDF라는 새로운 방식을 적용하여 고문헌을 텍스트방식으로 디지털화 하는 방안에 조금이나마 접근할 수 있었던 것은큰 수확이라고 할 수 있다. 본 논문에서는 고문헌의 원문을 디지털화 하는데 텍스트방식 가운데 PDF를 대상으로 고찰했지만 오로지 이것만을 고집하는 것은 아니다.
전 절에서 로 작성한 파일을 PDF이미지파일로 변환시켰을 때, PDF텍스트파일의 그것보다 용량이 2배 가량 증가한 데 비해, 이 구결자파일의 경우 그 크기가 오히려 3분의 1로 감소한 수치가 나타났다.
하지만 인출 결과 PDF텍스트파일의 글 자체와는 다소 차이가 났다. 파일크기는 순한 문의 경우 171KB로서 PDF텍스트파일보다 크기가 약 2배 이상 커졌으며, 한글고어자의경우 317KB 로 약 4배 가량 증가했으나 구결 자의 경우만 6.2KB로 파일크기가 3분의 1로 줄어 들었다.
필자가 TIFF와 JPG의 PDF변환시 파일크기의 증감 문제에 대해 대양이앤씨의 PDF팀장 정태동에게 문의한 결과“스캐너로 입력할 때의 조건과 PDF의 압축률을 어떻게 정하느냐에 따라 압축률이 상당히 변할 수 있는데, 정확한 통계는 내보지 못했지만, 스캐너로 입력할 경우, 동일 조건에서 스캔하여 PDF로 변환할 경우 평균적으로 TIFF나 JPG의 파일크기와 PDF의 파일크기는 거의 1:1 수준으로 본다.
필자도 <擊蒙要訣>을 대상으로 여러 차례 실험을 해 보았지만, 파일의 성격과 종류와 크기에 따라 압축률이 들쭉 날쭉하여 만족할만한 정량적인 결과를 얻지 못하였다. 필자가 실험한 바에 의하면4) TIFF의 경우 PDF로 변환한 결과 약 30%가량 파일크기가 적어진 반면, JPG파일의 경우 PDF로 변환한 결과, 해상도에 따라 적게는 330% 많게는 990%나 파일이 더 커지는 현상을 초래한 것이다. 하지만 <擊蒙要訣> 한 종의고문헌을 대상으로 기존의 이미지파일을 PDF 로 변환시킨 결과만 가지고, 특정 소프트웨어의 압축율이 좋다 나쁘다는 결론을 내리는 것은 무리가 아닐 수 없다.
후속연구
더욱 아쉬운 것은 우리말 고어자에 대한 폰트가 개발되지 않아 우리말 고어자에 대한 PDF텍스트파일의 변환이 불가능했다는 점이다. 따라서 앞으로 완전한 PDF텍스트파일을 구축하기 위해서는 폰트의 개발 등 많은 기술개발을 요하고, 그에 따른 재정적인 지원이 뒷받침되어야 할 것이다.
이들 3종의 데이터베이스는 고문헌 서지데이터베이스 뿐만 아니라 현대문헌 데이터베이스와도 링크되어 고문헌은 물론 그와 연관된 현대문헌까지도 검색할 수 있게 된다. 따라서 이용자는 웹브라우저를 통해 특정 고문헌의 서지사항과 원문과 해제는 물론 그와 관련된 현대문헌까지 한꺼번에 검색할 수 있도록 하여 이용에 편리를 기할 수 있을 것이다. 특히이 시스템에서는 고문헌의 이미지파일과 텍스트파일이 공존하게 되어, 이용자 입장에서 볼때 고문헌의 텍스트파일과 이미지파일을 함께 활용할 수 있다는 장점이 있다.
현재의 기술 수준에서 <한글>로 작성한 고문헌의 원문을 PDF로 디지털화하기 위해서는 PDF 텍스트방식과 이미지방식을 함께 혼합하여 <한글>문서를 작성할 수밖에 없었다. 본 실험대상으로 삼은 <擊蒙要訣>의 경우 변환되지 않은 漢子가 28종 32자밖에 되지 않아 그다지 어려운 문제는 없었지만 僻字가 많은 고문헌일수록 PDF텍스트파일을 만드는 데는 많은 어려움이 수반될 것이다. 또한 텍스트파일의 구축에 너무나 많은 비용과 인력과 시간을 필요로 하기 때문에 개개 도서관에서 이러한 작업을 추진 하는 것은 무리이다.
아마도 제2단계인 고문헌정보의 제공단계가 완성된다면 앞으로는 제3단계인 고문헌정보활용의 극대화 단계를 지향하게 될 것이다. 분명 현재의 기술수준하에서 제3단계에서 추구하는 텍스트방식으로 고문헌의 원문을 구현하는 데 상당히 많은 문제에 직면하겠지만 현 상태에서 기술이 허락하는 선까지 거기에 대한 기초작업이 수행되어야 할 것이다.
전 절에서 <한글>로 구축한 고문헌 파일을 PDF텍스트파일, PDF이미지파일로 변환시켜 보고, 기존의 TIFF와 JPG로 저장된 파일을 PDF로 변환시켜 보았다. 이렇게 완성된 PDF 파일은 기존에 구축된 전자도서관의 서지정보 데이터베이스에 PDF로 작성한 고문헌의 원문파일을 링크 시켜 활용할 수 있을 것이다. 그 개략적인 모형은 다음과 같다.
이를 위해서는 학자와 폰트개발업체와 솔루션업체 그리고 PDF 변환프로그램의 개발업체인 대양이앤씨 등이 서로 콘서시움을이루어 기술 개발을 해 나가고, 당국에서도 고문헌의 원문 디지털화에 대해 많은 지원을 하여, 본 논문에서 당면한 문제들이 해결된다면, PDF가 아닐지라도 다른 원문디지털방식을 사용하여 보다 빠른 시일 내에 보다 쉽게 텍스트방식의 고문헌 원문디지털화가 가능하게 되고, 이용자들이 웹상에서 손쉽게 고문헌의원문을 검색할 수 있게 될 것이다.
따라서 본문의 내용을 검색하려면 <한글>의 [찾기]에서 처럼 여러 번 검색어를 입력해야 하는 불편은 따르지만, 본문의 내용을 검색할 수 있게 된것은 상당히 큰 성과라고 생각된다. 차후 한자의 폰트가 더 확장되고, 기술이 개발이 뒷받침해 준다면 수년 내에 전문검색이 가능할 것으로 예상된다.
또한 정보통신분야의 기존 기술과 신기술에 대한서지학계의 점진적인 접근과 그의 연계작업은 반드시 필요하다고 생각된다. 현재 PDF가 급속도로 보급되고, 그에 따른 기술개발이 뒷받침되고 있으며, 해마다 각 소프트웨어의 한자 지원이 증가하는 점을 감안해 볼 때 머지 않은 시일 내에 상당한 기술적인 진전과 좋은 성과를 얻을 수 있으리라 기대한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.