국내 지자체 사진 기록물의 효율적 관리를 위한 메타데이터 설계 및 기계학습 기반 자동 인덱싱 방법 연구 Metadata Design and Machine Learning-Based Automatic Indexing for Efficient Data Management of Image Archives of Local Governments in South Korea원문보기
국내의 많은 지방자치단체에서는 지역에서 발생하는 사건들에 대한 시청각 기록물을 사람들이 쉽게 열람할 수 있도록 온라인 서비스를 제공하고 있다. 그러나 지자체들의 현재 사진 기록물 관리 방식은 표준적인 메타데이터가 부재하고 사진의 정보를 활용하지 않기 때문에 지자체 간 호환성과 검색 편의성이 낮은 문제점을 가진다. 이와 같은 문제점을 개선하기 위해, 본 논문에서는 국내 지자체 사진 기록물의 효율적 관리를 위한 메타데이터 설계와 기계학습 기반 자동 인덱싱 기술을 제안한다. 먼저, 본 논문에서는 국내 지자체 사진 기록물에 특화된 메타데이터를 설계하여 지자체 간 사진 기록물의 호환성을 높이고, 사진의 기본 정보와 특성을 나타낼 수 있는 요소들을 메타데이터 항목에 포함함으로써 사진 기록물의 효율적인 관리를 가능하게 한다. 또한, 기계학습 기술을 기반으로 사진의 사건과 카테고리를 반영하는 정보인 사진 속 텍스트와 객체를 자동 인덱싱하여, 사진 기록물 검색 시 사용자 검색의 편의성을 높인다. 마지막으로, 본 논문에서는 제안한 방법을 사용하여 국내 지자체 사진 기록물에서 텍스트와 객체를 자동으로 추출하고, 추출한 내용과 기본 정보를 본 논문에서 설계한 사진 기록물 메타데이터 항목에 저장하는 프로그램을 개발하였다.
국내의 많은 지방자치단체에서는 지역에서 발생하는 사건들에 대한 시청각 기록물을 사람들이 쉽게 열람할 수 있도록 온라인 서비스를 제공하고 있다. 그러나 지자체들의 현재 사진 기록물 관리 방식은 표준적인 메타데이터가 부재하고 사진의 정보를 활용하지 않기 때문에 지자체 간 호환성과 검색 편의성이 낮은 문제점을 가진다. 이와 같은 문제점을 개선하기 위해, 본 논문에서는 국내 지자체 사진 기록물의 효율적 관리를 위한 메타데이터 설계와 기계학습 기반 자동 인덱싱 기술을 제안한다. 먼저, 본 논문에서는 국내 지자체 사진 기록물에 특화된 메타데이터를 설계하여 지자체 간 사진 기록물의 호환성을 높이고, 사진의 기본 정보와 특성을 나타낼 수 있는 요소들을 메타데이터 항목에 포함함으로써 사진 기록물의 효율적인 관리를 가능하게 한다. 또한, 기계학습 기술을 기반으로 사진의 사건과 카테고리를 반영하는 정보인 사진 속 텍스트와 객체를 자동 인덱싱하여, 사진 기록물 검색 시 사용자 검색의 편의성을 높인다. 마지막으로, 본 논문에서는 제안한 방법을 사용하여 국내 지자체 사진 기록물에서 텍스트와 객체를 자동으로 추출하고, 추출한 내용과 기본 정보를 본 논문에서 설계한 사진 기록물 메타데이터 항목에 저장하는 프로그램을 개발하였다.
Many local governments in Korea provide online services for people to easily access the audio-visual archives of events occurring in the area. However, the current method of managing these archives of the local governments has several problems in terms of compatibility with other organizations and c...
Many local governments in Korea provide online services for people to easily access the audio-visual archives of events occurring in the area. However, the current method of managing these archives of the local governments has several problems in terms of compatibility with other organizations and convenience for searching of the archives because of the lack of standard metadata and the low utilization of image information. To solve these problems, we propose the metadata design and machine learning-based automatic indexing technology for the efficient management of the image archives of local governments in Korea. Moreover, we design metadata items specialized for the image archives of local governments to improve the compatibility and include the elements that can represent the basic information and characteristics of images into the metadata items, enabling efficient management. In addition, the text and objects in images, which include pieces of information that reflect events and categories, are automatically indexed based on the machine learning technology, enhancing users' search convenience. Lastly, we developed the program that automatically extracts text and objects from image archives using the proposed method, and stores the extracted contents and basic information in the metadata items we designed.
Many local governments in Korea provide online services for people to easily access the audio-visual archives of events occurring in the area. However, the current method of managing these archives of the local governments has several problems in terms of compatibility with other organizations and convenience for searching of the archives because of the lack of standard metadata and the low utilization of image information. To solve these problems, we propose the metadata design and machine learning-based automatic indexing technology for the efficient management of the image archives of local governments in Korea. Moreover, we design metadata items specialized for the image archives of local governments to improve the compatibility and include the elements that can represent the basic information and characteristics of images into the metadata items, enabling efficient management. In addition, the text and objects in images, which include pieces of information that reflect events and categories, are automatically indexed based on the machine learning technology, enhancing users' search convenience. Lastly, we developed the program that automatically extracts text and objects from image archives using the proposed method, and stores the extracted contents and basic information in the metadata items we designed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한, 국내 공공기관에서 사용 중인 시청각 기록물이 지자체 사진 기록물과 유사한 부분을 가지기 때문에, 본 논문에서는 국가기록원의 시청각 기록물 메타데이터를 분석하였다. 국가기록원은 공공 기록물을 체계적이고 안전하게 보존⋅관리하기 위해 「공공 기록물 관리에 관한 법률 시행령」 제 3조에 따른 공공기관의 처리과 및 기록관의 관리지침을 발간하였는데, 해당 관리지침은 <표 6>과 같이 총 54개의 국가기록원 시청각 관리 시스템의 기록물 메타데이터 표준을 포함하고 있다(국가기록원, 2018).
본 논문에서는 OCR 라이브러리와 딥러닝 기반 객체 인식 알고리즘을 사용하여 국내 지자체 사진 기록물에서 텍스트와 객체를 추출하고, 추출한 내용과 기본 사진 정보를 본 논문에서 설계한 지자체 사진 기록물 메타데이터 항목으로 구성된 데이터베이스 테이블에 저장하는 프로그램을 구현하였다.
본 논문에서는 국내 지자체 사진 기록물의 효율적 관리를 위한 메타데이터 설계와 기계학습 기반 자동 인덱싱 기술을 제안하였다. 국내⋅외 사진 기록물에 활용되는 표준적인 메타데이터와 수원시, 군산시, 서귀포시에서 실제 활용되는 메타데이터를 분석하여 국내 지자체 사진 기록물의 특성을 반영한 메타데이터를 설계함으로써, 기존에 존재하던 지자체 간 사진 기록물의 낮은 호환과 비효율적 관리 문제를 개선하였다.
본 논문은 국내⋅외 사진 기록물 메타데이터 표준을 분석하고, 지자체가 보유한 사진 기록물에서 필요한 메타데이터 항목을 분석하기 위해 지자체들의 사진 기록물 메타데이터를 살펴보았다.
본 논문은 이와 같은 사진의 텍스트와 객체를 3장에서 설계한 사진 기록물의 메타데이터 항목에 저장함으로써 사진 관리의 효율성과 검색의 편의성을 높이도록 한다. 본 장에서는 OCR 알고리즘과 딥러닝 기반 객체 인식 알고리즘을 사용하여 각각 사진의 텍스트와 객체를 자동으로 추출하고, 이를 사진 기록물의 메타데이터로 인덱싱하는 방법을 기술한다.
본 논문은 현재 국내 지자체들의 사진 기록물 관리의 문제점을 개선하기 위해서, 지자체의 사진 기록물을 효율적으로 저장하고 관리하는 기술을 설계하고 구현한다. 본 논문의 제안하는 기술은 국내 지자체 사진 기록물의 특성을 반영하는 표준적인 사진 기록물 메타데이터를 설계함으로써 여러 지자체 간 사진 기록물 호환성을 높이고, 사진의 기본 정보와 특성을 나타낼 수 있는 요소들을 메타데이터 항목에 포함하여 사진 기록물의 효율적인 관리를 가능하게 한다.
본 논문은 현재 국내 지자체들의 사진 기록물 관리의 문제점을 개선하기 위해서, 지자체의 사진 기록물을 효율적으로 저장하고 관리하는 기술을 설계하고 구현한다. 본 논문의 제안하는 기술은 국내 지자체 사진 기록물의 특성을 반영하는 표준적인 사진 기록물 메타데이터를 설계함으로써 여러 지자체 간 사진 기록물 호환성을 높이고, 사진의 기본 정보와 특성을 나타낼 수 있는 요소들을 메타데이터 항목에 포함하여 사진 기록물의 효율적인 관리를 가능하게 한다. 또한, 본 논문은 광학식 문자 인식 기술인 OCR(Optical Character Recognition)과 딥러닝 기반 객체 인식(Deep Learning-based Object Detection) 알고리즘인 Faster R-CNN(Regions-CNN)을 사용하여 사진에서 텍스트와 객체를 추출함으로써 사진 기록물을 저장할 때 중요 메타데이터를 자동으로 저장하도록 한다.
본 장에서는 현재 국내⋅외에서 사용되는 사진 기록물 메타데이터 표준과 국내 지자체 사진 기록물 메타데이터의 특성을 분석하여 기술하고, 이를 바탕으로 국내 지자체 사진 기록물을 효율적으로 관리할 수 있는 메타데이터 항목들을 설계한다.
또한, 호주 빅토리아주의 VEO(VERS Encapsulated Object)는호주 빅토리아주에서 생성, 관리되는 전자기록물을 영구보존하기 위한 메타데이터이다. 연구는 ISO 15489, 호주의 VEO, 국내 기록물철 등록부, 기록물 등록 대장의 전자기록물 메타데이터 항목을 비교하고, 국내 메타데이터 항목에서 부족한 부분을 보완하여 기록물을 영구보존하고 활용하기 위한 국내 전자기록물 메타데이터 항목을 재정의하였다.
제안 방법
국내 지자체 사진 기록물에 포함된 객체는 사진 기록물이 속한 카테고리의 특성을 나타내는 유의미한 정보가 되며, 본 논문은 딥러닝 기반 객체 인식 알고리즘을 사용하여 사진 기록물에 포함된 객체들을 추출한다.
국내 지자체 사진 기록물에 포함된 텍스트는 사진 속 사건을 나타내는 유의미한 정보가 되며, 본 논문은 OCR 라이브러리를 사용하여 사진 기록물에 포함된 전체 텍스트를 추출한다.
국내⋅외 사진 기록물에 활용되는 표준적인 메타데이터와 수원시, 군산시, 서귀포시에서 실제 활용되는 메타데이터를 분석하여 국내 지자체 사진 기록물의 특성을 반영한 메타데이터를 설계함으로써, 기존에 존재하던 지자체 간 사진 기록물의 낮은 호환과 비효율적 관리 문제를 개선하였다.
본 논문은 국내⋅외 사진 기록물 메타데이터 표준을 분석하고, 지자체가 보유한 사진 기록물에서 필요한 메타데이터 항목을 분석하기 위해 지자체들의 사진 기록물 메타데이터를 살펴보았다. 국내에는 많은 지자체가 온라인에 사진 기록물을 서비스하고 있는데, 본 논문은 이 중 사진 기록물을 카테고리화하여 보관하고 여러 메타데이터 항목으로 관리하는 수원시 포토 뱅크, 군산시 홍보 포털, 서귀포시 온라인 사진 DB의 사진 기록물을 분석하였다.
그러나 ‘Person Shown in the Image(사진 속 사람)’는 사진에 포함된 사람을 저장하는 항목으로, 본 논문에서는 지자체 사진 기록물에 포함된 시장, 국회의원과 같이 특정이 가능한 사람을 저장하기 위한 메타데이터 항목으로써 선정하였으며, 마찬가지로 ‘Artwork/Object in the Image(사진 속 아트워크/객체)’는 사진에 포함된 객체를 저장하는 항목으로, 책상, 동물, 건물 등 사진의 특성을 반영하는 정보를 나타낼 수 있는 메타데이터 항목으로 선정하였다.
그러나 와 같이 객체 인식 정확도는 Faster R-CNN이 가장 높은 인식 정확도를 보이며, SSD와 YOLO는 Faster R-CNN에 비하여 작은 크기의 객체에 대해 낮은 인식 정확도를 가지므로, Faster R-CNN을 사진 기록물 객체 인식을 위한 모델로 선정하였다.
그와 동시에 구글 OCR 라이브러리로 사진 기록물에서 텍스트를 추출하여 ‘키워드’ 항목으로 저장하고, 딥러닝 기반 객체 인식 알고리즘으로 객체를 추출하여 ‘사진 속 객체’ 항목에 저장한다.
더블린코어 메타데이터 표준을 준수하는 ISO/IEC 19788 MLR 표준을 기반으로 과 같이 교육, 학습, 훈련 콘텐츠 등 분야별로 필요한 메타데이터 요소를 멀티 파트 형태로 개발하여 확장할 수 있도록 설계하였다.
두 번째 연구는 국방과학연구소에서 보유한 아날로그 형태의 시청각 기록물을 디지털로 변환하여 관리하기 위한 ‘영상기록관리시스템’을 구축하였다.
두 번째 연구는 해외의 전자기록물 메타데이터를 분석하여 국내의 전자기록물 영구보존을 위한 메타데이터 항목을 설계하였다. 해당 연구에서는 기록물 관리 표준인 ISO 15489와 호주 빅토리아주에서 제안한 메타데이터를 분석하였다.
국내⋅외 사진 기록물에 활용되는 표준적인 메타데이터와 수원시, 군산시, 서귀포시에서 실제 활용되는 메타데이터를 분석하여 국내 지자체 사진 기록물의 특성을 반영한 메타데이터를 설계함으로써, 기존에 존재하던 지자체 간 사진 기록물의 낮은 호환과 비효율적 관리 문제를 개선하였다. 또한, 본 논문에서는 OCR 라이브러리와 딥러닝 기반 객체 인식 알고리즘을 사용하여 각각 사진 기록물의 텍스트와 객체를 자동 인덱싱하는 기술을 설계하였다. 자동 인덱싱된 텍스트와 객체는 사진 속 사건과 카테고리 특성을 반영하여, 보다 사용자 의도에 가까운 사진 기록물 검색이 이루어지도록 한다.
본 논문의 제안하는 기술은 국내 지자체 사진 기록물의 특성을 반영하는 표준적인 사진 기록물 메타데이터를 설계함으로써 여러 지자체 간 사진 기록물 호환성을 높이고, 사진의 기본 정보와 특성을 나타낼 수 있는 요소들을 메타데이터 항목에 포함하여 사진 기록물의 효율적인 관리를 가능하게 한다. 또한, 본 논문은 광학식 문자 인식 기술인 OCR(Optical Character Recognition)과 딥러닝 기반 객체 인식(Deep Learning-based Object Detection) 알고리즘인 Faster R-CNN(Regions-CNN)을 사용하여 사진에서 텍스트와 객체를 추출함으로써 사진 기록물을 저장할 때 중요 메타데이터를 자동으로 저장하도록 한다. 이렇게 저장된 사진의 텍스트와 객체는 사진의 특성을 나타내는 주요 정보로써 활용되어, 보다 사용자 의도에 맞게 사진 기록물을 검색할 수 있도록 하고 검색의 편의성을 높인다.
자동 인덱싱된 텍스트와 객체는 사진 속 사건과 카테고리 특성을 반영하여, 보다 사용자 의도에 가까운 사진 기록물 검색이 이루어지도록 한다. 마지막으로, 본 논문에서는 설계한 메타데이터와 자동 인덱싱 기술을 적용한 사진 기록물 저장 프로그램을 구현하였다. 기존 지자체 사진 기록물 관리는 표준적인 메타데이터의 부재와 사진 정보를 활용하지 않기 때문에 호환성과 편의성 측면에서 문제점을 가지고 있으나, 본 논문에서 설계한 메타데이터와 기계학습 기반 자동 인덱싱 기술은 이러한 문제점들을 상당 부분 개선할 수 있을 것으로 기대된다.
공공기관의 전자기록물을 위한 메타데이터 관련 연구가 진행되었다(차승준, 최윤정, 이규철, 2009; 황윤영, 임혁수, 이규철, 2005). 먼저 첫 번째 연구는 웹 기록물의 한 종류인 심층 웹 기록물 아카이빙에 대한 메타데이터 항목을 정의하였다. 해당 연구는 브라이트 플래닛(Bright Planet)과 국외 연방정부에서 정의하는 웹 기록물 보존 방안을 분석하고 국내 국가기록원과 행정안전부 웹 사이트에 포함된 자원을 분석하여, 더블린 코어(Dublin Core) 메타데이터를 중심으로 장기보존포맷을 위한 심층 웹 기록물 메타데이터, KoDeWeb(Korea Deep Web)을 설계하였다.
, 2016). 바운딩 박스의 예측 분류 점수와 바운딩 박스에 실제 객체의 포함을 나타내는 신뢰도, 두 개의 출력값을 결합하여 바운딩 박스 안에 객체가 있을 확률을 계산한다. YOLO는 전체 사진을 고려하여 클래스를 예측하기 때문에 거짓 양성(False Positive) 오류를 피할 수 있지만, 작은 객체에 대해 인식 정확도가 떨어지는 문제점을 가진다.
각 라이브러리를 사용하여 실제 지자체 사진 기록물의 텍스트를 추출한 결과, Tesseract의 경우 사진 기록물 종류와 상태에 따라 한글 텍스트 인식률 변화가 심하여 실제 활용성이 떨어지는 문제점을 가지고 있었다. 반면에 구글 OCR의 경우 테스트한 사진 기록물들에서 모두 높은 한글 텍스트 인식률을 보여주었기 때문에, 본 논문은 지자체 사진 기록물의 텍스트 추출을 위해 구글 OCR 라이브러리를 사용하였다.
본 논문에서는 ‘Keywords’ 항목을 OCR 라이브러리를 이용하여 자동으로 추출한 사진의 텍스트를 저장하는 항목으로 활용하며, 이에 대한 자세한 방법은 4장에서 기술할 것이다.
본 논문에서는 기계학습을 기반으로 사진 속 텍스트와 객체를 설계한 특정 메타데이터 항목에 저장하며, 사진 기록물 검색 시 사용자가 입력한 키워드와 인덱싱된 텍스트, 객체 명을 비교하게 된다. 그러나 이와 같은 정보들은 행사명, 장소명과 같은 핵심적인 키워드 외에는 독립적으로 유의미한 정보를 나타낸다고 보기 어려우므로 검색 시 많은 텍스트와 객체들이 사용자 키워드와 매칭되지 않을 수 있다.
사진을 촬영했을 때 촬영일시, 카메라 정보, 카메라 설정, 저작권 정보, 위치 정보로 구성된 EXIF 메타데이터가 사진과 함께 자동으로 등록된다. 본 논문에서는 사진 기록물의 기본적인 내용과 특징을 나타내는 메타데이터 항목으로써 IPTC를 고려한 것과 달리, 사진 기록물 원본 파일에 대한 정보를 나타내는 메타데이터 항목으로써 EXIF를 고려하였다. EXIF는 <표 5>와 같이 총 31개의 메타데이터 항목을 가진다.
본 논문에서는 여러 사진 프레임이 빠르게 변환되는 영상이 아닌 사진 기록물을 대상으로 하므로, 객체 인식 속도보다 인식 정확도를 기준으로 사용 모델을 선정하였다. 언급한 세 개의 객체 인식 알고리즘은 인식 속도와 정확도에서 차이를 보이는데, 객체 인식 속도의 경우 YOLO가 가장 빠른 인식 속도를 가지고 있으며, Faster R-CNN는 가장 느린 인식 속도를 보인다(Huang et al.
본 논문에서는 이를 기반으로 국내 지자체 사진 기록물 메타데이터 설계에 필요한 항목으로써 ‘제목’, ‘촬영자’, ‘촬영일’, ‘촬영장소’, ‘그룹 사진 제목’, ‘원화번호’, ‘등록자’, ‘설명’, ‘분류(카테고리)’를 선정하였다.
본 논문은 IPTC 코어 스키마에서 나머지 ‘Title(제목)’, ‘Creator(촬영자)’, ‘Date Created(촬영일)’, ‘Sublocation(설명 장소)’, ‘Description (설명)’은 지자체가 다루는 사진 기록물의 메타데이터 범위에서 벗어나지 않고 사진에서 필요한 가장 기본적인 메타데이터 항목으로 판단하여 선정하였다.
본 논문은 사진 기록물에서 명확한 객체만을 추출하기 위해 모델의 인식 임계값을 0.99로 설정하였으며, Faster R-CNN 모델을 사용하여 사진 기록물에서 객체들을 전부 추출하였다. 이렇게 추출된 객체들은 사진 기록물의 메타데이터로 저장되는데, 사진 기록물 검색 시 해당 객체들을 활용하기 위해서 본 논문은 3장에서 설계한 지자체 사진 기록물 메타데이터 항목 중 ‘사진 속 객체(Object in the Image)’ 항목에 추출한 객체들을 저장한다.
IPTC 코어 스키마는 <표 3>과 같이 총 23개의 메타데이터 항목을 가지고 있다. 본 논문은 이 중 국내 지자체에 필요하지 않은 메타데이터 항목을 구분하고 필요한 메타데이터 항목을 선택하였다. 먼저, 코어 스키마 메타데이터 항목에서 ‘City(도시)’, ‘Country(나라)’, ‘Country Code(나라 코드)’, ‘Province or State(지방 혹은 주)’는 사진에 있는 특정 도시, 나라, 지방, 주와 같은 요소들이 입력되는 메타데이터 항목이며, 해당 항목들은 사진의 세부적인 요소들을 설명하기에 적합하나 사진에 보여지는 부분들을 국내 지자체에서 수동으로 파악하여 입력하기에는 어려움이 있을 것으로 판단되어 국내 지자체 메타데이터 항목에서 제외하였다.
본 논문은 이와 같은 사진의 텍스트와 객체를 3장에서 설계한 사진 기록물의 메타데이터 항목에 저장함으로써 사진 관리의 효율성과 검색의 편의성을 높이도록 한다. 본 장에서는 OCR 알고리즘과 딥러닝 기반 객체 인식 알고리즘을 사용하여 각각 사진의 텍스트와 객체를 자동으로 추출하고, 이를 사진 기록물의 메타데이터로 인덱싱하는 방법을 기술한다.
언급한 네 개의 OCR 라이브러리 중 마이크로소프트 OCR과 Abbyy OCR 라이브러리는 일반 사진 내 한글 텍스트를 제대로 인식하지 못하므로, 본 논문은 지자체 사진 기록물 텍스트 추출을 위한 라이브러리로 Tesseract 와 구글 OCR 라이브러리를 고려하였다. 각 라이브러리를 사용하여 실제 지자체 사진 기록물의 텍스트를 추출한 결과, Tesseract의 경우 사진 기록물 종류와 상태에 따라 한글 텍스트 인식률 변화가 심하여 실제 활용성이 떨어지는 문제점을 가지고 있었다.
구글에서 제공하는 OCR 라이브러리는 사진이 입력되었을 때, 사진의 픽셀을 그룹핑하는 과정에서 텍스트로 추정되는 영역을 바운딩 박스(Bounding Box)로 설정하고 텍스트를 감지하여 추출하며, 이렇게 추출된 텍스트는 JSON 형태로 반환된다. <그림 3>은 텍스트 추출을 실행한 결과이며, 수원시 포토 뱅크의 사진 기록물에서 구글 OCR 라이브러리를 사용하여 우측과 같이 텍스트를 추출하였다.
이렇게 추출된 객체들은 사진 기록물의 메타데이터로 저장되는데, 사진 기록물 검색 시 해당 객체들을 활용하기 위해서 본 논문은 3장에서 설계한 지자체 사진 기록물 메타데이터 항목 중 ‘사진 속 객체(Object in the Image)’ 항목에 추출한 객체들을 저장한다.
이와 같은 메타데이터 항목들은 IPTC 메타데이터 항목과 마찬가지로 국내 지자체에서 특정화하기에 어려운 세부적인 내용들을 포함하기 때문에, 본 논문에서는 사진 기록물의 기본 정보를 나타내는 ‘제목’, ‘내용’, 사진을 업로드한 사람을 의미하는 ‘생성자’, 사진 파일의 ‘가로 사이즈’, ‘세로 사이즈’, ‘원본 파일 위치’, ‘원본 파일 사이즈’, ‘사진 압축 포맷’을 메타데이터 항목으로 선정하였다.
또한, 본 논문에서는 OCR 라이브러리와 딥러닝 기반 객체 인식 알고리즘을 사용하여 각각 사진 기록물의 텍스트와 객체를 자동 인덱싱하는 기술을 설계하였다. 자동 인덱싱된 텍스트와 객체는 사진 속 사건과 카테고리 특성을 반영하여, 보다 사용자 의도에 가까운 사진 기록물 검색이 이루어지도록 한다. 마지막으로, 본 논문에서는 설계한 메타데이터와 자동 인덱싱 기술을 적용한 사진 기록물 저장 프로그램을 구현하였다.
공공기관의 시청각 기록물을 위한 메타데이터 관련 연구도 진행되었다(김근형 외, 2013; 신동헌, 정세영, 김선현, 2009). 첫 번째 연구는 2004년 국가표준으로 제정된 교육 정보 메타데이터 표준 KEM(Korea Education Metadata)의 개선을 위해 더블린 코어(Dublin Core) 메타데이터 요소를 활용하여, 학습자원에 대한 기능별 메타데이터 요소를 확장할 수 있도록 교육 정보 메타데이터를 재설계한 연구이다. 해당 연구는 국내⋅외 교육자료 콘텐츠 현황을 조사하고, 각 콘텐츠 유형별로 채택하고 있는 메타데이터의 특성들을 분석하였다.
해당 연구는 국내⋅외 교육자료 콘텐츠 현황을 조사하고, 각 콘텐츠 유형별로 채택하고 있는 메타데이터의 특성들을 분석하였다.
두 번째 연구는 국방과학연구소에서 보유한 아날로그 형태의 시청각 기록물을 디지털로 변환하여 관리하기 위한 ‘영상기록관리시스템’을 구축하였다. 해당 연구는 디지털로 변환한 시청각 기록물 관리를 위해 기록물 관리법과 다른 공공기관에서 실제 구축하여 운영 중인 시청각 기록물 관리 메타데이터 항목을 분석하였으며, 이를 통해 시청각 기록물을 장기적으로 보존하고 이용자 활용을 효율적으로 하기 위한 메타데이터 항목을 설계하였다. <표 2>는 이 중 사진 기록물에 대한 메타데이터 항목이다.
먼저 첫 번째 연구는 웹 기록물의 한 종류인 심층 웹 기록물 아카이빙에 대한 메타데이터 항목을 정의하였다. 해당 연구는 브라이트 플래닛(Bright Planet)과 국외 연방정부에서 정의하는 웹 기록물 보존 방안을 분석하고 국내 국가기록원과 행정안전부 웹 사이트에 포함된 자원을 분석하여, 더블린 코어(Dublin Core) 메타데이터를 중심으로 장기보존포맷을 위한 심층 웹 기록물 메타데이터, KoDeWeb(Korea Deep Web)을 설계하였다.
대상 데이터
또한, 본 논문은 지자체 사진 기록물에서 특정화된 객체 인스턴스를 인식하는 것이 아닌, ‘사람’, ‘책상’과 같은 일반적인 객체를 정확하게 인식하는 것이 목적이므로, 사전에 COCO(Common Objects in Context) 데이터 셋으로 학습된 Faster R-CNN 모델을 사용하였다. COCO 데이터 셋은 총 122,218장의 사진에서 80개의 객체 클래스로 구성되어있는 학습 데이터이다. COCO 데이터 셋의 객체 클래스는 사람, 물품(Accessory), 동물(Animal), 탈것(Vehicle), 음식(Food), 가구(Furniture), 가전제품(Appliance)과 같은 상위 카테고리 밑에 다양한 클래스로 구성되어 지자체 사진 기록물에 포함된 객체를 인식하기에 적합하였다.
본 논문에서는 국내⋅외 사진 기록물 메타데이터 표준과 국내 지자체 군산시와 서귀포시의 사진 기록물 메타데이터를 분석하여 필요한 항목들을 추출하였으며, 이를 과 같이 매핑함으로써 이 중 국내 지자체 사진 기록물에 필요한 메타데이터 항목들을 선정하였다.
본 논문에서는 이 중 ‘제조사(Manufacturer)’, ‘Model(모델)’, ‘Orientation(방향)’과 같은 세부 정보를 나타내는 메타데이터 항목을 제외하고, ‘Date and Time(촬영일)’, ‘Image Unique ID(사진 고유 ID)’, ‘Pixel X dimension(가로 사이즈)’, ‘Pixel Y dimension(세로 사이즈)’, ‘Compressed Bits Per Pixel(픽셀 당 압축 비트)’, ‘Compression(압축 포맷)’과 같이 지자체에서 파일에 대해 참고적으로 활용할 수 있도록 사진 기록물 파일에 대한 기본적인 정보를 나타내는 메타데이터 항목들을 선정했다.
본 논문은 국외에서 사용되는 미디어 기록물 메타데이터 표준인 IPTC(International Press Telecommunications Council), 사진 기록물 파일 형식인 EXIF(EXchangable Image File format)의 메타데이터 항목과 국내의 공공기관인 국가기록원에서 활용되는 시청각 기록물 메타데이터 항목을 분석하여, 국내 지자체 사진 기록물에 필요한 메타데이터 항목들을 선택하였다.
두 번째 연구는 해외의 전자기록물 메타데이터를 분석하여 국내의 전자기록물 영구보존을 위한 메타데이터 항목을 설계하였다. 해당 연구에서는 기록물 관리 표준인 ISO 15489와 호주 빅토리아주에서 제안한 메타데이터를 분석하였다. ISO 15489는 기록물 관리에 대한 국제표준으로써 효율적으로 기록에 담긴 정보를 검색할 수 있도록 기록관리 정책과 절차를 표준화한 메타데이터이다.
이론/모형
, 2016). YOLO의 문제점을 개선하기 위해 멀티스케일 특징 맵(Multi-scale Feature Map)이라는 보조 수단을 사용하는데, 특징 맵을 여러 크기로 나누어 큰 맵에서는 작은 객체를, 작은 맵에서는 큰 객체를 인식할 수 있도록 한다.
또 다른 국외의 메타데이터로 일본 전자산업진흥협회(JEIDA)에 의해 개발된 포맷인 EXIF를 고려하였다(EXIF, 2002). 이 포맷은 디지털카메라로 촬영된 사진 파일을 위한 메타데이터 포맷으로, 촬영한 사진의 정보를 저장하는데 사용된다.
또한, 본 논문은 지자체 사진 기록물에서 특정화된 객체 인스턴스를 인식하는 것이 아닌, ‘사람’, ‘책상’과 같은 일반적인 객체를 정확하게 인식하는 것이 목적이므로, 사전에 COCO(Common Objects in Context) 데이터 셋으로 학습된 Faster R-CNN 모델을 사용하였다.
객체 인식은 디지털 사진과 영상에서 특정 클래스의 의미 객체 인스턴스를 감지하는 컴퓨터 비전 및 이미지 처리와 관련된 기술로써, 딥러닝 알고리즘을 사용한 여러 객체 인식 알고리즘들이 활용되고 있다. 본 논문에서는 지자체 사진 기록물의 객체 인식을 위해 특히 많이 활용되는 딥러닝 기반 객체 인식 알고리즘인 Faster R-CNN (Regions-CNN), YOLO(You Only Look Once), SSD(Single Shot Detector)를 고려하였다.
성능/효과
COCO 데이터 셋은 총 122,218장의 사진에서 80개의 객체 클래스로 구성되어있는 학습 데이터이다. COCO 데이터 셋의 객체 클래스는 사람, 물품(Accessory), 동물(Animal), 탈것(Vehicle), 음식(Food), 가구(Furniture), 가전제품(Appliance)과 같은 상위 카테고리 밑에 다양한 클래스로 구성되어 지자체 사진 기록물에 포함된 객체를 인식하기에 적합하였다.
언급한 네 개의 OCR 라이브러리 중 마이크로소프트 OCR과 Abbyy OCR 라이브러리는 일반 사진 내 한글 텍스트를 제대로 인식하지 못하므로, 본 논문은 지자체 사진 기록물 텍스트 추출을 위한 라이브러리로 Tesseract 와 구글 OCR 라이브러리를 고려하였다. 각 라이브러리를 사용하여 실제 지자체 사진 기록물의 텍스트를 추출한 결과, Tesseract의 경우 사진 기록물 종류와 상태에 따라 한글 텍스트 인식률 변화가 심하여 실제 활용성이 떨어지는 문제점을 가지고 있었다. 반면에 구글 OCR의 경우 테스트한 사진 기록물들에서 모두 높은 한글 텍스트 인식률을 보여주었기 때문에, 본 논문은 지자체 사진 기록물의 텍스트 추출을 위해 구글 OCR 라이브러리를 사용하였다.
이는 서로 다른 기관에서의 사진 기록물 호환을 어렵게 한다. 두 번째로, 지자체에서는 사진 기록물 담당자가 특정 기준 없이 파일명을 기준으로 사진을 저장하는 경우가 많으며, 담당자에 따라 저장하는 파일명 규칙이 달라질 수 있다. 지자체는 특정 사건, 인물, 회의, 지역 행사 등과 관련된 사진을 주로 보유하고 있는데, 일관되지 않은 사진 기록물의 파일명들은 사용자의 입력 키워드와 정확 매칭(Exact Matching)을 통해 검색되므로, 사용자 의도에 맞는 사진 기록물 검색을 어렵게 하며 정확도를 떨어뜨린다.
후속연구
마지막으로, 본 논문에서는 설계한 메타데이터와 자동 인덱싱 기술을 적용한 사진 기록물 저장 프로그램을 구현하였다. 기존 지자체 사진 기록물 관리는 표준적인 메타데이터의 부재와 사진 정보를 활용하지 않기 때문에 호환성과 편의성 측면에서 문제점을 가지고 있으나, 본 논문에서 설계한 메타데이터와 기계학습 기반 자동 인덱싱 기술은 이러한 문제점들을 상당 부분 개선할 수 있을 것으로 기대된다.
이와 같은 사진 기록물의 정보들은 서로 연결됨으로써 검색의 정확도와 편의성을 높일 수 있으며, 본 논문은 향후 연구로 지자체 사진 기록물에 특성화된 온톨로지(Ontology)를 설계하여 메타데이터를 저장하는 연구를 진행할 예정이다. 사진 기록물의 메타데이터와 자동 인덱싱된 텍스트 및 객체들은 온톨로지로 저장되어 서로 연결되고 유의미한 정보를 추론하는 데 활용될 수 있으며, 이를 통해 지자체 사진 기록물 검색의 정확도를 향상할 수 있을 것으로 기대된다.
그러나 이와 같은 정보들은 행사명, 장소명과 같은 핵심적인 키워드 외에는 독립적으로 유의미한 정보를 나타낸다고 보기 어려우므로 검색 시 많은 텍스트와 객체들이 사용자 키워드와 매칭되지 않을 수 있다. 이와 같은 사진 기록물의 정보들은 서로 연결됨으로써 검색의 정확도와 편의성을 높일 수 있으며, 본 논문은 향후 연구로 지자체 사진 기록물에 특성화된 온톨로지(Ontology)를 설계하여 메타데이터를 저장하는 연구를 진행할 예정이다. 사진 기록물의 메타데이터와 자동 인덱싱된 텍스트 및 객체들은 온톨로지로 저장되어 서로 연결되고 유의미한 정보를 추론하는 데 활용될 수 있으며, 이를 통해 지자체 사진 기록물 검색의 정확도를 향상할 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
지자체들의 온라인 사진 기록물 제공 사이트를 분석한 결과, 국내 지자체들이 사진 기록물 관리에 대해 가지는 문제점으로 무엇이 있는가?
본 논문에서 앞서 언급한 지자체들의 온라인 사진 기록물 제공 사이트를 분석한 결과, 국내 지자체들은 사진 기록물 관리에 대해 다음과 같이 세 가지 문제점을 가진다. 첫 번째로, 국내 지자체들은 사진 기록물을 관리하는 표준적인 메타데이터 기준이 없으므로, 각 지자체에서 서로 다른 메타데이터 항목을 기준으로 사진 기록물을 저장한다. 이는 서로 다른 기관에서의 사진 기록물 호환을 어렵게 한다. 두 번째로, 지자체에서는 사진 기록물 담당자가 특정 기준 없이 파일명을 기준으로 사진을 저장하는 경우가 많으며, 담당자에 따라 저장하는 파일명 규칙이 달라질 수 있다. 지자체는 특정 사건, 인물, 회의, 지역 행사 등과 관련된 사진을 주로 보유하고 있는데, 일관되지 않은 사진 기록물의 파일명들은 사용자의 입력 키워드와 정확 매칭(Exact Matching)을 통해 검색되므로, 사용자 의도에 맞는 사진 기록물 검색을 어렵게 하며 정확도를 떨어뜨린다. 마지막으로, 지자체 담당자가 새로운 사진 기록물을 등록할 때마다 메타데이터를 수동으로 입력하기 때문에, 이로 인한 시간적, 인적 소모가 발생한다.
디지털 아카이브란 무엇인가?
디지털 아카이브(Digital Archive)는 다양한 도메인 및 매체에 저장된 자료들을 디지털 형식으로 변환하여 저장하며, 이를 통해 자료를 영구적으로 보관하고 효율적인 검색 및 관리를 가능하게 하는 기반 기술이다. 디지털로 변환된 자료를 저장하는 것은 자료의 효율적 검색 및 관리와 높은 관련성을 가진다.
OCR이란 무엇인가?
OCR은 PDF, 출력된 스캔 문서나 아날로그 자료, 상품 카탈로그 사진, 혹은 사진에서 텍스트가 있는 영역을 인식하고, 이미지 처리(Image Processing), 딥러닝(Deep Learning) 기술을 사용하여 디지털화 가능한 텍스트를 추출하는 기술이다(Mori, Hirobumi, & Hiromitsu, 1999). OCR은 Tesseract, 구글 OCR, 마이크로소프트 OCR, Abbyy OCR 등 다른 성능을 가진 여러 회사의 라이브러리가 존재한다.
참고문헌 (23)
National Archives of Korea (2018). Records Management Guidelines.
Kim, Geun-hyung, Jung, Young-Mi, Lee, Bonghwan, Cho, Yong-sang, Song, Eun-Ji, Choi, Hee-Sung, & Seol, Sehee (2013). Research on metadata standards optimized for education in the media ecosystem, Korea Education and Research Information Service.
Shin, Dong-Hyeon, Jung, Se-Young, & Kim, Seon-Heon (2009). A Case Study of the Audio-Visual Archives System Development and Management. Journal of Korean Society of Archives and Records Management, 9(1), 33-50. https://doi.org/10.14404/JKSARM.2009.9.1.033
Cha, Seung-Jun, Choi, Yun-Jeong, & Lee, Kyu-Chul (2009). Metadata Design for Archiving Public Deep Web Records. The Journal of Society for e-Business Studies, 14(4), 181-193.
Hwang, Yun-Young, Lim, Hyusk-Soo, & Lee, Kyu-Chul (2005). A Design of Metadata for Government Electronic Records Long-Term Preservation. Proceedings of the Korean Information Science Society Conference.
Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., ... & Murphy, K. (2017). Speed/accuracy Trade-offs for Modern Convolutional Object Detectors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 7310-7311. https://doi.org/10.1109/cvpr.2017.351
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). Ssd: Single Shot Multibox Detector. In European Conference on Computer Vision, 21-37. https://doi.org/10.1007/978-3-319-46448-0_2
Mori, S., Nishida, H., & Yamada, H. (1999). Optical Character Recognition. John Wiley & Sons, Inc.
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You Only Look Once: Unified, Real-time Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 779-788. https://doi.org/10.1109/cvpr.2016.91
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-cnn: Towards Real-time Object Detection with Region Proposal Networks. In Advances in Neural Information Processing Systems, 91-99. https://doi.org/10.1109/tpami.2016.2577031
Gunsan Photo Bank. Retrieved April 20, 2020, from https://uprbank.kr/
Suwon Photo Bank. Retrieved April 20, 2020, from http://photo.suwon.go.kr/
Seogwipo Photo DB. Retrieved April 20, 2020, from http://photo.seogwipo.go.kr/
Exif (2002). Exchangeable Image File Format for Digital Still Cameras: Exif Version 2.2. Retrieved April 20, 2020, from https://www.exif.org/
Google Art & Culture. Retrieved April 20, 2020, from https://artsandculture.google.com/
IPTC (2017). IPTC Photo Metadata Standard. Retrieved April 20, 2020, from http://www.iptc.org
Musee national des Arts asiatiques-Guimet. Retrieved April 20, 2020, from https://www.guimet.fr/collections/afghanistan-pakistan/
The British Museum. Retrieved April 20, 2020, from https://www.britishmuseum.org/
Abbyy OCR. [Computer Software]. Seoul, KR: ReTIA
COCO data set [Data File]. Retrieved April 20, 2020, from http://cocodataset.org/
Google Cloud Vision API [Computer Software]. California, U.S.A: Google
Microsoft Computer Vision API [Computer Software]. Washington, U.S.A: Microsoft
Tesseract (Version 4.1.1) [Computer Software]. California, U.S.A: Google
※ AI-Helper는 부적절한 답변을 할 수 있습니다.