본 연구는 이미지의 시맨틱 검색을 위해서 동등어, 동의어 및 관련어를 질의 확장시에 사용하여 태그를 통제한 구조화된 폭소노미 시스템의 모형을 제안하였다. 그런 다음 제안한 시스템의 효율성을 평가하기 위해서 실험을 통해서 이 시스템을 태그를 전혀 통제하지 않은 태그 기반 시스템과 검색 효율성(재현율과 정확률)과 만족도 측면에서 비교해 보았다. 이외에 검색 효율성이 질의 확장 방식에 따라서 어떤 차이를 보이는지 조사해 보았다. 실험 결과, 제안된 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율, 정확률 및 만족도에서 더 높게 나타났으며 그 차이도 통계적으로 유의미한 것으로 나타났다. 한편 질의 확장 방식에 따라서 재현율은 차이가 없었지만 정확률은 부분적으로 차이가 있는 것으로 나타났다. 본 연구 결과는 라이브러리 2.0 시대의 디지털 도서관 시스템에 적용되어 디지털 자원에 대한 접근성을 향상시킬 수 있을 것이다.
본 연구는 이미지의 시맨틱 검색을 위해서 동등어, 동의어 및 관련어를 질의 확장시에 사용하여 태그를 통제한 구조화된 폭소노미 시스템의 모형을 제안하였다. 그런 다음 제안한 시스템의 효율성을 평가하기 위해서 실험을 통해서 이 시스템을 태그를 전혀 통제하지 않은 태그 기반 시스템과 검색 효율성(재현율과 정확률)과 만족도 측면에서 비교해 보았다. 이외에 검색 효율성이 질의 확장 방식에 따라서 어떤 차이를 보이는지 조사해 보았다. 실험 결과, 제안된 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율, 정확률 및 만족도에서 더 높게 나타났으며 그 차이도 통계적으로 유의미한 것으로 나타났다. 한편 질의 확장 방식에 따라서 재현율은 차이가 없었지만 정확률은 부분적으로 차이가 있는 것으로 나타났다. 본 연구 결과는 라이브러리 2.0 시대의 디지털 도서관 시스템에 적용되어 디지털 자원에 대한 접근성을 향상시킬 수 있을 것이다.
We designed a structured folksonomy system in which queries can be expanded through tag control; equivalent, synonym or related tags are bound together, in order to improve the retrieval efficiency (recall and precision) of image data. Then, we evaluated the proposed system by comparing it to a tag-...
We designed a structured folksonomy system in which queries can be expanded through tag control; equivalent, synonym or related tags are bound together, in order to improve the retrieval efficiency (recall and precision) of image data. Then, we evaluated the proposed system by comparing it to a tag-based system without tag control in terms of recall, precision, and user satisfaction. Furthermore, we also investigated which query expansion method is the most efficient in terms of retrieval performance. The experimental results showed that the recall, precision, and user satisfaction rates of the proposed system are statistically higher than the rates of the tag-based system, respectively. On the other hand, there are significant differences among the precision rates of query expansion methods but there are no significant differences among their recall rates. The proposed system can be utilized as a guide on how to effectively index and retrieve the digital content of digital library systems in the Library 2.0 era.
We designed a structured folksonomy system in which queries can be expanded through tag control; equivalent, synonym or related tags are bound together, in order to improve the retrieval efficiency (recall and precision) of image data. Then, we evaluated the proposed system by comparing it to a tag-based system without tag control in terms of recall, precision, and user satisfaction. Furthermore, we also investigated which query expansion method is the most efficient in terms of retrieval performance. The experimental results showed that the recall, precision, and user satisfaction rates of the proposed system are statistically higher than the rates of the tag-based system, respectively. On the other hand, there are significant differences among the precision rates of query expansion methods but there are no significant differences among their recall rates. The proposed system can be utilized as a guide on how to effectively index and retrieve the digital content of digital library systems in the Library 2.0 era.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 폭소노미의 대중성과 편리성을 통제 어휘의 시맨틱 구조와 결합하는 방안을 모색하기 위한 기초 작업으로 온라인 기반의 디지털 콘텐츠 환경에서의 태그의 통제 효과를 조사해 보고자 한다. 구체적으로 태그의 동등어, 동의어 및 관련어를 질의 확장 시에 사용하여 태그를 통제한 후 시맨틱 검색을 한 경우와 태그를 전혀 통제하지 않은 경우를 비교하여 검색의 재현율, 정확률 및 만족도 측면에서 어떤 차이를 보이는지 실험을 통해서 증명해 보고자 한다.
그러나 아직까지는 통제어휘와 폭소노미를 모두 색인과 검색에 사용한 경우와 그렇지 않은 경우 또는 폭소노미에 통제어휘 개념을 적용하여 태그 통제를 한 경우와 그렇지 않은 경우를 비교하여 검색 효율성 측면에서 어떤 차이를 보이는지 실증적인 근거를 제시한 연구는 거의 없는 편이다. 따라서, 본 연구는 태그의 동등어, 동의어 및 관련어를 질의 확장시에 사용한 경우와 사용 하지 않은 경우를 비교하여 검색 효율성 측면에서 어떤 차이를 보이는지 실험을 통해서 증명해 보고자 한다.
본 연구는 폭소노미의 대중성과 편리성을 통제 어휘의 시맨틱 구조와 결합하는 방안을 모색하기 위한 기초 작업으로 온라인 기반의 디지털 콘텐츠 환경에서의 태그의 통제 효과를 조사해 보고자 한다. 구체적으로 태그의 동등어, 동의어 및 관련어를 질의 확장 시에 사용하여 태그를 통제한 후 시맨틱 검색을 한 경우와 태그를 전혀 통제하지 않은 경우를 비교하여 검색의 재현율, 정확률 및 만족도 측면에서 어떤 차이를 보이는지 실험을 통해서 증명해 보고자 한다.
본 연구에서는 이러한 통합 방식의 기초 연구로 개념 기반의 이미지 색인과 검색에 초점을 맞춰서 어떤 연구와 기술이 진행되어 오고 있는지 살펴보고, 개선 방안을 모색해 보고자 한다. 전통적으로 개념 기반 이미지 색인은 사서 또는 색인자에 의해서 수행되어 오고 있으나 최근 폭소노미의 등장으로 일반 이용자에 의해서도 색인 작업이 수행되고 있다.
본 연구에서는 태그에 언어 통제를 한 경우와 하지 않는 경우와는 검색의 재현율과 정확률 그리고 이용자 만족도 측면에서 어떤 차이가 있는지 알아보기 위해서 다음과 같은 세 개의 연구 가설을 이끌어 내었다.
본 장에서는 통제어휘 기반으로 기술되어 있는 위스콘신대학 도서관의 디지털 장서와 태그로 조직되어 있는 플리커의 자료를 비교해 보고 그 차이점을 분석해 보고자 한다. 위스콘신대학 도서관의 디지털 장서는 미국의 지리학회 도서관, 아카이브, 특수 장서 및 커리큘럼 도서관 장서에서 41,000개 이상의 사진 이미지, 지도 및 책을 포함하고 있다.
Hayman(2007)은 통제어휘인 시소러스에 의해 관리되는 폭소노미 모형을 소개하였다. 이 연구는 태그의 입력창에 이용자가 태그를 입력하면 등록되어 있는 시소러스를 제공하여 입력하려는 태그와 일치하거나 관련된 것을 선택할 수 있도록 하였다. 이러한 시소러스 사용은 선택 사항이긴 하지만 폭소노미 고유의 특성을 잃어버릴 우려가 있다고 본다.
이 연구는 사람들에게 이미지에 태그를 할당하게 한 다음, 이러한 태그들은 통제어휘와 비교해 보았는데, 상당 부분 이 두 언어가 일치함을 보여주었다. 이러한 결과는 통제 어휘와 함께 태그가 색인어로 사용될 수 있는 가능성을 열어 놓은 것이다. 또한 탐색시에 태그 구름과 폭소노미를 사용할 수 있게 하는 기능은 SCIE(Social Care Institute for Excellence's) 어휘에 익숙하지 않은 사람들에게 특히 유용하게 사용될 수 있다고 보고하였다.
이외에 구조화된 폭소노미 기반 시스템의 검색시 질의 확장 방법(동의어 사용, 관련어 사용, 동의어/관련어 사용 및 동의어/관련어 모두 사용 안함)이 검색 효율성(재현율과 정확률)에 어떤 영향을 미치는지에 대한 연구 문제를 조사해 보고자 한다.
가설 설정
연구 가설 1: 구조화된 폭소노미 기반 시스템과 태그 기반 시스템간의 검색 재현율에 차이가 있을 것이다.
연구 가설 2: 구조화된 폭소노미 기반 시스템과 태그 기반 시스템간의 검색 정확률에 차이가 있을 것이다.
연구 가설 3: 구조화된 폭소노미 기반 시스템과 태그 기반 시스템간의 이용자 만족도에 차이가 있을 것이다.
제안 방법
검색어는 최대 두 개 까지 사용할 수 있도록 하고, 두 개의 검색어는 블리언 연산자 ‘and’ 또는 ‘or'를 사용하여 결합할 수 있도록 하였다.
이시화 등(2008)은 폭소노미가 가지고 있는 문제점인 부정확한 태그로 인한 낮은 검색 결과의 문제점을 해결하기 위해서 실험 시스템을 제안하였다. 구체적으로 이들은 연관 태그 간의 매핑을 통해서 태그 가중치 매트릭스를 생성하고 이를 기반으로 하여 연관성 높은 태그로 구성된 클러스터를 생성하기 위한 알고리즘을 제안하였다. 끝으로 이강표 등(2008)은 딜리셔스 태그들을 대상으로 하여, 태그들이 위키피디아 텍스트에서 출현하는 빈도수를 기반으로 태그간 상하위 관계를 산출하는 통계적인 모형을 제안하였다.
국내 연구를 살펴보면, 최윤희(2009)는 플리커의 이미지 데이터들과 이들의 메타데이터인 태그들로부터 위치정보 태그와 공간 관계를 추출한 후 시맨틱 웹의 핵심 개념인 OWL형태의 온톨로지로 자동 구축하였다. 구축된 시스템은 폭소노미 데이터를 온톨로지의 의미적이고 기술적인 정보로 연결시켜 줌으로써 개념적인 관계를 보완하고 보다 정확한 탐색 결과를 제공할 수 있도록 하였다. 한편 이선숙(2008)은 온톨로지 접근 방법을 활용하여 태그의 의미를 명확히 하고 태그간의 관계를 설정하여 이를 태깅에 접목시키는 시스템을 구현하였다.
각 질문에 대해서 7분 정도 시간을 주어서 검색 하는데 65분을 부여하였다. 넷째, 각 실습실에 기타 질문이 수록된 설문지 유형 2를 배포하고 답변하도록 하였는데 답변 시간은 15분을 부여하였다. 따라서 전체 실험 시간이 총 90분 정도가 소요되었다.
다시 이 중에서 출현빈도가 1개인 태그를 제외한 총 820개의 태그가 15개의 카테고리별로 분류되어 카테고리별 태그 목록 파일을 과 같이 구성하였다.
먼저 선택에 의한 확장은 입력된 태그의 최대 3개 까지 동의어나 관련어를 포함시켜 확장하는 방법이다. 동의어는 워드넷을 이용하여 의미상의 동의어들로 확장시켜 주는 반면 관련어들은 두 단어의 동시출현 빈도에 기초하여 구성한 플리커의 데이터베이스에서 추출하였다. 그리고 단복수, 약어, 다른 언어 표현(예, art vs.
첫째, 그룹 1과 2를 두 개의 컴퓨터 실습실에 각각 배정하였다. 둘째, 각 실습실에서 실험 내용에 대한 소개를 10분 정도 하였다. 셋째, 아홉개의 질문이 수록된 질문지 유형 1을 각 실습실에 배포한 후 이용자로 하여금 시스템을 이용하여 적합한 이미지(들)을 찾은 후 이미지 번호(들)을 기술하도록 하였다.
첫째는 태그 입력시 알파벳순 태그 목록 파일 뿐만 아니라 15개의 카테고리별(예, 사람/신분/그룹, 객체, 사건 활동 등)로 분류한 태그 목록 파일을 참조하여 검색어를 입력할 수 있도록 하였다. 둘째는 검색어를 입력하여 검색어의 동의어와 관련어를 검색식에 첨가하여 질의를 확장할 수 있는데 이는 선택 사항으로 하였고 등등어 처리는 자동으로 처리하였다. 이 두 가지 방법에 대한 자세한 설명은 다음장에서 기술된다.
이 시스템은 태그 전체를 파악할 수 있는 도구로 태그 구름 대신에 알파벳순 태그 목록을 제시하고 있다. 또한 이 시스템은 검색어의 부분 및 완전 매칭 검색 기능을 갖고 있어서 이용자들이 이 두 가지 중한 가지 또는 두 가지 방법을 모두 사용하여 이미지를 검색할 수 있도록 하였다(그림 5 참조). 이외에 태그 기반 시스템도 구조화된 폭소노미 시스템과 검색 조건을 같게 하기 위해서 검색어는 최대 두 개 까지 사용할 수 있도록 하고, 두 개의 검색어는 블리언 연산자 ‘and’ 또는 ‘or'를 사용하여 결합할 수 있도록 하였다.
본 연구에서는 이 두 가지 방법을 활용하여 구조화된 폭소노미 시스템을 구현하였다. 첫째는 태그 입력시 알파벳순 태그 목록 파일 뿐만 아니라 15개의 카테고리별(예, 사람/신분/그룹, 객체, 사건 활동 등)로 분류한 태그 목록 파일을 참조하여 검색어를 입력할 수 있도록 하였다.
둘째, 각 실습실에서 실험 내용에 대한 소개를 10분 정도 하였다. 셋째, 아홉개의 질문이 수록된 질문지 유형 1을 각 실습실에 배포한 후 이용자로 하여금 시스템을 이용하여 적합한 이미지(들)을 찾은 후 이미지 번호(들)을 기술하도록 하였다. 각 질문에 대해서 7분 정도 시간을 주어서 검색 하는데 65분을 부여하였다.
실험 시스템 설계에 앞서서 플리커, 유투브, 딜리셔스 등의 폭소노미를 이용한 사이트들의 인터페이스들을 분석하였다(Shiri 2009). 분석 결과, 이러한 태그 기반 사이트들은 일반적으로 태그 구름, 태그 목록 또는 시스템이 제안하는 태그(들)을 통해서 태그를 브라우징하는 기능을 제공하고 있었다.
또한 딜리셔스는 이용자들이 개인 태그들을 탐색하고 필터링하는 기능도 갖고 있었다. 이러한 기능들을 참고로 하여 구조화된 폭소노미 및 태그 기반 시스템의 인터페이스들을 설계하였다.
자료 유형이 디지털화됨에 따라서 점점 더 많은 이용자들이 OPAC을 통해서 소장하고 있는 자료 이외에 관심 있는 사진이나 포스터 등을 검색하기를 원하고 있다(Choi and HsiehYee, 2008). 이와 같은 추세에 맞춰서 본 연구에서는 폭소노미를 활용하여 시맨틱 검색이 가능한 이미지 검색 시스템을 구현하여 그 효율성을 평가해 보았고, 그 결과는 다음과 같다.
12로 각각 나타났고, 이 두 만족도의 차이는 통계적으로 유의미한 것으로 나타나 가설 3은 검증되었다. 제안된 시스템을 사용한 그룹 1에서 언급한 시스템 개선점은 태그수 부족(5명), 이미지 크기 작음(4명), 데이터베이스양 부족(3명), 관련어가 의미적으로 연관되어 있지 않음(3명) 등을 지적하였다. 한편 태그 기반 시스템을 사용한 그룹 2에서 기술한 시스템 사용시 어려운 점은 검색어(접근점)판단 또는 동의어나 연관어가 잘 생각나지 않는 경우 검색의 어려움(15명), 관련 태그들이 너무 많아서 검색 결과 부적합한 그림에 대한 판단 기준의 부재(13명)를 가장 많이 언급하였다.
실험 절차는 다음과 같이 네 단계로 구분하였다. 첫째, 그룹 1과 2를 두 개의 컴퓨터 실습실에 각각 배정하였다. 둘째, 각 실습실에서 실험 내용에 대한 소개를 10분 정도 하였다.
본 연구에서는 이 두 가지 방법을 활용하여 구조화된 폭소노미 시스템을 구현하였다. 첫째는 태그 입력시 알파벳순 태그 목록 파일 뿐만 아니라 15개의 카테고리별(예, 사람/신분/그룹, 객체, 사건 활동 등)로 분류한 태그 목록 파일을 참조하여 검색어를 입력할 수 있도록 하였다. 둘째는 검색어를 입력하여 검색어의 동의어와 관련어를 검색식에 첨가하여 질의를 확장할 수 있는데 이는 선택 사항으로 하였고 등등어 처리는 자동으로 처리하였다.
태그 입력시 알파벳순 태그 목록 파일 뿐만 아니라 15개의 카테고리별로 분류한 태그 목록 파일을 참조하여 검색어를 입력할 수 있도록 하였다. 태그를 카테고리별로 분류하기 위해서 김현희와 김민경(2009)에 의해서 제안된 이미지 태그 카테고리 모형 (5개의 카테고리와 17개의 하위 카테고리)에서 15개 하위 카테고리를 사용하였다.
Morrison(2008)은 폭소노미의 검색 효율성을 실험을 통해서 조사하였다. 폭소노미를 사용하고 있는 사회적 북마크 웹사이트들과 인터넷 디렉토리 및 검색 엔진과 비교하여 재현율과 정확률 측면에서 비교해 보았다. 비교 결과, 검색 엔진이 재현율과 정확률에서 모두 우수한 것으로 나타났고, 디렉토리가 폭소노미 보다 더 정확한 것으로 나타났다.
대상 데이터
그리고 건축 분야 자료는 ‘건축’ 또는 ‘architecture'를 검색어로 하여 동일한 기준으로 150개 이미지들을 선정하였다.
선정된 300개 이미지에 부여된 총 7,890개 태그들 중 태그가 너무 짧아서 의미가 없거나 제3외국어(예, Мистецтво)로 해석이 불가능한 643개를 제외한 7,247개를 데이터베이스로 구축하였다. 7,247개의 태그 유형을 분석한 결과 이미지와 관련된 제작자, 소장 장소 그리고 해당 이미지가 속해 있는 그룹명과 같은 메타데이터(34.
예술 분야 자료는 ‘예술’ 또는 ‘art’를 검색어로 하여 검색된 결과 중에서 태그가 10개 이상 부여된 150개의 이미지들을 일차적으로 선정하였다.
제안된 시스템의 효율성을 평가하기 위해서 50명의 피조사자를 선정하여 실험을 수행하였다. 피조사자의 동질성을 유지하기 위해서 정보 검색 과목을 수강하고 있는 50명을 남녀, 학년을 기준으로 하여 25명씩 두 개의 그룹(그룹 1과 2)으로 구분하였다.
표본 이미지로는 플리커 사이트의 예술과 건축 분야의 이미지들을 선정하였다. 예술과 건축 분야를 선정한 이유는 도서관에서 활용할 수 있는 학술적이면서 다양한 해석이 가능한 주제로 생각되었기 때문이다.
제안된 시스템의 효율성을 평가하기 위해서 50명의 피조사자를 선정하여 실험을 수행하였다. 피조사자의 동질성을 유지하기 위해서 정보 검색 과목을 수강하고 있는 50명을 남녀, 학년을 기준으로 하여 25명씩 두 개의 그룹(그룹 1과 2)으로 구분하였다. 실험에 사용된 공통 질문과 각 그룹에 사용된 기타 질문은 <표 2>와 같다.
데이터처리
각 질문에서 네 개의 질의 확장 방법(동의어 사용, 관련어 사용, 동의어/관련어 사용 및 동의어/관련어 모두 사용 안함)에 따라서 검색의 효율성(재현율과 정확률)이 차이가 있는지 알아보기 위해서 일원배치 분산분석을 하였다. 집단이 하나 이하의 케이스로 사후 검정이 불가능한 질문번호 3, 6, 7을 제외한 6개 질문의 분석 결과는 <표 4>와 같다.
구조화된 폭소노미 기반 시스템과 태그 기반 시스템간의 검색 재현율과 정확률 차이를 검증하기 위해 t-검증을 하였다. 분석 결과, 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율(0.
이론/모형
위스콘신대학 도서관의 디지털 장서는 미국의 지리학회 도서관, 아카이브, 특수 장서 및 커리큘럼 도서관 장서에서 41,000개 이상의 사진 이미지, 지도 및 책을 포함하고 있다. 이 디지털 장서는 CONTENTdm이라는 디지털 미디어 관리 시스템으로 구축되었고, 더블린 코아와 통제어휘 도구1)를 사용한다. 한편 플리커는 2004년부터 서비스하고 있는 온라인 사진 관리 및 공유 사이트로 태그를 이용하여 사진을 관리하는 웹 2.
태그 입력시 알파벳순 태그 목록 파일 뿐만 아니라 15개의 카테고리별로 분류한 태그 목록 파일을 참조하여 검색어를 입력할 수 있도록 하였다. 태그를 카테고리별로 분류하기 위해서 김현희와 김민경(2009)에 의해서 제안된 이미지 태그 카테고리 모형 (5개의 카테고리와 17개의 하위 카테고리)에서 15개 하위 카테고리를 사용하였다. 이와 같은 태그 색인 파일을 구성하기 위해서 먼저 총 7,247개 태그를 동일한 태그로 통합한 결과 3,706종의 태그로 줄어들었다.
성능/효과
선정된 300개 이미지에 부여된 총 7,890개 태그들 중 태그가 너무 짧아서 의미가 없거나 제3외국어(예, Мистецтво)로 해석이 불가능한 643개를 제외한 7,247개를 데이터베이스로 구축하였다. 7,247개의 태그 유형을 분석한 결과 이미지와 관련된 제작자, 소장 장소 그리고 해당 이미지가 속해 있는 그룹명과 같은 메타데이터(34.13%)가 차지하는 비율이 가장 높았다. 그 다음으로 장소(14.
13%)가 차지하는 비율이 가장 높았다. 그 다음으로 장소(14.88%), 객체(12.42%), 주제(9.65%) 순으로 나타나 이미지속의 장소및 객체 인식을 폭소노미로 보완할 수 있음을 확인할 수 있었다. 태그의 특성을 살펴본 결과, 선행 연구들이 언급한 것 처럼 태그간의 계층적 구조를 보여주지 못하고, 단복수의 구분이 없으며, 동의어는 물론 동등어 통제가 되어 있지 않다는 문제점이 있는 것으로 나타났다.
넷째, 질의 확장 방법이 재현율에 어떤 영향을 미칠 것인지에 대한 연구 문제는 명확하게 증명되지 못했지만 정확률 측면에서는 부분적으로 증명되었다. 즉, 두 개의 질문은 동의어/관련어를 사용하지 않은 경우에 정확률이 가장 높게 나타났고, 한 개의 질문에서는 관련어만을 사용했을 때 정확률이 가장 높은 것으로 나타나 일관성 있는 패턴을 보이지는 못했다.
두 시스템에서 ‘New York Public Library’를 검색식으로 하여 검색한 결과 위스콘신대학 도서관의 디지털 장서에서는 총 23건이 검색되었고 그 중 두 건만이 적합한 자료로 보였다.
둘째, 질의 확장시 태그의 동시출현빈도에 의해서만 추출한 관련어는 의미적으로 연관이 없는 태그들도 다수 포함되어 있었다. 다시 말해서, 이와 같은 관련어 사용은 플리커와 같은 대용량 데이터베이스에서는 효과적일 수 있으나 소규모의 데이터베이스에서는 신중히 사용해야 할 것으로 보인다.
만족도 분석을 5점 척도(매우 만족: 5, 매우 만족하지 않음: 1)로 수행한 결과, 구조화된 폭소노미 시스템과 태그 기반 시스템의 만족도는 3.79, 3.12로 각각 나타났다. 이 두 만족도의 차이를 검증하기 위해 t-검증을 한 결과, 유의확률수준 0.
구조화된 폭소노미 기반 시스템과 태그 기반 시스템간의 검색 재현율과 정확률 차이를 검증하기 위해 t-검증을 하였다. 분석 결과, 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율(0.62 vs. 0.48, 등분산이 가정되지 않음)과 정확률(0.86 vs. 0.73, 등분산이 가정됨)에서 모두 높게 나타났고 유의확률수준 0.01에서 통계적으로 유의미한 차이를 보여서, 가설 1과 2가 모두 검증되었다(표 3 참조).
실험 시스템 설계에 앞서서 플리커, 유투브, 딜리셔스 등의 폭소노미를 이용한 사이트들의 인터페이스들을 분석하였다(Shiri 2009). 분석 결과, 이러한 태그 기반 사이트들은 일반적으로 태그 구름, 태그 목록 또는 시스템이 제안하는 태그(들)을 통해서 태그를 브라우징하는 기능을 제공하고 있었다. 특히 플리커는 태그간의 동시 출현 빈도를 이용하여 생성한 관련 태그(들)의 브라우징 기능, 태그 노트 기능 등을 갖고 있었다.
집단이 하나 이하의 케이스로 사후 검정이 불가능한 질문번호 3, 6, 7을 제외한 6개 질문의 분석 결과는 <표 4>와 같다. 분석 결과, 질의 확장 방법이 재현율에 미치는 영향은 없었으나, 정확률(질문 1, 5, 및 8)에 영향을 미치는 것으로 나타났다. 사후 검증 결과, 질문 1과 5인 경우에 동의어/관련어를 사용하지 않은 경우에 정확률이 가장 높게 나타났으며, 질문 8에서는 관련어만을 사용했을 때 정확률이 가장 높은 것으로 나타났다.
폭소노미를 사용하고 있는 사회적 북마크 웹사이트들과 인터넷 디렉토리 및 검색 엔진과 비교하여 재현율과 정확률 측면에서 비교해 보았다. 비교 결과, 검색 엔진이 재현율과 정확률에서 모두 우수한 것으로 나타났고, 디렉토리가 폭소노미 보다 더 정확한 것으로 나타났다. Kern et al.
(2006)은 Connotea의 45개의 의학 분야 학술지 논문에 사용된 태그와 PubMed에서 색인어에 사용된 MeSH의 용어를 비교했다. 비교 결과, 단지 11%의 태그만이 MeSH와 일치한 것으로 나타났다. 유사하게 Bruce(2008)도 북마킹 웹사이트인 CiteULike의 태그와 ERIC에서 기술하는 통제어휘와 어느 정도 일치하는지 비교․분석해 보았다.
Lawson(2009)은 OCLC WorldCat 분석에 의해서 정의된 31개의 주제 영역에 있는 155개의 단행본에 할당된 LCSH(통제어)를 아마존과 라이브러리씽에 있는 자료 중 동일한 표제에 할당된 태그들과 비교․분석해 보았다. 비교 결과, 이용자에 의해서 제공된 소셜 태깅은 LC 주제 표목과 일치하는 많은 객관적인 용어를 포함하고 있었고, 이러한 소셜 태깅은 개선된 정보 접근을 위해서 서지 레코드에 부여될 수 있다고 기술하고 있다. Thomas et al.
Yoon(2009)은 플리커의 태그들을 미국의회도서관의 시소러스(Thesaurus For Graphic Materials)와 비교하여 태그들이 시소러스를 구성하는데 유용하게 사용될 수 있는지에 대해서 조사하였다. 비교 결과, 태그들이 시소러스에 포함될 개념을 선택하고 선택된 개념사이의 의미적 관계를 명확하게 하는데 유용하게 사용될 수 있다고 기술하고 있다. 이외에 이 연구는 태그의 특성과 시소러스의 특성간의 차이에 대해서도 기술하고 있다.
(2008)은 12개 이미지에 대해서 자유롭게 태그를 입력하는 방식과 일반 주제, 사건의 장소, 객체 유형과 같이 미리 정해진 필드에 따라서 정보를 입력하는 방식을 비교, 분석해 보았다. 비교 결과, 후자인 구조화된 정보 입력 방식은 이용자에게 가이드를 제공하는 한편 요소의 의미에 대한 다른 해석을 유발하여 태그 질을 개선시키기 보다는 오히려 저하시키는 결과를 낳았다. 이외에 자유롭게 태그를 입력하는 방식은 태그의 더 다양한 범위를 허용하였다.
분석 결과, 질의 확장 방법이 재현율에 미치는 영향은 없었으나, 정확률(질문 1, 5, 및 8)에 영향을 미치는 것으로 나타났다. 사후 검증 결과, 질문 1과 5인 경우에 동의어/관련어를 사용하지 않은 경우에 정확률이 가장 높게 나타났으며, 질문 8에서는 관련어만을 사용했을 때 정확률이 가장 높은 것으로 나타났다.
셋째, 구조화된 폭소노미 기반 시스템과 태그 기반 시스템에 대한 이용자 만족도는 3.79, 3.12로 각각 나타났고, 이 두 만족도의 차이는 통계적으로 유의미한 것으로 나타나 가설 3은 검증되었다. 제안된 시스템을 사용한 그룹 1에서 언급한 시스템 개선점은 태그수 부족(5명), 이미지 크기 작음(4명), 데이터베이스양 부족(3명), 관련어가 의미적으로 연관되어 있지 않음(3명) 등을 지적하였다.
Yi와 Chan(2009)은 폭소노미 태그를 사용한 딜리셔스와 통제어휘인 LCSH를 단어 매칭에 의거하여 유사도를 분석하였다. 실험 결과, LCSH와 태그간의 일치도는 대략 66%로 나타났다. 이들은 이 둘 간의 매칭에 장애가 되는 요인들 즉, 태그의 비일관성, 다양한 복합 단어 태그(예, social-software)의 사용 등에 대해서 기술하고 태그의 최적화를 위해서 같은 개념을 나타내는 다른 표현의 태그들 그리고 복합 단어 태그 패턴을 정규화시켜주는 작업이 필요하다고 기술하였다.
이 두 만족도의 차이를 검증하기 위해 t-검증을 한 결과, 유의확률수준 0.01에서 통계적으로 유의미한 차이를 보여, 가설 3이 검증되었다(t값=3.25, p=0.00<0.01).
이 연구는 실험을 통해서 위키 시소러스가 용어 포괄성의 측면에서 ASIS&T 시소러스 보다 더 우수하며, 위키피디아가 시소러스 갱신에 적합한 자원으로 활용될 수 있음을 증명하였다.
그러나 재현율이 상대적으로 낮게 나타나 재현율을 좀 더 향상시킬 필요가 있어 보였다. 이를 위해서 단복수, 약어, 다른 언어 표현 등의 동등어 통제와 함께 동의어 및 관련어를 그룹핑하여 질의를 확장할 수 있는 구조화된 폭소노미 시스템을 구현하여 재현율은 0.48에서 0.62로 향상되었고, 정확률도 0.73에서 0.86으로 향상되었다. 이러한 결과로 인하여 가설 1과 2가 검증되었다.
태그를 카테고리별로 분류하기 위해서 김현희와 김민경(2009)에 의해서 제안된 이미지 태그 카테고리 모형 (5개의 카테고리와 17개의 하위 카테고리)에서 15개 하위 카테고리를 사용하였다. 이와 같은 태그 색인 파일을 구성하기 위해서 먼저 총 7,247개 태그를 동일한 태그로 통합한 결과 3,706종의 태그로 줄어들었다. 다시 이 중에서 출현빈도가 1개인 태그를 제외한 총 820개의 태그가 15개의 카테고리별로 분류되어 카테고리별 태그 목록 파일을 <그림 3>과 같이 구성하였다.
국내 연구를 살펴보면, 이성숙(2008)은 국내 대학도서관의 폭소노미 태그의 형태적 특성을 분석하여, 통제어휘 개발 가이드라인과 비교해 본 후 어떠한 특징이 있는지 조사하였다. 조사 결과, 시소러스 가이드라인의 여러 형태적 분석 기준에 90% 부합하는 것을 알 수 있었다. 다른 한편, 시소러스의 가이드라인에 부합되지 않는 부분도 발견되었는데 이는 태그의 단점인 모호성과 다의성과 관련이 있는 것으로 나타났다.
넷째, 질의 확장 방법이 재현율에 어떤 영향을 미칠 것인지에 대한 연구 문제는 명확하게 증명되지 못했지만 정확률 측면에서는 부분적으로 증명되었다. 즉, 두 개의 질문은 동의어/관련어를 사용하지 않은 경우에 정확률이 가장 높게 나타났고, 한 개의 질문에서는 관련어만을 사용했을 때 정확률이 가장 높은 것으로 나타나 일관성 있는 패턴을 보이지는 못했다.
첫째, 태그를 전혀 통제하지 않은 태그 기반 시스템의 검색 결과, 재현율과 정확률이 0.48과 0.73으로 각각 나타나 일단 색인어로서의 기능은 있는 것으로 나타났다. 그러나 재현율이 상대적으로 낮게 나타나 재현율을 좀 더 향상시킬 필요가 있어 보였다.
65%) 순으로 나타나 이미지속의 장소및 객체 인식을 폭소노미로 보완할 수 있음을 확인할 수 있었다. 태그의 특성을 살펴본 결과, 선행 연구들이 언급한 것 처럼 태그간의 계층적 구조를 보여주지 못하고, 단복수의 구분이 없으며, 동의어는 물론 동등어 통제가 되어 있지 않다는 문제점이 있는 것으로 나타났다.
한편 그룹 2의 완전 일치 검색과 부분 일치 검색의 사용 빈도의 분석 결과, 부분 일치 검색(58%)이 완전 일치 검색(42%) 보다 더 많이 사용되었다. 검색시 불편한 점 또는 개선점은 검색어(접근점)판단 또는 동의어나 연관어가 잘 생각나지 않는 경우 검색의 어려움을 가장 많이 언급하였다(15명).
후속연구
끝으로, 본 연구 결과는 서론에서 언급한 개념 기반 색인과 콘텐츠 기반 색인을 결합한 통합 이미지 색인 기법 연구에 대한 기초 자료로 활용될 수 있을 것이다. 또한 이 연구 결과는 라이브러리 2.
따라서 이러한 폭소노미와 통제어휘의 장점을 살려서 이 둘을 결합할 방법을 생각해 볼 수 있다. 다시 말해서, 폭소노미의 대중성, 편리성 및 유연성을 통제 어휘의 시맨틱 및 고품질 구조와 결합하는 방안을 연구할 필요가 있다. <표 1>은 이 두 방식을 개념, 입력방식, 작성자, 구조 등의 측면에서 비교한 것이다(김민경 2009).
끝으로, 본 연구 결과는 서론에서 언급한 개념 기반 색인과 콘텐츠 기반 색인을 결합한 통합 이미지 색인 기법 연구에 대한 기초 자료로 활용될 수 있을 것이다. 또한 이 연구 결과는 라이브러리 2.0 시대의 디지털 도서관 시스템에 적용되어 디지털 자원에 대한 접근성을 향상시킬 수 있을 것이다.
유사하게 Bruce(2008)도 북마킹 웹사이트인 CiteULike의 태그와 ERIC에서 기술하는 통제어휘와 어느 정도 일치하는지 비교․분석해 보았다. 비교 결과, 7.6%가 일치하였는데 이는 정확한 일치만 분석한 것으로, 품사와 의미적 분석을 포함한 후속 연구를 제안하였다.
이 시스템은 개념(키워드)으로 이미지를 검색한 후 검색된 이미지 중에 하나를 선택하면 그 이미지와 비슷한 이미지를 콘텐츠 기반으로 분석하여 재검색해준다. 이러한 통합 방식은 개념 및 콘텐츠 기반의 색인 이론과 기술에 의해서 더 효율적으로 발전할 것이며 또한 대용량의 데이터베이스에 적용될 수 있을 것이다.
Kolbitsch(2007)는 플리커의 언어 문제를 해결하기 위해서 플리커 질의를 WordNet(워드넷)을 활용하여 확장한 WordFlickr 시스템을 제안하였다. 제안된 WordFlickr 시스템과 기존 Flickr 시스템과의 비교를 위해서 비공식적인 실험을 수행하였는데 검색 효율성에 대한 구체적인 결과는 얻지 못했다. 다만, 실험을 통해서 WordFlickr 시스템의 탐색 결과에서 가장 빈도가 높은 태그들이 의미적으로 Flickr 시스템의 탐색 결과 보다 이용자의 초기 질문과 더 유사한 것으로 나타났다고 보고하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
콘텐츠 기반 색인은 어떻게 동작하는가?
개념 기반 색인은 사람들에 의해서 이미지 속성과 시맨틱 내용이 언어적으로 확인되고 기술된다. 반면, 콘텐츠 기반 색인은 색, 모양 또는 텍스처와 같은 이미지 특성들이 컴퓨터 소프트웨어에 의해서 자동으로 확인되고 추출되어 생성된다(Matusiak 2006).
개념 기반 색인은 어떻게 동작하는가?
이미지 색인에 대한 접근은 크게 두 가지 즉, 개념 기반 색인과 콘텐츠 기반 색인으로 구분될 수 있다. 개념 기반 색인은 사람들에 의해서 이미지 속성과 시맨틱 내용이 언어적으로 확인되고 기술된다. 반면, 콘텐츠 기반 색인은 색, 모양 또는 텍스처와 같은 이미지 특성들이 컴퓨터 소프트웨어에 의해서 자동으로 확인되고 추출되어 생성된다(Matusiak 2006).
베를린의 응용과학대에서 제공하는 Pixolu는 어떻게 동작하는가?
베를린의 응용과학대에서 제공하는 Pixolu가 그 중 하나이다(Pixolu 2009). 이 시스템은 개념(키워드)으로 이미지를 검색한 후 검색된 이미지 중에 하나를 선택하면 그 이미지와 비슷한 이미지를 콘텐츠 기반으로 분석하여 재검색해준다. 이러한 통합 방식은 개념 및 콘텐츠 기반의 색인 이론과 기술에 의해서 더 효율적으로 발전할 것이며 또한 대용량의 데이터베이스에 적용될 수 있을 것이다.
참고문헌 (37)
김민경. 2010. 폭소노미를 활용한 이미지 검색의 효율성 개선 방안에 관한 연구. 석사학위 논문, 명지대학교 대학원, 문헌정보학과. (Min-Kyung Kim. 2010. A study on Improving the Search Efficiency of Image Data Using Folksonomies. Graduate Thesis, Myongji University.)
김현희, 김민경. 2009. 플리커 이미지 자료에 대한 이용자 태깅 행태 분석과 활용 방안. 정보관리연구, 40(2): 71-94. (Hyun-Hee Kim, & Min-Kyung Kim. 2009. "Investigating the End-User Tagging Behavior and its Implications in Flickr." Journal of Information Management, 40(2): 71-94.)
이강표 외. 2008. FolksoViz: Wikipedia 본문을 이용한 상하위 관계 기반 폭소노미 시각화 기법. 정보과학회논문지: 컴퓨팅의 실제 및 레터, 14(4): 401-411. (Kangpyo Lee, et al. 2008. "FolksoViz: A Subsumption-based Folksonomy Visualization Using the Wikipedia." Journal of KIISE: Computing Practices and Letters, 14(4): 401-411.)
이성숙. 2008. 대학도서관 폭소노미 태그의 형태적 특성에 관한 연구. 한국문헌정보학회지, 42(4): 463-480. (Sung-Sook Lee. 2008. "A Study on Form of Folksonomy Tags in University Libraries." Journal of the Korean Society for Library and Information Science, 42(4): 463-480.)
이시화 외. 2008. Web2.0 환경에서의 효율적인 이미지 검색을 위한 태그 클러스터링 시스템의 설계 및 구현. 멀티미디어학회논문지, 11(8): 1169-1178. (Si-Hwa Lee, et al. 2008. "Design and Implementation of Tag Clustering System for Efficient Image Retrieval in Web2.0 Environment." Journal of Korea Multimedia Society v., 11(8): 1169-1178.)
이정미. 2007. 폭소노미의 개념적 접근과 웹정보 서비스에의 적용. 한국비블리아 학회지, 18(2): 141-159. (Jeong-Mee Lee. 2007. "A Conceptual Access to the Folksonomy and Its Application on the Web Information Services." Journal of the Korean Biblia Society for Library and Information Science, 18(2): 141-159.)
최윤희. 2009. 폭소노미에서 위치태그 분석을 통한 공간관계 추출 기법. 석사학위논문, 이화여자대학교 대학원, 컴퓨터정보통신공학과 (Yun-Hee Choi. 2009. Extraction method of spatial relation by analyzing location tag in folksonomy. Graduate Thesis, Ehwa Womans University.)
한승희. 2009. 집단지성을 활용한 시소러스 갱신에 관한 연구. 정보관리학회지, 26(3): 25-43. (Seung-Hee Han. 2009. "Thesaurus Updating Using Collective Intelligence: Based on Wikipedia Encyclopedia." Journal of the Korean Society for Information Management, 26(3): 25-43.)
Bruce, R. 2008. "Descriptor and folksonomy concurrence in education related scholarly research." Webology, 5(3). [online]. .
Choi, Y., & Hsieh-Yee, I. 2008. "Subject access for images in an OPAC." Proceedings of the ASIST Annual Meeting. Columbus, Ohio.
Daly, E., & Ballantyne, N. 2009. "Ensuring the discoverability of digital images for social work education: an online "tagging" survey to test controlled vocabularies." Webology, 6(2). [online]. .
Gurel, M. 2009. Expert assisted exploration of photographs: Supporting users in exploring visual media through subjective aesthetic attributes and crowd-sourced tags. M.A. thesis, University of Dublin.
Guy, M., & Tonkin, E. 2006. "Tidying up tags?" D-Lib Magazine, 12(1). [online]. .
Hayman, S. 2007. "Folksonomies and tagging: New developments in social bookmarking." Proceedings of the Ark Group Conference: Developing and Improving Classification Schemes. [online]. .
Kern. R., Granitzer, M., & Pammer, V. 2008. "Extending folksonomies for image tagging." Ninth International Workshop on Image Analysis for Multimedia Interactive Services, 7-9 May 2008. 126-129.
Kolbitsch, J. 2007. "WordFlickr: A solution to the vocabulary problem in social tagging systems." Proceedings of I-MEDIA '07 and I-SEMANTICS '07, Sept 2007. Graz, Austria.
Lawson, K. G. 2009. "Mining social tagging data for enhanced subject access for readers and researchers." The Journal of Academic Librarianship, 35(6): 574-582.
Lin, X., et al. 2006. "Exploring characteristics of social classification." Proceedings of the 17th ASIS&T SIG/CR Classification Research Workshop, Austin, Texas (US).
Matusiak, Krystyna K. 2006. "Towards user-centered indexing in digital image collections." OCLC Systems & Services: International Digital Library, 22(4): 283-298.
Morrison, J. 2008. "Tagging and searching: Search retrieval effectiveness of folksonomies on the World Wide Web." Information Processing and Management, 44: 1562-1579.
Peters, I., & Stock, W. G. 2007. "Folksonomy and information retrieval." Proceedings of the ASIST Annual Meeting, October 19-24, 2007. Milwaukee, Wisconsin: America Society for Information Science Technology.
Pixolu. 2009. [online]. .
Quintarelli, E. 2005. "Folksonomies: Power to the people." ISKO Italy UniMIB meeting, June 24, 2005. Milan: ISKO Italia.
Rafferty, P., & Hidderley, R. 2007. "Flickr and Democratic Indexing: dialogic approaches to indexing." Aslib Proceedings: New Information Perspectives, 59(4/5): 397-410.
Rosenfeld, L. 2005. "Folksonomies? how about metadata ecologies?" [online]. .
Shiri, A. 2009. "An examination of social tagging interface features and functionalities An analytical comparison." Online Information Review, 33(5): 901-919.
Sinha, P., & Jain, R. 2008. "Classication and annotation of digital photos using optical context data." In CIVR '08: Proceedings of the 2008 international conference on Content-based image and video retrieval, 309-318, New York, NY, USA: ACM.
Springer, M., et al. 2008. For the common good: the Library of Congress Flickr pilot project. Washington, DC : Library of Congress.
Steele, T. 2009. "The new cooperative cataloging." Library Hi Tech, 27(1): 68-77.
Trant, J. 2003. "Image retrieval benchmark database service: a needs assessment and preliminary development plan." [online]. .
Vander Wal, T. 2007. "Folksonomy coinage and definition." [online]. .
Yi, K, & Chan, L. M. 2009. "Linking folksonomy to Library of Congress subject headings: an exploratory study." Journal of Documentation, 65(6): 872-900.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.