$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

장르 판별 알고리즘을 이용한 책 장르 시각화
Book Genre Visualization based on Genre Identification Algorithm 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.5, 2012년, pp.52 - 61  

김효영 (중앙대학교 첨단영상대학원) ,  박진완 (중앙대학교 첨단영상대학원)

초록
AI-Helper 아이콘AI-Helper

텍스트 시각화는 데이터 시각화의 한 분야로, 방대한 텍스트 데이터에 대한 다양한 분석 기법을 바탕으로 텍스트의 내용적 측면은 물론 구조적, 형식적 측면을 시각적으로 재현(represent)해내는 방법에 관한 연구이다. 본 연구에서는 이러한 텍스트 시각화 연구의 일환으로, 서적이 갖는 장르적 특성을 서적 본문에 직접 사용된 단어들을 바탕으로 파악해낼 수 있는 방법에 대해 고찰하고, 실험을 통한 검증을 바탕으로 서적 장르 시각화의 요소를 도출한 후, 이를 직관적이고 효율적으로 시각화하는 방법에 대해 서술하였다. 본 연구에서 제안하는 시각화는 첫째, 책에 직접 사용된 단어를 토대로 책의 실질적 장르를 파악할 수 있으며, 둘째, 시각화 결과 이미지를 통해 해당 서적이 어떤 장르와 가장 가까운지 한 눈에 파악할 수 있을 뿐 아니라, 한 책이 갖는 복합 장르적 특성을 알 수 있도록 해주고, 이미지 내의 점(dot)의 개수와 곡선의 곡률, 밝기 등을 통해 대표 장르로 파악된 장르의 근접도(유사도)를 짐작할 수 있다는 점에서 그 의의를 갖는다. 나아가 개별 소비자 자신이 선호하는 서적들에 대한 적용을 통해 개인별 선호 서적(또는 장르) 이미지를 제공하는 등 서적 추천 시스템과 같은 북 커스터마이징(book customizing)과 같은 분야에도 다양하게 활용될 수 있다.

Abstract AI-Helper 아이콘AI-Helper

Text visualization is one of sectors in data visualization. This study is on methods to visually represent text's contents, structure, and form aspects based on various analytic techniques about wide range of text data. In this study -as a text visualization study-, 1) a method to find out the chara...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 시각화의 독창성 및 차별점은, 한 권의 책이 갖는 4가지 장르별 독자적 단어와 그 장르 근접도가 하나의 이미지로 표현함으로써, 더 높은 장르 근접도를 갖는 장르적 속성이 시각적으로 대비되어 드러나도록 설계하고자 하였다는 점이다. 따라서 각 장르별로 임의의 색상을 할당하여 각 장르의 장르독자성 사전에 포함된 단어들과 각 장르별 근접도를 시각적으로 표현하고자 하였다. 색상의 할당은 [표 7]과 같다.
  • 본 시각화의 독창성 및 차별점은, 한 권의 책이 갖는 4가지 장르별 독자적 단어와 그 장르 근접도가 하나의 이미지로 표현함으로써, 더 높은 장르 근접도를 갖는 장르적 속성이 시각적으로 대비되어 드러나도록 설계하고자 하였다는 점이다. 따라서 각 장르별로 임의의 색상을 할당하여 각 장르의 장르독자성 사전에 포함된 단어들과 각 장르별 근접도를 시각적으로 표현하고자 하였다.
  • 그러나 서적의 장르는 매우 다양하여 모든 장르에 대한 정의 및 구분은 쉽지 않다. 본 연구는 단어로 장르의 특성을 파악하는 방법론적 기초 연구이므로 연구를 위한 실험 및 검증의 편의를 위해 보편적 서적 분류체계로 구분되고 있는 장르 중 4가지를 선정하여 실험을 진행하고자 하였다. 서적 장르 구분의 기준으로서, 전 세계적으로 널리 이용되고 있는 인터넷 서점인 아마존닷컴(amzon.
  • 본 연구에서는 서적이 갖는 장르적 특성을 서적 본문에 직접 사용된 단어들을 바탕으로 파악해낼 수 있는 방법에 대해 고찰하고, 실험을 통한 검증을 토대로 서적 장르 시각화의 요소를 도출한 후, 이를 직관적이고 효율적으로 시각화하는 방법에 대해 서술하였다. 본 서적 장르 시각화 연구가 갖는 의의는 다음과 같다.
  • 책의 장르는 대부분의 경우 출판사나 저자에 의해 분류되는데, 이는 주관적인 것으로 실제 책의 텍스트가 갖는 성격과는 다소 차이가 있을 수 있다. 본 연구에서는 이러한 점에 착안하여 서적 텍스트에 사용된 단어 데이터를 분석하여 서적의 장르를 판별할 수 있는 방법론에 대하여 기술하고, 이러한 방법론의 타당성을 검증하며, 이를 통하여 도출된 각 서적 텍스트의 장르 정보를 시각적 요소로 매핑하여 한 장의 직관적인 이미지의 형태로 시각화하는 방법을 제안한다.
  • 이러한 맥락에서 텍스트 데이터를 분석하여, 시각적으로 표현하고자 하는 요소를 도출한 뒤 이를 효과적인 시각적 요소로 매핑하여 하나의 이미지의 형태로 표현하고자 하는 텍스트 시각화에 관한 연구는, 방대한 데이터에서 파악하기 불가능한 복잡, 다양한 정보를 직관적으로 나타낼 수 있다는 점에서 정보 전달의 독창성 및 효율성을 갖는다. 본 연구에서는 이러한 텍스트 시각화 연구의 일환으로, 다양한 서적이 갖는 장르적 특성을 텍스트 데이터에 대한 분석을 토대로 도출한 후 이를 직관적인 하나의 이미지 포맷으로 표현하기 위한 방법론을 제시하고자 하였다. 이를 위해 서적의 장르적 성격을 나타내는 요인 도출을 위한 디지털 서적 데이터의 분석 및 처리 절차에 관한 연구와, 도출된 요인을 시각적 요소로 치환하는 방법에 대한 미학적, 디자인적 접근에 따른 구체적 내용을 기술한다.
  • 본 연구에서는 임의의 서적 텍스트가 갖는 장르적 특성을 시각화하는 방법으로서 앞서 도출된 각 장르독자성 사전에 포함된 단어의 수와 함께 앞서 도출된 Average Word Distance를 통해 알 수 있는 4가지 장르에 대한 각 장르별 근접도를 요소로 하여 서적 텍스트 사용 단어 기반의 장르 정보를 직관적으로 표현하는 것을 최종 목표로 하였다. 따라서 이를 위해 시각적으로 표현되어야 할 필수 속성은 다음과 같다.
  • 이 프로젝트에서는 소설이 갖는 텍스트 데이터를 ‘문학적 유기체(The Literary Organism)'로서 표현하여 개별 소설 고유의 문학적, 시각적 정체성을 나타내고자 하였다.
  • 따라서 독자가 직접 책을 읽고 느끼게 되는 책의 장르와 상이한 경우가 발생하게 마련이다. 이를 위해 본 논문에서는 일반적인 장르 분류 기준으로 구분되는 특정 장르들의 고유의 단어 사전을 만들어 임의의 책을 이들 각각의 장르 사전들과 비교하는 과정을 거쳐 책의 단어 사용을 바탕으로 한 실질적 장르를 판별해 내는 것이다. 이는 구체적으로 다음과 같은 과정을 거친다.
  • 이제 4개의 장르별로 각 장르의 특성을 강하게 갖는 단어들로 이루어진 장르독자성사전을 기준으로 임의의 책을 입력하여 그 책에 사용된 단어들과 각 장르독자성 사전을 비교하는 과정을 통하여 그 책이 어떤 장르에 가까운지를 도출하고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
텍스트 시각화란? 텍스트 시각화는 데이터 시각화의 한 분야로, 방대한 텍스트 데이터에 대한 다양한 분석 기법을 바탕으로 텍스트의 내용적 측면은 물론 구조적, 형식적 측면을 시각적으로 재현(represent)해내는 방법에 관한 연구이다[1]. 텍스트 시각화에 대한 연구는 텍스트의 내용을 다양한 시각 요소로 표현하는 기본적인 접근부터, 텍스트의 내용 또는 그 안에 숨어있는 스토리텔링을 새로운 관점으로 재조명 하거나, 보이지 않는 관계적 측면을 시각적 재현을 통해 드러내는 등의 다양한 접근 방식을 갖는다.
텍스트 시각화의 재료 데이터가 되는 텍스트의 양이 방대해질 경우 가지는 단점은? 텍스트 시각화의 재료 데이터가 되는 텍스트의 경우, 그 양이 방대해질 경우 전체적인 주제와 내용 및 그 데이터가 갖는 관계 등을 파악하기가 매우 어렵게 된다[2]. 이러한 맥락에서 텍스트 데이터를 분석하여, 시각적으로 표현하고자 하는 요소를 도출한 뒤 이를 효과적인 시각적 요소로 매핑하여 하나의 이미지의 형태로 표현하고자 하는 텍스트 시각화에 관한 연구는, 방대한 데이터에서 파악하기 불가능한 복잡, 다양한 정보를 직관적으로 나타낼 수 있다는 점에서 정보 전달의 독창성 및 효율성을 갖는다.
텍스트 시각화 연구를 통해 가지는 의의와 활용점은? 본 연구에서는 이러한 텍스트 시각화 연구의 일환으로, 서적이 갖는 장르적 특성을 서적 본문에 직접 사용된 단어들을 바탕으로 파악해낼 수 있는 방법에 대해 고찰하고, 실험을 통한 검증을 바탕으로 서적 장르 시각화의 요소를 도출한 후, 이를 직관적이고 효율적으로 시각화하는 방법에 대해 서술하였다. 본 연구에서 제안하는 시각화는 첫째, 책에 직접 사용된 단어를 토대로 책의 실질적 장르를 파악할 수 있으며, 둘째, 시각화 결과 이미지를 통해 해당 서적이 어떤 장르와 가장 가까운지 한 눈에 파악할 수 있을 뿐 아니라, 한 책이 갖는 복합 장르적 특성을 알 수 있도록 해주고, 이미지 내의 점(dot)의 개수와 곡선의 곡률, 밝기 등을 통해 대표 장르로 파악된 장르의 근접도(유사도)를 짐작할 수 있다는 점에서 그 의의를 갖는다. 나아가 개별 소비자 자신이 선호하는 서적들에 대한 적용을 통해 개인별 선호 서적(또는 장르) 이미지를 제공하는 등 서적 추천 시스템과 같은 북 커스터마이징(book customizing)과 같은 분야에도 다양하게 활용될 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (7)

  1. H. Kim and J. W. Park, "Textual Visualization based on Readability," Proceeding of ACM SIGGRAPH Asia 2011, 2011. 

  2. 김효영, 박진완, "텍스트의 난이도 파악을 위한 가독성 정보의 시각화", 한국디지털디자인학회, Vol.12, No.2, 2012. 

  3. T. Legan and L. Becker, "Visualizing the Text of Philip Pullman's Trilogy His Dark Materials," Proceeding of NordiCHI 2010, 2010. 

  4. http://chrisharrison.net/index.php/Visualizations/BibleViz 

  5. http://itsbeenreal.co.uk/index.php?/wwwords/about-this-project/ 

  6. http://textarc.org/ 

  7. www.amazon.com 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로