[논문]장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류

이용배; 맹성현

문제 정의

남아있다. 본 논문에서 장르기반으로 디지털 문서를 자동학습하고 분류할 수 있는 방법론을 제시한다. 제안하는 장르 기반 자동분류 방법은 다음과 같은 가정하에 시작된다.
증명하였다. 본 논문에서는 장르기반 문서분류 방법을 제안하고 이 방법의 타당성을 실험하고 평가하는 쪽에 연구 초점을 맞추었다. 따라서, 아직까지 확장하여 적용해 볼 몇 가지 과제가 남아있으며 그 내용은 다음과 같다.
본 연구에서는 문서를 장르기반으로 분류하기 위해 새로운 학습 방법과 분류 모델을 제시하였다. 제시된 분류 방법은 다음과 같은 가정을 전제로 만들어졌다.
본 연구에서는 실제 한국 인터넷 사용자가 필요로 하는 장르의 문서들을 수집하여 장르간 용어의 빈도와 장르 내 주제 범주별 용어의 빈도를 이용한 자질선택 방법을 제시하며 학습결과인 지식베이스를 활용하여 디지털 문서의 자동분류를 시도하고자 한다.
본 연구에서의 실험은 제안한 장르기반 문서분류 방법의 적합성을 평가해 보는 데 목적이 있다. 따라서, 여러 가지 비교 실험을 통하여 제안된 자질추출 방법이나 분류 알고리즘의 타당성을 분석하고 그 결과를 기술한다.

제안 방법

따라서, 여러 가지 비교 실험을 통하여 제안된 자질추출 방법이나 분류 알고리즘의 타당성을 분석하고 그 결과를 기술한다.
결과이다. 또한 자질선택 제2단계(장르 내에서 주제 범주간의 용어의 빈도를 이용하여 장르내 대표용어를 계산)의 효과를 알아보기 위해 2단계를 포함시킨 실험과 2단계를 포함시키지 않은 실험을 함께 병행하였다.
본 논문에서 제안된 방법은 장르 내에서 주제별 범주정보를 이용하는 것이 특징이다. 따라서 주제 범주의 개수가 분류 정확도에 어떠한 영향을 주는지에 대한 분석이 필요하다.
본 논문에서 제안하는 장르분류 방법은 자질 추출 후 생성된 지식베이스의 장르 대표벡터와 문서 벡터와의 유사도(similarity)를 기반으로 하며 유사도는 두 벡터 사이의 내적(inner product)으로 계산된다. 본 절에서는 제안된 분류 방법의 효용성을 측정하기 위해 기존의 문서 분류 모델과 비교 실험을 하여 평가를 한다.
본 연구에서 제안하는 장르기반 학습 방법은 용어의 장르 간 빈도수 및 장르내의 주제 범주간 용어의 빈도수를 이용한다. 이를 기반으로 분류 자질을 추출하며 정형화된 수식으로 도출해 내었으며 카이제곱 방법과 비교하여 상대적으로 높은 정확도를 나타내었다.
설명이다. 본 연구에서는 유형별로 실험문서의 개수가 상대적으로 많고 적으므로 정확도를 계산할 때 micro average precision/recall 을 사용하였으며 정확도의 계산 방법은 아래와 같다.
웹 장르의 정확한 분류체계와 기준을 마련하기는 어렵지만 [1, 2, 4]의 연구에서는 비교적 객관적인 근거를 가지고 웹 장르 정의에 접근을 시도하였다. 본 연구에서는 제안된 장르기반 분류 방법에 기인하여 실험하고 향후 다른 목적의 장르 기반분류 또는 웹 문서 기반 실험을 위해 웹 문서 장르를 선정하고 수집하였다.
본 절에서는 위의 실험에서 가장 높은 정확도를 나타내는 자질인 명사만을 대상으로 기존의 문서 분류를 위한 학습 과정에서 이용하던 자질선택 방법과 논문에서 제안하는 자질선택 방법으로 자질을 추출한 후 분류실험을 통해 정확도를 비교해 본다. 이 실험결과를 통해서는 제안하는 장르 학습에서의 자질선택 방법이 어느 정도 성능을 발휘하는지 효과를 알 수 있다.
본 절에서는 제안된 방법으로 자질선택과 장르 분류를 한 후 장르별 세부분류 결과를 분석하여 오류 원인을 찾아보도록 한다.
내적(inner product)으로 계산된다. 본 절에서는 제안된 분류 방법의 효용성을 측정하기 위해 기존의 문서 분류 모델과 비교 실험을 하여 평가를 한다.
수집된 문서 장르는 신문의 사건기사와 사설, 개인 홈페이지, 리뷰, 논문, Q&A, 상품의 스펙으로 총 7가지로 구성된다. 각 문서들은 장르내의 주제 범주별 통계정보를 이용하기 위해 장르와 장르내의 주제 범주에 대한 태깅을 해 놓았다.
수집하였다. 수집된 문서는 서로 교환하여 적합한 장르의 문서인지를 확인하고 필터링하는 작업을 두 번 거쳤다. 또한 장르별로 다수의 대표적인 포털 사이트에서 문서를 수집하여 문서의 형식이나 스타일이 한 방향으로 편중되는 것을 막았다.
수집된 장르는 한글문서에 표준화된 질의[12, 13]를 이용하여 수집된 샘플 문서의 통계치와 기존의 연구결과 [1, 4] 및 사용자들이 웹 검색결과에서 상대적으로 많이 필요로 하는 장르만을 선정하여 1차로 구성하였다. 이 말뭉치 (corpus)를 이용하여 다음 5장에서는 제안된 방법으로 분류실험을 하고 그 결과를 산출하였다.
판단하게 된다. 이때 판단하는 방법은 여러 가지가 있을 수 있지만 본 논문에서는 장르 대표벡터와 문서 벡터와의 유사도(similarity)를 이용하여 문서 분류를 시도한다.
이러한 용어의 문서출현빈도와 주제별 편차가 나타내는 특성을 이용하여 장르를 대표할 수 있는 용어의 가중치를 계산해 낸다. 예를 들어, 표 3의 "학교라는 용어는 개인 홈페이지 장르에서 빈도수가 가장 높을 뿐 아니라 주제별 범주에서도 높은 빈도로 출현하고 있는 것을 볼 수 있으며, 대학교'라는 용어는 장르 전체에서는 높은 빈도수를 기록하지만 학생이나 연예인의 범주에서는 순위에 들지 못하는 것을 알 수 있다.
두어 잘라낸다. 이렇게 잘라낸 각 장르별 문서출현빈도가 높은 상위 N개의 용어들에 대하여 용어가 주제별로 어떻게 분포되어 있는지 편차를 계산한다.
장르기반 분류의 테스트베드를 마련하기 위해 본 연구 과정에서는 언어학 전공자 1, 컴퓨터공학 천공자 2, 영문학 전공자 3명으로 하여금 디지털 웹 문서를 수집하도록 하였다. 수집된 문서는 사건.

대상 데이터

문서수집 과정에서 한글문서는 언어학 전공자 1명과 컴퓨터과학 전공자 2명이 수집하였고 영어문서는 영어학 전공자 3명과 언어학 전공자 1명이 함께 수집하였다. 수집된 문서는 서로 교환하여 적합한 장르의 문서인지를 확인하고 필터링하는 작업을 두 번 거쳤다.
분류실험을 위해 그리스의 주간신문 TO BHMA[9]의기자 10명을 대상으로 기자별로 20개씩의 기사를 발췌하여 절반은 학습을 하고 나머지 절반을 이용하여 실험하였다. 실험결과 정확률은 최고 0.
비교를 위한 다양한 분류 모델 중에서 분류 알고리즘이 비교적 간단하고 다양한 분류 응용[2이에서 많이 사용되고 있는 베이지안(Bayesian) 모델[14, 21-23]을 선정하였다. 베이지안 모델은 분류대상 문서가 각 범주에 속할 확률을 구해 가장 큰 확률값을 갖는 범주에 그 문서를 할당하는 방법이다.
실험에서 사용한 실험대상 문서로는 제4장에서의 수집문서를 대상으로 장르기반 분류실험을 하였다. 즉, 한글 문서 7, 828건, 영어문서 7, 615건을 대상으로 절반(한글 문서 3, 914건 영어문서 3, 808건)은 장르 학습을 위해 사용하고 나머지 절반(한글문서 3, 914건 영어문서 3, 807 건)을 이용하여 장르 분류에 사용하였다.
대상으로 장르기반 분류실험을 하였다. 즉, 한글 문서 7, 828건, 영어문서 7, 615건을 대상으로 절반(한글 문서 3, 914건 영어문서 3, 808건)은 장르 학습을 위해 사용하고 나머지 절반(한글문서 3, 914건 영어문서 3, 807 건)을 이용하여 장르 분류에 사용하였다.
사고, 사설 . 칼럼, 개인 홈페이지, 논문, 리뷰, Q&A, 상품 스펙의 7가지 장르로 한글 문서는 7, 828건, 영어 문서는 7, 615건으로 구성된다. 이 말뭉치는 차후 장르기반 연구나 개발의 테스트베드로 이용될 수 있을 것이다

이론/모형

시도했다. Kessler의 장르분류 함수는 표 2의 자질 통계치를 이용하여 이진결정 방법과 유사한 비교적 간단한 방법을 사용하여 구성하였다. 장르분류 실험시에는 브라운말뭉치[11]를 대상으로 Reportage, Editorial, Scitech,Regal, Nonfiction, Fiction의 6개 장르에 대하여 분류를 시도하였고 분류정확도는 0.

성능/효과

- 제안된 자질선택 방법에서 장르내 주제 범주 간의 용어의 분포를 이용하는 것이 주제 범주간의 용어분포를 이용하지 않는 것보다 장르 분류시에 정확도를 향상시킬 수 있다.
5% 높아짐 올 볼 수 있다. 그러나 베이지안 방법으로 분류된 결과에서는 주제 범주간의 정보를 이용한 분류결과 (0.70)가 주제 범주간의 정보를 이용하지 않은 분류결과 (0.74)보다 정확도 약 5.3% 정도 떨어졌다.
이를 기반으로 분류 자질을 추출하며 정형화된 수식으로 도출해 내었으며 카이제곱 방법과 비교하여 상대적으로 높은 정확도를 나타내었다. 또한 장르 분류 방법으로 유사도를 기반으로 하는 알고리즘을 제시하였으며 기존의 분류 방법인 베이지안과의 정확도 비교에서 약 28%나 높게 나와 본 연구에서 제안한 분류 방법이 정확도 측면에서 우수함을 입증하였다.
52를 나타내었다. 또한 표 1의 웹 문서 11개 장르로 성능실험을 했을 때에는 067~0.75 의정확률을 가졌다.
또한 표 7, 표 8에서는 영어문서에 적용하였을 경우 분류 정확도가 각각 0.87, 0.90으로 한글문서의 정확도와 비교할 정도가 됨으로 본 논문에서 제안하는 자질 선택 및 장르 분류 알고리즘이 언어에 종속적이지 않고 독립적인 방법임을 실험으로 증명하였다.
본 연구에서 제안하는 자질 추출 방법 및 분류 알고리즘이 한글문서에만 제한적으로 동작하는지 알아보기 위해 수집된 영어문서로 장르분류 테스트를 시도하였다그 결과 높은 분류 정확도(약 87%)를 나타내어 본 연구에서 제안한 자질선택 방법과 분류 모델이 특정 언어에 종속적이지 않고 외국어 영역으로 무난하게 확장할 수 있는 언어적으로 독립적인 방법임을 증명하였다. 본 논문에서는 장르기반 문서분류 방법을 제안하고 이 방법의 타당성을 실험하고 평가하는 쪽에 연구 초점을 맞추었다.
분류 모델만을 비교해 볼 때 1단계와 3단계를 이용한 장르 내 주제별 범주 정보를 이용하지 않은 결과를 보면 유사도를 기반으로 분류한 결과(0.87)가 베이지안 방법으로 분류한 결과(0.74)보다 정확도가 약 20% 높게 나왔고, 1단계, 2단계, 3단계를 모두 이용한 결과(0.90)도 유사도를 이용한 방법이 베이지안 방법(0.70)보다 정확도가 약 30% 높게 나왔다.
위와 같은 가정으로 시작하여 개발된 자질선택 방법 (편차이용) 및 분류 알고리즘(유사도기반)은 실험 결과분류 정 확도가 기존의 자질선택 방법 인 카이제곱(XD 및 베이지안(Bayesian) 분류 모델과 비교하여 높게 평가되었다.
위의 실험 표 6에서는 기존의 자질선택 방법보다 제안된 자질선택 방법으로 장르학습을 하는것이 문서 분류 시 정확도를 더 높여준다는 사실을 알 수 있다. 즉, 장르기반 분류를 위해서는 기존의 분류에 이용한 학습 방법 보다는 새로운 학습방법이 필요하다
통해 정확도를 비교해 본다. 이 실험결과를 통해서는 제안하는 장르 학습에서의 자질선택 방법이 어느 정도 성능을 발휘하는지 효과를 알 수 있다.
장르 분류함수를 만들어 냈다. 이 연구에서는 말뭉치가 장르별로 비교적 정리가 잘 되어있는 브라운 말뭉치 (Brown Corp나s)[l이를 4개 장르로 나누어 실험했을 때 정확률은 0.73을 나타내었으며 15개 장르로 나누어 실험했을 때의 정확률은 0.52를 나타내었다. 또한 표 1의 웹 문서 11개 장르로 성능실험을 했을 때에는 067~0.
표 5는 기존의 장르분류에 이용했던 자질과 추가적으로 대명사", 종결어미, 인명을 각각 자질로 이용 했을 때 분류 결과를 나타낸다. 이 중에서 명사 자질이 가장 높은 정확도를 나타내었으며 기존의 방법에서 제시한 감탄사, 특수기호 및 본 논문에서 추가적으로 실험한 대명사, 종결어미, 인명 등은 실제로 장르를 분류하는데 자질로서 역할을 수행하지 못하고 있음을 알 수 있었다.
이용한다. 이를 기반으로 분류 자질을 추출하며 정형화된 수식으로 도출해 내었으며 카이제곱 방법과 비교하여 상대적으로 높은 정확도를 나타내었다. 또한 장르 분류 방법으로 유사도를 기반으로 하는 알고리즘을 제시하였으며 기존의 분류 방법인 베이지안과의 정확도 비교에서 약 28%나 높게 나와 본 연구에서 제안한 분류 방법이 정확도 측면에서 우수함을 입증하였다.
주제 범주간의 용어빈도 정보 이용의 효과를 알아보기 위해 표 9의 유사도를 기반으로 분류된 결과만을 볼 때, 장르내의 주제별 범주정보를 이용했을 경우(1, 2, 3단계를 모두 이용)가 주제별 범주정보를 이용하지 않았을 때(1단계와 3단계만을 이용)보다 정확도가 약 3.5% 높아짐 올 볼 수 있다. 그러나 베이지안 방법으로 분류된 결과에서는 주제 범주간의 정보를 이용한 분류결과 (0.
중요한 문제가 발생하고 있다. 첫째는 웹 상에서 임의의 문서를 검색하기 위해 질의를 하면 검색 결과가 수천에서 수백만 건에 달하므로 사용자들은 검색 결과 내에서도 자신이 원하는 장르의 문서를 찾기조차 어렵다는 것이며 둘째는 인터넷 상에서 이처럼 기하급수적으로 증가하는 문서들의 효율적인 관리는 단순히 하드웨어 용량을 늘린다고 해결되지 않는다는 것이다.

후속연구

적용해 볼 필요가 있다. 개발된 자질선택 방법과 분류 방법으로 문서를 내용에 의해 분류해 보고 기존의 자질선택 방법 및 분류 알고리즘과의 성능을 비교해 보면 본 논문의 연구과정에서 제안한 분류 방법이 내용 기반 분류에도 적용 가능한지 아니면 장르기반 분류에만 적합한 방법인지를 알 수 있을 것이다.
본 연구에서 제안한 분류방법이 시발점부터 장르 기반분류에 초첨을 맞추어 개발되었지만 기존의 내용 기반분류에도 적용해 볼 필요가 있다. 개발된 자질선택 방법과 분류 방법으로 문서를 내용에 의해 분류해 보고 기존의 자질선택 방법 및 분류 알고리즘과의 성능을 비교해 보면 본 논문의 연구과정에서 제안한 분류 방법이 내용 기반 분류에도 적용 가능한지 아니면 장르기반 분류에만 적합한 방법인지를 알 수 있을 것이다.
칼럼, 개인 홈페이지, 논문, 리뷰, Q&A, 상품 스펙의 7가지 장르로 한글 문서는 7, 828건, 영어 문서는 7, 615건으로 구성된다. 이 말뭉치는 차후 장르기반 연구나 개발의 테스트베드로 이용될 수 있을 것이다
현재까지 진행된 장르 분석 연구에서는 비교적 적은 문서들을 대상으로 실험하였으며 임시적(ad hoc)인 분류 방법을 사용하였으므로 실제 대량의 디지털 문서로 확장하여 적용하기 위해서는 자질선택 방법이나 분류 방법에서 좀 더 세심한 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류
A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류 A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

이용배 (15)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류
A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper