$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류
A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.30 no.11, 2003년, pp.1062 - 1071  

이용배 (전주교육대학교 컴퓨터교육과) ,  맹성현 (한국정보통신대학교)

초록
AI-Helper 아이콘AI-Helper

장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.

Abstract AI-Helper 아이콘AI-Helper

A genre-based classification means classifying documents by the purpose for which they were written, not by the semantics or subject areas. Most genre classifying methods in the past were based on the existing documents categorization algorithms and ineffective for feature selections, resulting in l...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 남아있다. 본 논문에서 장르기반으로 디지털 문서를 자동학습하고 분류할 수 있는 방법론을 제시한다. 제안하는 장르 기반 자동분류 방법은 다음과 같은 가정하에 시작된다.
  • 증명하였다. 본 논문에서는 장르기반 문서분류 방법을 제안하고 이 방법의 타당성을 실험하고 평가하는 쪽에 연구 초점을 맞추었다. 따라서, 아직까지 확장하여 적용해 볼 몇 가지 과제가 남아있으며 그 내용은 다음과 같다.
  • 본 연구에서는 문서를 장르기반으로 분류하기 위해 새로운 학습 방법과 분류 모델을 제시하였다. 제시된 분류 방법은 다음과 같은 가정을 전제로 만들어졌다.
  • 본 연구에서는 실제 한국 인터넷 사용자가 필요로 하는 장르의 문서들을 수집하여 장르간 용어의 빈도와 장르 내 주제 범주별 용어의 빈도를 이용한 자질선택 방법을 제시하며 학습결과인 지식베이스를 활용하여 디지털 문서의 자동분류를 시도하고자 한다.
  • 본 연구에서의 실험은 제안한 장르기반 문서분류 방법의 적합성을 평가해 보는 데 목적이 있다. 따라서, 여러 가지 비교 실험을 통하여 제안된 자질추출 방법이나 분류 알고리즘의 타당성을 분석하고 그 결과를 기술한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (23)

  1. Andrew Dillon, Barbara Gushrowski, 'Genre and the Web: Is the Personal Home Page the First Uniquely Digital Genre?', JASIS, 51(2), 2000 

  2. Stephanie Haas, Erika Grams, 'Readers, Authors, and Page Structure: A Discussion of Four Questions Arising from a Content Analysis of Web Pages,' JASIS, 51(2), 2000 

  3. Stephanie Haas, Erika Grams, 'Page and Link Classifications: Connecting Diverse Resources,' Digital Libraries 98, Pittsburgh USA, 1998 

  4. Johan Dewe, Jussi Karlgren, Ivan Bretan, 'Assembling a Balanced Corpus from the Internet,' 11th Nordic Conference of Computational Linguistics, Copenhagen, 1998 

  5. Douglas Biber, A Typology of English Texts, Linguistics, 27:3-43, 1989 

  6. Jussi Karlgren, Ivan Brettan, Johan Dewe, Anders Hallberg, Niklas Wolkert, 'Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres,' 8th DELOS Workshop on User Interfaces in Digital Libraries, 1998 

  7. Jussi Karlgren, Douglass Cutting, 'Recognizing Text Genres with Simple Metrics Using Discriminant Analysis', Proc. of COLING94, Kyoto, 1994 

  8. Efstathios Stamatatos, Nikos Fakotais, George Kokkinakis, 'Automatic Authorship Attribution,' Proc. of the 9th Conference on EACL'99, Norway, 1999 

  9. TO BHMA, http://tovima.dolnet.gr 

  10. Brett Kessler, Geoffrey Nunberg, Hinrich Schtze, 'Automatic Detection of Text Genre', ACL'97, July 1997 

  11. Brown Corpus Manual, http://www.hit.uib.no/icame/brown/bcm.html 

  12. 이석훈, 맹성현, 김지영, 장동현, 서정현, 김현, '정보검색 평가체제 구축을 위한 HANTEC 테스트 컬렉션의 패키징', 제5회 한국과학기술 정보인프라 워크샵(KOSTI) 학술발표논문집 

  13. 맹성현, 이석훈, 이준호, 이응봉, 송사광, '정보검색 시스템 평가를 위한 균형 테스트 컬렉션 구축', 한국정보관리학회지, 제16권, 제2호 1999 

  14. David Lewis, Marc Ringuette, 'A Comparison of Two Learning Algorithm for Text Categorization,' Proc. of the 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994 

  15. Lewis, D. D., Schapire, R. E., Callan, J. P. and Papka, R., 'Training algorithms for linear text classifiers,' Proceedings of the 19th annual international ACM SIGIR conference on research and development in information retrieval, pp. 298-306, 1996 

  16. Yiming Yang, Jan Peterson, 'A comparative study on feature selection in text categorization,' Proc. of 14th Int. Conf. On Machine Learning, 1997 

  17. Robert Gaizauskas et. al., 'Comparison between a Method based on the Chi-square Test and a Support Vector Machine for Document Classification,' Proc. of ACM SIGIR 2001 

  18. 이상준, 김유원, '계층구조를 고려한 텍스트데이터 분류의 성능향상 방안 연구', 한국데이타마이닝학회 2002 추계학술대회 논문집, 2002 

  19. 염기종, 권영식, 'Suffix Tree를 이용한 웹문서 클러스터의 제목 생성 방법 성능 비교', 한국데이타마이닝학회 2002 추계학술대회 논문집, 2002 

  20. Hyo-Jung Oh, Sung Hyon Myaeng, Mann-Ho Lee, 'A Practical Hypertext Categorization Method using Links and Incrementally Available Class-Information,' Proc. of the 23rd ACM SIGIR Conference, Athenes, Greece, 2000 

  21. Mehran Sahami, 'Learning Limited Dependence Bayesian Classifiers,' Proc. of the 2nd International Conference on KDD'96, 1996 

  22. Yiming Yang, Xin Liu, 'A Re-examination of Text Categorization Methods', Proc. of the 22nd ACM SIGIR'99, 1999 

  23. Andrew McCallum, Kamal Nigram, 'A Comparison of Event Models for Nave Bayes Text Classification,' AAAI '98 Workshop on Learning for Text Categorization, 1998 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로