$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

문서분류를 위한 의미적 주제선정방법
Semantic Topic Selection Method of Document for Classification 원문보기

한국해양정보통신학회논문지 = The journal of the Korea Institute of Maritime Information & Communication Sciences, v.11 no.1, 2007년, pp.163 - 172  

고광섭 (건국대학교 컴퓨터공학과) ,  김판구 (조선대학교 컴퓨터공학부) ,  이창훈 (건국대학교 컴퓨터공학과) ,  황명권 (조선대학교 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

Abstract AI-Helper 아이콘AI-Helper

The web as global network includes text document, video, sound, etc and connects each distributed information using link Through development of web, it accumulates abundant information and the main is text based documents. Most of user use the web to retrieve information what they want. So, numerous...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문의 핵심은 웹에 산재되어 있는 한글 문서들을 자동으로 분류하기 위해, 문서의 주제를 선정하기 위한 방법을 제안하고 있다. 문서의 주제선정은 문서내에 포함된 개 념 들의 Z日(Term Frequency)와 개 념 들 사이 의 관계 횟수(R V : Relation Value) 그리 고 한글의 개 념 과 관계를 파악하여 표현한 형식적이고 명세적인 어휘 네트워크인 U-WIN을 이 용하고 있다.

가설 설정

  • 에 서 가장 중요한 역 할을 수행 한다. 본 연구는 문서 에 포함된 개념들 중에서 문서의 주제 선정에 주요한 역할을 하는 개념들은 출현 횟수와 개념들 사이의 관계가 많을 것이라는 가정 하에 진행되었다. 핵심이 되는 키워드들을 선택하기 위해 문서에 포함된 개념들의 7方와 氏, 를 파악하는더】, 이는 의미적인 키워드 선정에 유용하고 문서의 주제와 가장 관계 깊은 개념들을 추출하는 것이 가능하다.
본문요약 정보가 도움이 되었나요?

참고문헌 (16)

  1. Jinze Liu, Wei Wang, Jiong Yang, 'Research track posters: A framework for ontology-driven subspace clustering', Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining KDD '04, pp. 623-628, ISBN:1-58113-888-1, Aug. 2004 

  2. Illlhoi Yoo, Xiaohua Hu, 'A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE', International Conference on Digital Libraries archive Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries table of contents, pp. 220-229, ISBB:1-59593-354-9, 2006 

  3. Hwanjo Yu, ChengXiang Zhai, Jiawei Han, 'Text classification from positiveand unlabeled documents', Source Conference on Information and Knowledge Management archive Proceedings of the twelfth international conference on Information and knowledge management , ISBN:1-58113-723-0, pp.232-239, 2003 

  4. Thierson Couto, Marco Cristo, Marcos Andre Goncalves, Pavel Calado, Nivio Ziviani, Edleno Moura, Berthier Ribeiro-Neto, Belo Horizonte, 'A comparative study of citations and links in document classification', Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, ISBN: 1-59593-354-9, pp.75-84, 2006 

  5. Yifen Huang, Tom M. Mitchell,'Text clustering with extended user feedback', Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 413-420, ISBN: 1-59593- 369-7, 2006 

  6. Hyunjang Kong, Myunggwon Hwang, Gwangsu Hwang, Jaehong Shim, Pankoo Kim, 'Topic Selection of Web Documents Using Specific Domain Ontology', MICAI 2006: Advances in Artificial Intelligence, LNAI 4293, pp.1047-1056, 2006 

  7. Greiner, R., Grove, A, Schuurmans, D.: On learning hierarchical Classifications (1997) 

  8. Quek, C.Y, Mitchell, T: Classification of World Wide Web Documents. Seniors Honors Thesis, School of Computer Science, Carnegie Melon University (1998) 

  9. Koller, D., Sahami, M.: Hierarchically Classifying Documents Using Very Few Words. In the Proceeding of Machine Learning (ICML-97) (1997) 170-176 

  10. http://en.wikipedia.org/wiki/Tf-idf 

  11. 김준수, 옥철영, '정제된 의미정보와 시소러스를 이용한 동형이의어 분별시스템', 정보처리학회논문 지 B 제 12-B권 제7호 pp.829-840 2005. 12 

  12. 허준희, 최준혁, 이정현, 김중배, 임기옥, '문서의 주 제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템', 정보처리학회논문지 B 제 8-brnjs 제5호 pp.447-454 2001.10 

  13. 쵀재혁, 서혜성, 노상욱, 최경희, 정기현, '온톨로지 기반의 웹 페이지 분류시스템',정보처리학회논문 지 B 제 11-Brnjs, 제 6호, pp723-734, 2004년 10월 

  14. M.P.Sinka and D.W.Corne, 'A large benchma가 dataset for web document clustering,' Soft Computing Systems:Design, Management and Applications, Frontiers in Artificial Intelligence and Applications, Vol.87, pp.881-890, 2002 

  15. R.Hanson, J.Stutz and P.Cheeseman, 'Bayesian Classification Theory', Techinical Report FIA-90-12-7-01, NASA Ames research Center, AI Branch, 1991 

  16. 황명권, 배용근, 김판구, '문서 내용의 계층화률 이용한 문서 비교 방법', 한국해양정보통신학회논문 제 제 10권 12호, pp2335-2342, 2006년 12월 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로