[논문]문서분류를 위한 의미적 주제선정방법

고광섭; 김판구; 이창훈; 황명권

doi:10.6109/jkiice.2007.11.1.163

문서분류를 위한 의미적 주제선정방법
Semantic Topic Selection Method of Document for Classification 원문보기

한국해양정보통신학회논문지 = The journal of the Korea Institute of Maritime Information & Communication Sciences, v.11 no.1, 2007년, pp.163 - 172

고광섭 (건국대학교 컴퓨터공학과) , 김판구 (조선대학교 컴퓨터공학부) , 이창훈 (건국대학교 컴퓨터공학과) , 황명권 (조선대학교 컴퓨터공학부)

초록
AI-Helper

웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

Abstract ▼ AI-Helper

The web as global network includes text document, video, sound, etc and connects each distributed information using link Through development of web, it accumulates abundant information and the main is text based documents. Most of user use the web to retrieve information what they want. So, numerous researches have progressed to retrieve the text documents using the many methods, such as probability, statistics, vector similarity, Bayesian, and so on. These researches however, could not consider both the subject and the semantics of documents. As a result user have to find by their hand again. Especially, it is more hard to find the korean document because the researches of korean document classification is insufficient. So, to overcome the previous problems, we propose the korean document classification method for semantic retrieval. This method firstly, extracts TF value and RV value of concepts that is included in document, and maps into U-WIN that is korean vocabulary dictionary to select the topic of document. This method is possible to classify the document semantically and showed the efficiency through experiment.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문의 핵심은 웹에 산재되어 있는 한글 문서들을 자동으로 분류하기 위해, 문서의 주제를 선정하기 위한 방법을 제안하고 있다. 문서의 주제선정은 문서내에 포함된 개 념 들의 Z日(Term Frequency)와 개 념 들 사이 의 관계 횟수(R V : Relation Value) 그리 고 한글의 개 념 과 관계를 파악하여 표현한 형식적이고 명세적인 어휘 네트워크인 U-WIN을 이 용하고 있다.

가설 설정

에 서 가장 중요한 역 할을 수행 한다. 본 연구는 문서 에 포함된 개념들 중에서 문서의 주제 선정에 주요한 역할을 하는 개념들은 출현 횟수와 개념들 사이의 관계가 많을 것이라는 가정 하에 진행되었다. 핵심이 되는 키워드들을 선택하기 위해 문서에 포함된 개념들의 7方와 氏, 를 파악하는더】, 이는 의미적인 키워드 선정에 유용하고 문서의 주제와 가장 관계 깊은 개념들을 추출하는 것이 가능하다.

제안 방법

한다. 그리고 표 1의 기호를 이용하여 추출된 명사개념들 사이의 관계를 파악하여 핵심 키워드 집합을 파악한다. 핵심키워드 집합의 개념들을 이용하여 문서의 주제를 선정하기 위하여, 각 개념들의 ZF값과 개념들 사이에서 관계한 횟수(R, )를 이용하여 개념가중치(CW: Concept Weight)를 구한다.
또한 본 연구의 유효성을 평가하기 위해, 웹에 있는 1000개의 국내문서를 임의로 선정하여 문서의 주제선정을 통해 문서분류의 정확성을 테스트하고 통계를 내었다. 문서의 분류를 위해 U-WIN의 계층구조에서 계층 3에 있는 개념들을 이용하여 분류범주(카테고리)를 정하였다.
문서의 주제선정은 문서내에 포함된 개 념 들의 Z日(Term Frequency)와 개 념 들 사이 의 관계 횟수(R V : Relation Value) 그리 고 한글의 개 념 과 관계를 파악하여 표현한 형식적이고 명세적인 어휘 네트워크인 U-WIN을 이 용하고 있다. 또한 이들을 기 반으로 핵심 키워드가 되는 그룹을 추출하는 방법, 추출된 키워드들을 바탕으로 3가지 과정을 거 쳐 주제를 선정하는 방법을 제안하고 있다. 실험결과에서 정확도는 84.
7石를 측정한다. 명사개념의 추출을 위해 형태소 분석 기법을 사용하여 구문태깅을 하고 명사만을 추출하였다. 이는 한국어 문서를 표현하고 이해하는데 효과적이다[⑵.
내었다. 문서의 분류를 위해 U-WIN의 계층구조에서 계층 3에 있는 개념들을 이용하여 분류범주(카테고리)를 정하였다.
문서의 주제를 선정하기 위해, 앞의 과정에서 추출된 키워드그룹, 각개념의 CW값과U-WIN에 정의된 개념들의 계층구조를 다시 이용한다. 추출된 키워드 그룹의 개념 들을 U-WIN의 개념들과 매핑을 시킨 후, 문서의 주제를 선정하기 위해 3가지 과정을 제안한다.
본 논문에서는 U-WIN을 이용하여 웹 문서 에서 명사개념들을 추출하고, 표 1의 기호를 이용하여 개념들 사이의 관계를 파악하여, 마지막으로 상하관계의 기본 속성을 이용하여 문서의 핵심을 파악하고 분류를 시도하였다.
본 논문에서는 국내문서의 분류를 위한 의미적 주제선정에 초점을 맞추고, 효율적이고 의미적인 문서 분류를 위 해 출현 개 념 의 TFCTerm Frequency)와 주변 개 념들과의 관계 된 정 도: Relation Value)를 추출하고, 국내 어 휘 사전 인 U-WIN(UOU-Word Intelligent Network)을이용한다. 문서 분류를 위해 본 논문에서 제시하는 방법은 다음과 같은 과정으로 구성되어 있다.
이들 연구들은 주로 영어로 작성된 문서분류에 사용되 며, 한글로 작성 된 국내문서 의 분류를 위해서는 한국어 사전을 이용해야 한다. 본 논문에서는 문서 분류를 위 해 U-WIN 계층구조를 이용하여 접근하였으며, 문서내의 특정 개념의 중요도와U-WIN에 정의된 관계를 최대한 반영하기 위해 문서내 개념들의 曾 값과 개념 사이의 관계한 정도까지 고려하였다.
본 논문의 문서분류를 위 한 주제선정방법의 효율을 보이기 위해, 웹에 있는 국내문서들을 위주로 실험을 하였다. 구글(google.
나타낸다. 본논문에서 花는문서 내에서 특정 개념이 얼마나 중요한지 를 표현하는 척 도로 사용된다.
계층구조를 다시 이용한다. 추출된 키워드 그룹의 개념 들을 U-WIN의 개념들과 매핑을 시킨 후, 문서의 주제를 선정하기 위해 3가지 과정을 제안한다. 3가지 과정을 단계별로 수행함으로써 문서의 주제를 선택하고 분류할 수 있음을 보인다.
가장 먼저, 개념의 7另와/?, 를 이용하여 문서의 키워드들을 추출한다. 추출된 키워드들을 U-WIN에 매핑을 시킨 후, 본 연구에서 제안하는 문서분류 방법에 의해 웹 문서를 적절하게 분류한다. 본 연구에서 제안하는 문서분류 방법은 3가지 단계로구성되어 있으며, 실험을통하여 정확하고의 미 적 인 문서 분류가 가능함을 보였다.
그리고 표 1의 기호를 이용하여 추출된 명사개념들 사이의 관계를 파악하여 핵심 키워드 집합을 파악한다. 핵심키워드 집합의 개념들을 이용하여 문서의 주제를 선정하기 위하여, 각 개념들의 ZF값과 개념들 사이에서 관계한 횟수(R, )를 이용하여 개념가중치(CW: Concept Weight)를 구한다. 이 과정 에서 TF와 3 V 두 가지 를 모두 고려한 이유는 문서에서 중요한 개념일수록 출현 및 주변 개념과의 관계된 횟수가 많다는 가정과 실험 결과의 증명 에 의 한 것 이 다.

대상 데이터

구글(google.com) 검색 엔진에서, 특정 질의어를 이용하여 검색된 문서를 실험에 사용하였으며, 표 7의 내용은 그중의 하나이 다.
표7의 샘플문서에서 그룹 1을식 (2)에 의해 핵심 키워드 그룹으로 선정하였다. 선정된 키워드 그룹은 그림 5와 같이 U-WIN의 개념들의 계층구조에 매핑이 되고, 문서분류를 위한 주제선정 과정 1, 2, 3을 거치게 되는데, 표 9와 같이 과정 1의 조건을 만족하여 '조개'로 문서 의 주제를 선정함을 볼 수 있다.

성능/효과

것으로 나타났다. 또한 '대상', '모양', '공간'둥의 도메 인은 계층을 구성하는 개념들이 자주 사용되지 않는 개념들이 많았으며, 일부 개념들은 U-WIN에 정의만 되어있고 계층구조를 이루지 않는 개념들이 존재하여 그림 7과 같이 도메 인에 따라서 정 확도의 차이 가 컸다.
또한, U-WIN에는, UWIN'을 최상위로 두고 41 개의 영역을 갖고 있는데, '물건, , '생물, 의 계층영역은 계층구조가 명확하고 정의된 개념들이 일반 문서에도 자주 사용되어 다른 도메인에 비해 주제선정의 정확도가 높은 것으로 나타났다. 또한 '대상', '모양', '공간'둥의 도메 인은 계층을 구성하는 개념들이 자주 사용되지 않는 개념들이 많았으며, 일부 개념들은 U-WIN에 정의만 되어있고 계층구조를 이루지 않는 개념들이 존재하여 그림 7과 같이 도메 인에 따라서 정 확도의 차이 가 컸다.
추출된 키워드들을 U-WIN에 매핑을 시킨 후, 본 연구에서 제안하는 문서분류 방법에 의해 웹 문서를 적절하게 분류한다. 본 연구에서 제안하는 문서분류 방법은 3가지 단계로구성되어 있으며, 실험을통하여 정확하고의 미 적 인 문서 분류가 가능함을 보였다.
또한 이들을 기 반으로 핵심 키워드가 되는 그룹을 추출하는 방법, 추출된 키워드들을 바탕으로 3가지 과정을 거 쳐 주제를 선정하는 방법을 제안하고 있다. 실험결과에서 정확도는 84.8%로 효율적 임을 증명하였으며, 국내 어휘 사전인 U-WIN을 이용하여 한국어 문서분류를 위한 시도라는 점에 의의가 있다.
표 10에 있는 개 념 들을 이용해 분류범주를 두고 본 연구에서 제안하는 방법을 실험한 결과 각 영역에 정확하게 분류한 정확도가 84.4%를 보였다. 이는 Sin岡 14] 의연구에서 제공되는 도메인 온톨로지를 기반으로 연구된 온톨로지 기반의 분류 방법[13]과 베이지언 분류법 (naive Bayesian classifier)[15]를 이용하여 비교해볼 때, [13]은 0.

후속연구

2% 를 구성하였다. 또한 실험결과 키워드 추출, 주제선정의 잣대가 되는U-WIN의 개념들 관계가 상/하위관계, 유의어 관계만 작성되어, 문서내의 부분/전처)(표 8에서 그룹 1과 4는 관계가 존재할 수 있음)가 되는 개념들 사이의 관계를 파악하지 못하여 본 논문의 핵심 키 워 드를 추출이 부족하다는 한계가 존재하였다.

참고문헌 (16)

Jinze Liu, Wei Wang, Jiong Yang, 'Research track posters: A framework for ontology-driven subspace clustering', Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining KDD '04, pp. 623-628, ISBN:1-58113-888-1, Aug. 2004
Illlhoi Yoo, Xiaohua Hu, 'A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE', International Conference on Digital Libraries archive Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries table of contents, pp. 220-229, ISBB:1-59593-354-9, 2006
Hwanjo Yu, ChengXiang Zhai, Jiawei Han, 'Text classification from positiveand unlabeled documents', Source Conference on Information and Knowledge Management archive Proceedings of the twelfth international conference on Information and knowledge management , ISBN:1-58113-723-0, pp.232-239, 2003
Thierson Couto, Marco Cristo, Marcos Andre Goncalves, Pavel Calado, Nivio Ziviani, Edleno Moura, Berthier Ribeiro-Neto, Belo Horizonte, 'A comparative study of citations and links in document classification', Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, ISBN: 1-59593-354-9, pp.75-84, 2006
Yifen Huang, Tom M. Mitchell,'Text clustering with extended user feedback', Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 413-420, ISBN: 1-59593- 369-7, 2006
Hyunjang Kong, Myunggwon Hwang, Gwangsu Hwang, Jaehong Shim, Pankoo Kim, 'Topic Selection of Web Documents Using Specific Domain Ontology', MICAI 2006: Advances in Artificial Intelligence, LNAI 4293, pp.1047-1056, 2006
Greiner, R., Grove, A, Schuurmans, D.: On learning hierarchical Classifications (1997)
Quek, C.Y, Mitchell, T: Classification of World Wide Web Documents. Seniors Honors Thesis, School of Computer Science, Carnegie Melon University (1998)
Koller, D., Sahami, M.: Hierarchically Classifying Documents Using Very Few Words. In the Proceeding of Machine Learning (ICML-97) (1997) 170-176
http://en.wikipedia.org/wiki/Tf-idf
김준수, 옥철영, '정제된 의미정보와 시소러스를 이용한 동형이의어 분별시스템', 정보처리학회논문 지 B 제 12-B권 제7호 pp.829-840 2005. 12

원문보기 상세보기
허준희, 최준혁, 이정현, 김중배, 임기옥, '문서의 주 제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템', 정보처리학회논문지 B 제 8-brnjs 제5호 pp.447-454 2001.10
쵀재혁, 서혜성, 노상욱, 최경희, 정기현, '온톨로지 기반의 웹 페이지 분류시스템',정보처리학회논문 지 B 제 11-Brnjs, 제 6호, pp723-734, 2004년 10월
M.P.Sinka and D.W.Corne, 'A large benchma가 dataset for web document clustering,' Soft Computing Systems:Design, Management and Applications, Frontiers in Artificial Intelligence and Applications, Vol.87, pp.881-890, 2002
R.Hanson, J.Stutz and P.Cheeseman, 'Bayesian Classification Theory', Techinical Report FIA-90-12-7-01, NASA Ames research Center, AI Branch, 1991
황명권, 배용근, 김판구, '문서 내용의 계층화률 이용한 문서 비교 방법', 한국해양정보통신학회논문 제 제 10권 12호, pp2335-2342, 2006년 12월

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증