$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

온톨로지를 이용한 단어 군집화 성능 개선
Performance Improvement of Word Clustering Using Ontology 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.13B no.3 = no.106, 2006년, pp.337 - 344  

박은진 (한국해양대학교 컴퓨터공학과) ,  김재훈 (한국해양대학교 컴퓨터공학과) ,  옥철영 (울산대학교 컴퓨터정보통신공학부)

초록
AI-Helper 아이콘AI-Helper

이 논문은 사전의 뜻 풀이말을 이용하여 단어 군집화 시스템을 설계하고 구현한다. 군집화를 위해서는 다양한 형태의 자질이 요구되며 어떤 자질을 사용하느냐에 따라 군집화의 성능이 좌우된다. 뜻 풀이말은 표제어를 자세히 설명하고 있기는 하지만, 뜻 풀이말에 사용된 단어가 너무 함축적이거나 추상적이어서 뜻 풀이말이 그다지 길지 않다. 뜻 풀이말로부터 추출된 자질을 그대로 군집화에 이용할 경우에는 다수의 작은 군집이 형성된다. 뜻 풀이말을 이용하여 보다 더 좋은 군집화 결과를 얻기 위해서는 뜻 풀이말의 의미를 크게 손상하지 않는 범위에서 보다 더 일반적인 단어로 바꾸어 군집화에 필요한 자질을 확장할 필요가 있다. 이 논문에서 추상적인 말을 온톨로지 상에서 한 단계 위의 단어로 확장하거나 온톨로지 상에서 고정 높이에 해당하는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다. 실험을 통해서 온톨로지를 이용해서 자질을 확장할 경우 단어 군집화 성능이 크게 개선되었으며, 전체적으로 보면 온톨로지 상에서 고정 높이에 해당하는 단어로 확장할 경우가 더 좋은 성능을 보였다. 또한 단어 군집화를 위한 자질로 동사가 매우 유용함을 관찰할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we describe the design and the implementation of word clustering system using a definition of an entry word in the dictionary, called a dictionary definition. Generally word clustering needs various features like words and the performance of a system for the word clustering depends on...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이러한 특징은 뜻풀이말을 이용한 단어 군집화 결과가 다수의 작은 군집으로 나타난다. 이 논문에서는 다수의 작은 군집을 양질의 큰 군집으로 만들기 위하여 사전의 뜻 풀이말로 사용된 단어(혹은 자질)를 온톨로지 상에서 한 단계 위의 단어로 확장하거나 최상위 개념에서 특정한 높이에 있는 단어로 확장함으로써 단어 군집화 성능을 향상시키는 방법을 제안한다.
  • 이 논문에서는 외부 평가 CRorzd Statistic, Jaaxird Coefficient, Folkes and Mallows Index, 와 상대 평가Indices, Davies-Bouldin Index)를 이용하여 입력 자질에 따른 단어 군집화 성능을 평가할 것이다.
  • 이 논문은 사전의 뜻 풀이말을 이용한 단어 군집화의 성능향상에 관련된다. 일반적으로 사전의 뜻 풀이말은 함축적이고 추상적인 말로 표제어를 설명한다.

가설 설정

  • 사전 뜻 풀이말의 중첩된 정도를 이용하여 단어의 모호성을 제거하는 연구가 있어 왔다[9, 13], 이 연구에서는 뜻 풀이말에 같은 말이 나타나면 서로 연관이 있는 단어로 가정한다. 그러나 이 연구에서는 사전 뜻 풀이말이 작아서 서로 겹치지 않는 것이 문제가 된다.
  • 사전의 뜻 풀이말에서 계층 정보를 추출하여 어휘 계층망을 구축하려는 연구가 있어 왔다[18]. 이 연구에서는 사전의 뜻풀이말의 마지막 풀이말이 계층 정보를 포함한다고 가정하고 이를 단어의 의미 계층 형성에 이용하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (31)

  1. 임영희, '후처리 웹 문서 클러스터링 알고리즘', 한국정보처리학회 논문지 B, Vol.9, No.1, pp.7-16, 2002 

  2. 윤보현, 김현기, 노대식, 강현규, '검색결과의 브라우징을 위한 계층적 클러스터링', 한국정보과학회 논문집, Vol.17, No.1, pp.342-344, 2002 

  3. 최준혁, 전성해, 이정현, '베이지안 SOM과 부트트랩을 이용한 문서 군집화에 의한 문서 순위조정', 한국정보처리학회 논문지, Vol.7, No.7, pp.2108-2115, 2000 

  4. 김건오, 고영중, 서정연, '어휘 클러스터링을 이용한 자동 문서요약', 한국정보과학회 논문집 B, Vol.29, No.1, pp.464-465, 2002 

  5. Franz, M., McCarley, J. S., Ward, T., and Zhu, W.-J., 'Unsupervised and supervised clustering for topic tracking', Proceedings of SIGIR Forum, Vol.24, pp.310-317, 2001 

  6. Shin, S. and Choi, K.-S., 'Automatic word sense clustering using collocation for sense adaptation', Proceedings of Global WordNet Conference, pp.320-325, 2004 

  7. 이상훈, 김기태, '클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장', 한국정보과학회 논문집, Vol.30, No.1, pp.479-481, 2003 

  8. Brown, P. F., Della Pietra, V. J., de Souza, P. V., Lai, J. C. and Mercer, R. L. 'Class-based n-gram models of natural language', Computational Linguistics, Vol.18, No.4, pp.467-479, 1992 

  9. Chen, J. N. and Chang, J. S., 'Topical clustering of MRD senses based on information retrieval techniques', Computational Linguistics, Vol.24, No.1, pp.61-96, 1998 

  10. The EAGLES Lexicon Interest Group, Preliminary Recommendations on Lexical Semantic Encoding, Final Report EAGLES LE3-4244, 1999 

  11. Federici, S., Montemagni, S., and Pirrelli, V. 'Inferring semantic similarity from distributional evidence : An Analogy-based approach to word sense disambiguation', Proceedings of the ACL/EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources for NLP Applications. pp.90-97, 1997 

  12. Smadja, F. 'Retrieving collocations from text : Xtract', Computational Linguistics, Vol.19, No.1, pp.143-177, 1993 

  13. Lesk, M. 'Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone', Proceedings of SIGDOC '86, pp.24-26, 1986 

  14. Banerjee, S. and Pedersen, T. 'An adapted Lesk algorithm for word sense disambiguation using WordNet', Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, Vol.2276, pp.136-145, 2002 

  15. 김준수, 옥철영, '정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템', 한국정보과학회 논문지 B, Vol.12, No.7, pp.829-840, 2005 

  16. 최호섭, 옥철영, '한국어 의미망 구축과 활용 : 명사를 중심으로', 한국어학회, Vol.17, pp.301-329, 2002 

  17. 옥철영, '우리말 개념망 명사 데이터 구축', ETRI 최종연구보고서, 1998 

  18. 조평옥, 안미정, 옥철영, 이수동, '사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조', 한국인지과학회 논문지, Vol.10, No.3, pp.1-10, 1999 

  19. 한국과학기술원 전문용어언어공학센터, CoreNet 다국어 어휘망 : 제2권 한국어 어휘 의미망, KAIST PRESS, 2005 

  20. 최석두, 조혜민, '다국어 시소러스의 설계', 한국정보관리학회 학술대회 논문집, Vol.8, pp.5-10, 2001 

  21. 황순희, 윤애선, '워드넷 기반 한국어 명사 어휘의미망의 정제', 한국인지과학회 춘계학술대회 발표논문집, pp.267-272, 2005 

  22. Fellbaum, C., WordNet : An Electronic Lexical Database, MIT Press, 1998 

  23. Halkidi, M. B., and Vazirgiannis, Y. M, 'Cluster validity methods : Part I', ACM SIGMOD Record, Vol.31, No.2, pp.40-25, 2002 

  24. 김정하, 이재윤, '문헌 클러스터링 결과의 성능 평가 방법에 관한 비교 연구', 한국정보관리학회 논문집, Vol.7, pp.45-50, 2000 

  25. Halkidi, M. B. and Vazirgiannis, Y. M, 'Cluster validity checking methods : Part II', ACM SIGMOD Record, Vol.31, No.3, pp.19-27, 2002 

  26. Salton, G. and McGill, M. J., Introduction to Modern Information Retrieval, McGraw Hill, 1983 

  27. Patrick, P. Clustering by Committee. Ph.D. Dissertation, Department of Computing Science, University of Alberta, 2003 

  28. 최재혁, 서혜성, 노상욱, 최경희, 정기현, '온톨로지 기반의 웹 페이지 분류 시스템', 한국정보처리학회 논문지 B, Vol.11, No.6, pp.723-734, 2004 

  29. 한승희, 이재윤, '문헌 클러스터링을 위한 유사계수간의 연관성 측정', 한국정보관리학회 논문집, Vol.6, pp.25-28, 1999 

  30. Jain, A. K. and Dubes, R. C., Algorithms for Clustering Data, Prentice-Hall, Inc., 1988 

  31. Johnson, S.C, 'Hierarchical clustering schemes', Psychometrika, Vol.2, pp.241-254, 1967 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로