$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구
An Experimental Study on the Performance Improvement of Automatic Classification for the Articles of Korean Journals Based on Controlled Keywords in International Database 원문보기

한국문헌정보학회지 = Journal of the Korean Society for Library and Information Science, v.48 no.3, 2014년, pp.491 - 510  

김판준 (신라대학교 문헌정보학과) ,  이재윤 (명지대학교 문헌정보학과)

초록
AI-Helper 아이콘AI-Helper

학술지 논문의 효율적인 관리 및 검색을 위한 주요 요소인 키워드는 통제키워드와 비통제키워드로 구분할 수 있다. 그러나 현재 국내 데이터베이스에서 대부분의 학술지 논문에는 비통제키워드인 저자키워드만이 부여되어 있을 뿐, 망라적인 탐색을 돕는 통제키워드로서 디스크립터는 제공되지 않고 있다. 이 연구에서는 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 학습한 분류기를 사용하여, 국내 학술지 논문에 디스크립터를 자동 할당하는 실험을 수행하였다. 그 결과, 국외 데이터베이스의 디스크립터 학습을 통해 영문 초록이 있는 국내 학술지 논문에 통제키워드를 자동 할당할 수 있는 가능성을 확인하였다. 또한, 다양한 분류기 및 분류기 결합을 통하여 이러한 디스크립터 자동 할당의 성능 향상을 모색하였다.

Abstract AI-Helper 아이콘AI-Helper

As a major factor for efficient management and retrieval of the articles in databases, keywords are classified into uncontrolled keywords and controlled keywords. Most of Korean scholarly databases fail to provide controlled vocabularies to indexing research articles which help users to retrieve rel...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이런 한계를 극복하기 위해서 본 연구에서는 해외 학술데이터베이스로부터 통제어휘색인정보를 학습하여 국내 학술논문에 통제언어 색인어로서 디스크립터를 부여하는 실험을 수행해 보았다. 또한, 다양한 분류기와 이들 분류기의 결합을 통하여 이러한 디스크립터 자동 할당의 성능을 향상하는 방안을 모색하였다.
  • 이러한 측면에서 본 연구는 ‘독서(reading)’ 분야를 대상으로 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 자동으로 학습하여, 영문 초록이 있는 국내 학술지 논문에 디스크립터를 자동 할당할 수 있는 가능성을 확인해 보고자 한다. 또한, 다양한 분류기와 이들 분류기의 결합을 통해 이러한 디스크립터 자동 할당의 성능을 향상시킬 수 있는 방안을 제시하고자 한다.
  • 이러한 측면에서 본 연구는 ‘독서(reading)’ 분야를 대상으로 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 자동으로 학습하여, 영문 초록이 있는 국내 학술지 논문에 디스크립터를 자동 할당할 수 있는 가능성을 확인해 보고자 한다.
  • 그러나 가장 기본이 되는 학술논문 데이터베이스는 양적인 성장에도 불구하고 통제어휘색인과 같은 핵심 요소를 아직까지 제공하지 못하고 있다. 이런 한계를 극복하기 위해서 본 연구에서는 해외 학술데이터베이스로부터 통제어휘색인정보를 학습하여 국내 학술논문에 통제언어 색인어로서 디스크립터를 부여하는 실험을 수행해 보았다. 또한, 다양한 분류기와 이들 분류기의 결합을 통하여 이러한 디스크립터 자동 할당의 성능을 향상하는 방안을 모색하였다.
  • 분류기 결합을 시도한 2차 실험에서는 1차 실험에서 좋은 성능을 보인 분류기를 중심으로 여러 분류기의 판정 결과를 결합하는 분류기 결합 실험을 수행해보았다. 이를 통해 단일 분류기를 사용한 경우에 비해 더 좋은 성능과 더 안정적인 성능을 얻을 수 있는지 여부를 살펴보았다.
  • 따라서 본 연구는 학술지 논문을 대상으로 하나의 언어(영어)로 작성된 문헌에 부여된 통제 키워드(범주명)를 학습하여 다른 언어(한국어)로 작성된 문헌에 디스크립터를 자동 할당하는 실험을 수행하였다. 특히, 이러한 실험은 색인 전문가 및 통제어휘표의 부재로 인해 통제키워드는 없지만 대부분의 학술지 논문에 대한 영어 제목과 초록 필드가 제공되고 있는 국내 데이터 베이스의 현실을 반영하여, 투자 대비 효율이 떨어지는 번역 과정을 필요로 하지 않는 기계학습 접근법에 기초하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
교차-언어 텍스트 범주화의 문제점은 무엇인가? 그러나 교차-언어 텍스트 범주화의 문제점은 기계번역, 사전-기반, 말뭉치-기반 등의 방법에 기초하여 미분류된 문헌을 번역하는 과정에서 요구되는 시간과 비용에 비하여, 언어와 문화의 차이로 인한 오류와 정보 손실(information loss)이 상당히 크다는 것이다(Guo and Xiao 2012; Wei, Lin and Yang 2011). 지금까지 다양한 측면에서 이러한 문제를 해소하기 위한 방안을 제시하는 많은 연구들이 보고되고 있지만 여전히 서로 다른 언어를 번역하는데 막대한 시간과 비용을 필요로 한다는 문제점을 내재하고 있다.
통제키워드의 장점은 무엇인가? 특히, 학술 데이터베이스의 탐색과 활용 측면에서 통제 키워드의 필요성과 유용성은 의심의 여지가 없는 사실이다. 통제키워드는 특정한 개념에 대한 다양한 표현들을 대표 용어로 일관성 있게 표현하므로 특정 주제에 관한 정보자료를 망라적으로 검색할 수 있다는 고유의 장점을 갖는다.
해외 학술 데이터베이스의 경우 학술지 논문의 색인작업의 두 가지 경로는 무엇인가? 해외 학술 데이터베이스의 경우 학술지 논문의 색인작업은 크게 두 가지 경로로 이루어진다. 첫째, 컴퓨터가 입력문헌의 텍스트를 분석하여 문헌의 내용을 대표하는 키워드(자연언어색인어)를 일정한 기준에 의해 기계적으로 추출한다. 둘째, 색인전문가는 해당 문헌의 내용을 분석하여 다루고 있는 주제를 판단한 다음, 통제어휘집에서 이를 표현할 수 있는 적절한 디스크립터(통제언어 색인어)를 부여한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (29)

  1. 김용환, 정영미. 2012. 위키피디아를 이용한 분류자질 선정에 관한 연구. 정보관리학회지, 29(2): 155-171. (Kim, Yong-Hwan and Chung, Young-Mee. 2012. "An Experimental Study on Feature Selection Using Wikipedia for Text Categorization." Journal of the Korean Society for Information Management, 29(2): 155-171.) 

  2. 김판준. 2006a. 기계학습을 통한 디스크립터 자동부여에 관한 연구. 정보관리학회지, 23(1): 279-299. (Kim, Pan Jun. 2006a. "A Study on Automatic Assignment of Descriptors Using Machine Learning." Journal of the Korean Society for Information Management, 23(1): 279-299.) 

  3. 김판준. 2006b. 로치오 알고리즘을 이용한 학술지 논문의 디스크립터 자동부여에 관한 연구. 정보관리학회지, 23(3): 69-90. (Kim, Pan Jun. 2006b. "A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm." Journal of the Korean Society for Information Management, 23(3): 69-90.) 

  4. 김판준. 2008. 용어 가중치부여 방법을 이용한 로치오 분류기의 성능 향상에 관한 연구. 정보관리학회지, 25(1), 211-233. (Kim, Pan Jun. 2008. "A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods." Journal of the Korean Society for Information Management, 25(1): 211-233.) 

  5. 김판준, 이재윤. 2007. 문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구. 정보관리학회지, 24(1): 251-271. (Kim, Pan Jun and Lee, Jae Yun. 2007. "Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities." Journal of the Korean Society for Information Management, 24(1): 251-271.) 

  6. 김판준, 이재윤. 2012. 디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구. 정보관리학회지, 29(2): 225-246. (Kim, Pan Jun and Lee, Jae Yun. 2012. "A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors." Journal of the Korean Society for Information Management, 29(2): 225-246.) 

  7. 박상근. 2013. 인문학 분야의 인용 데이터정보원 비교 분석: 네이버 전문정보, KCI. 정보관리학회지, 30(1): 33-50. (Park, Sang-Keun. 2013. "A Comparative Analysis of the Humanities Citation Tools: NAVER Scholar and KCI." Journal of the Korean Society for Information Management, 30(1): 33-50.) 

  8. 송성전, 정영미. 2012. 용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구. 정보관리학회지, 29(2): 205-224. (Song, Sung-Jeon and Chung, Young-Mee. 2012. "A Study on Improving the Performance of Document Classification Using the Context of Terms." Journal of the Korean Society for Information Management, 29(2): 205-224.) 

  9. 신영란, 정연경. 2012. 국내 인문사회 연구데이터 아카이브의 개선방안에 관한 연구. 한국기록관리학회지, 12(3): 93-115. (Shin, Young-Ran and Chung, Yeon-Kyoung. 2012. "A Study on the Improvement Plans of the Humanities and Social Sciences Research Data Archives in Korea." Journal of Records Management & Archives Society of Korea, 12(3): 93-115.) 

  10. 유호현, 정영미. 2008. 분류기 조합을 통한 신경망 분류기의 성능 향상 실험. 제15회 한국정보관리학회 학술대회 논문집, 207-214. (Ryu, Hohyun and Chung, Young-Mee. 2008. "Combining Classifiers to Improved the Performance of a Neural Network Classifier." In Proceedings of the 15th Conference of the Korean Society for Information Management, 207-214.) 

  11. 이용구. 2009. 기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석. 한국문헌정보학회지, 43(1): 313-332. (Lee, Yong-Gu. 2009. "Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation." Journal of the Korean Society for Library and Information Science, 43(1): 313-332.) 

  12. 이재윤. 2005. 자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구. 한국문헌정보학회지, 39(2): 123-146. (Lee, Jae Yun. 2005. "Empirical Study on Improving the Performance of Text Categorization Considering the Relationships between Feature Selection Criteria and Weighting Methods." Journal of the Korean Library and Information Science Society, 39(2): 123-146.) 

  13. 정영미. 2012. 정보검색연구. 증보판. 서울: 연세대학교 출판문화원. (Chung, Young-Mee. 2012. Information Retrieval Research. 2nd ed. Seoul: Yonsei University Publishing.) 

  14. 정은경. 2009. 문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구. 정보관리학회지,26(3): 261-278. (Chung, Eun-Kyung. 2009. "A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet." Journal of the Korean Society for Information Management, 26(3): 261-278.) 

  15. Amini, B. M. and Goutte, C. 2010. "A Co-classification Approach to Learning from Multilingual Corpora." Machine Learning, 79: 105-121. 

  16. Bel, N., Koster, C. H. A. and Villegas, M. (2003). "Cross-lingual Text Categorization." In Proceedings of the 7th European Conference on Research and Advanced Technology for Digital Libraries, 126-139. 

  17. Chan, L. M. 2000. "Exploiting LCSH, LCC and DDC to Retrieve Networked Resources: Issues and Challenges." In Proceedings of the Bicentennial Conference on Bibliographic Control for the New Millennium, sponsored by the Library of Congress Cataloging Directorate. Retrived from http://www.loc.gov/catdir/bibcontrol/chan_paper.html 

  18. Gross, T. and Taylor, A. G. 2005. "What Have We Got to Lose? The Effect of Controlled Vocabulary on Keyword Searching Results." College and Research Libraries, 66(3): 212-230. 

  19. Kipp, M. E. I. 2005. "Complementary or Discrete Contexts in Online Indexing: A Comparison of User, Creator, and Intermediary Keywords." Canadian Journal of Information and Library Science, 29(4): 419-436. 

  20. McCutcheon, S. 2009. "Keyword vs Controlled Vocabulary Searching: The One with the Most Tools Wins." Indexer, 27(2): 62-65. 

  21. Olsson, J. S., Oard, D. W. and Hajic, J. 2005. Cross-language Text Classification. In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 645-646. 

  22. Rigutini, L., Maggini, M. and Liu, B. 2005. "An EM Based Training Algorithm for Cross-language Text Categorization." In Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence, 529-535. 

  23. Rowley, J. 1994. "The Controlled versus Natural Indexing Languages Debate Revisited: A Perspective on Information Retrieval Practice and Research." Journal of Information Science, 20(2): 108-119. 

  24. Tillotson, J. 1995. "Is Keyword Searching the Answer?" College & Research Libraries, 56: 199-206. 

  25. Voorbij, H. J. 1998. "Title Keywords and Subject Descriptors: A Comparison of Subject Search Entries of Books in the Humanities and Social Sciences." Journal of Documentation, 54(4): 466-476. 

  26. Wei, Chih-Ping et al. 2014. "Exploiting Poly-Lingual Documents for Improving Text Categorization Effectiveness." Decision Support Systems, 57: 64-76. 

  27. Wei, Chih-Ping, Lin, Yen-Ting and Yang, C. C. 2011. "Cross-lingual Text Categorization: Conquering Language Boundaries in Globalized Environments." Information Processing and Management, 47: 786-804. 

  28. Wu, Y. and Oard, D. W. 2008. "Bilingual Topic Aspect Classification with a Few Training Examples." In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 203-210. 

  29. Witten, I. H., Frank, E. and Hall, M. A. 2011. Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Burlington, MA: Morgan Kaufmann. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로