$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한의학 고문헌 텍스트에서의 저자 판별 - 기능어의 역할을 중심으로 -
A Comparative Study of Feature Extraction Methods for Authorship Attribution in the Text of Traditional East Asian Medicine with a Focus on Function Words 원문보기

大韓韓醫學原典學會誌 = The journal of Korean medical classics, v.33 no.2, 2020년, pp.51 - 59  

오준호 (한국한의학연구원)

Abstract AI-Helper 아이콘AI-Helper

Objectives : We would like to study what is the most appropriate "feature" to effectively perform authorship attribution of the text of Traditional East Asian Medicine Methods : The authorship attribution performance of the Support Vector Machine (SVM) was compared by cross validation, depending on ...

주제어

표/그림 (2)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 실험을 통해 저자 판별에 가장 효과적인 방법을 검토해 보고자 한다. 실험에 사용할 텍스트를 선택한 뒤 저자 판별에 비교적 널리 사용되는 SVM을 분류 방법으로 고정하고13), 내용어와 기능어, 단어와 연어가 분류 결과에 어떤 영향을 미치는지 검토해 보았다.
  • 본 연구에서는 저자 판별에 영향을 미칠 것으로 추정되는 특성(feature)의 3가지 요소를 검토하였다. 첫째로 기능어와 내용어, 둘째로 단어와 연어 셋째로 TF방식과 TFIDF방식이 그것이다.
  • 본 연구의 목적은 한의학 고문헌 텍스트를 대상으로 한 저자 판별 문제를 계량적으로 수행하기 위해 가장 적합한 ‘특성(feature)’이 무엇인지 검토해 보는 것이다.
  • 서로 상이한 주제를 다루고 있을 경우, 문서에 나타나는 특성(feature)이 저자가 달라 생겨난 것인지 주제가 달라 야기된 것 인지 구분하기 어려울 수 있다. 이러한 변수를 줄이기 위해 가급적 동일한 주제에 대해 쓴 글을 찾고자 했다.
  • 이를 위해서는 먼저 한의학 텍스트를 대상으로 한 계량적 저자 판별 방법이 수행 가능한 것인지, 가능하다면 적합한 방법이 무엇인지 검토하는 과정이 필요하다. 이에 본고에서는 이러한 방법에 대해 검토하고자 한다.
  • 계량적인 방법으로 저자 판별을 수행할 때 핵심적인 문제는 ‘텍스트의 문체를 어떤 특성(feature)으로 나타낼 것인가’와 ‘텍스트 사이의 관계를 어떤 분류 방법(classification methods)으로 구분할 것인가’를 결정하는 일이다. 효과적인 저자 판별 방법을 모색한 선행연구 2가지를 살펴보자. 터키 신문을 대상으로 한 저자 판별 연구에서는 ‘기능어를 제외한 단어’를 특성(feature)으로 하고 ‘서포트 벡터 머신(SVM;Support Vector Machine)’을 분류 방법으로 한 경우, 그리고 ‘기능어(FW;Function Word)’를 특성(feature)으로 하고 ‘베이지안 분류기(Bayesian Classifier)’와 같은 가우시안 모델을 사용한 경우에 가장 좋은 성능을 보였다.

가설 설정

  • 저자 판별을 시험하기 위해 여러 저자의 글이 포함되어 있어야하기 때문이다. 둘째, 코퍼스에 속한 문서들은 유사하거나 동일한 주제에 대해 다루고 있을 것. 서로 상이한 주제를 다루고 있을 경우, 문서에 나타나는 특성(feature)이 저자가 달라 생겨난 것인지 주제가 달라 야기된 것 인지 구분하기 어려울 수 있다.
  • 실험에서 사용할 코퍼스(Corpus)를 선택하기 위해 다음 2가지 기준을 고려하였다. 첫째, 코퍼스를 이루는 문서들(Documents)이 서로 다른 몇 명의 저자에 의해 작성되어 있을 것. 저자 판별을 시험하기 위해 여러 저자의 글이 포함되어 있어야하기 때문이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (18)

  1. 김원중. 한문 해석 사전. 서울. 글항아리. 2013. 

  2. 최지명. 기계학습 알고리즘을 이용한 한국어 텍스트 저자 판별. 서울. 석사학위논문(연세대). 2015. 

  3. 강남준, 이종영, 최운호. 독립신문 논설의 형태 주석 말뭉치를 활용한 논설 저자 판별 연구 - 어미 사용빈도 분석을 중심으로. 한국사전학. 2010. 15. 

  4. 박경모, 최승훈. 강평 (康平) 상한론 (傷寒論)의 고증을 통한 상한론(傷寒論) 과 황제 내경(黃帝內經) 의 비교연구. 대한한의학원전학회지. 1995. 9. 

  5. 양승률. 주촌 신만의 보유신편(保幼新編)편찬과 주촌신방(舟村新方). 장서각. 2011. 25. 

  6. 오준호. 한의학 고문헌 데이터 분석을 위한 단어 임베딩 기법 비교 : 자연어처리 방법을 적용하여. 대한한의학원전학회지. 2019. 32(1). 

  7. 이가은, 안상우. 소아의방(小兒醫方)의 판본비교(板本比較) 및 편제(篇第) 고찰(考察). 한국의사학회지. 2004. 17(1). 

  8. Bing-Cho Chan. The authorship of the Dream of the red chamber based on a computerized statistical study of its vocabulary. Hong Kong. Joint Publishing Co Ltd. 1986. 

  9. Hsieh-Chang Tu, Jieh Hsiang. A Text-Mining Approach to the Authorship Attribution Problem of Dream of the Red Chamber. Digital Humanities. 2013. 

  10. Hu, Xianfeng, Yang Wang and Qiang Wu. Multiple authors Detection: a Quantitative Analysis of Dream of the Red Chamber. Advances in Adaptive Data Analysis. 2014. 6. 

  11. Ilker Nadi Bozkurt, Ozgur Baglioglu, Erkan Uyar. Authorship attribution: performance of various features and classification methods. 22nd International Symposium on Computer and Information Sciences, ISCIS 2007. IEEE. 2007. 

  12. Matthew L. Jockers, Daniela M. Witten. A comparative study of machine learning methods for authorship attribution. Literary and Linguistic Computing. 2010. 25(2). 

  13. Mike Kestemont. Function Words in Authorship Attribution From Black Magic to Theory?(Proceedings of the 3rd Workshop on Computational Linguistics for Literature) Association for Computational Linguistics. 2014. 

  14. Patrick Juola. Authorship Attribution. Foundations and Trends in Information Retrieval. 2006. 1(3). 

  15. Qing-Xiang Yu. Applications of Statistical methods to Dream of the Red Chamber. Journal of National Cheng-Chi University. 1998. 76. 

  16. Shlomo Argamon, Shlomo Levitan. Measuring the Usefulness of Function Words for Authorship Attribution. ACH/ALLC 2005 Conference Abstracts book. 2005. 

  17. Smita Nirkhi, R.V.Dharaskar, V.M.Thakare. Authorship Identification using Generalized Features and Analysis of Computational Method. Transactions on Machine Learning and Artificial Intelligence. 2015. 3(2). 

  18. MEDICLASSICS [homepage on the Internet]. Korea Institute of Oriental Medicine; 2015 [cited 30 Jan 2020]. Available from: https://mediclassics.kr/books/149 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로