[논문]한의학 고문헌 텍스트에서의 저자 판별 - 기능어의 역할을 중심으로 -

오준호

doi:10.14369/jkmc.2020.33.2.051

한의학 고문헌 텍스트에서의 저자 판별 - 기능어의 역할을 중심으로 -
A Comparative Study of Feature Extraction Methods for Authorship Attribution in the Text of Traditional East Asian Medicine with a Focus on Function Words 원문보기

大韓韓醫學原典學會誌 = The journal of Korean medical classics, v.33 no.2, 2020년, pp.51 - 59

Abstract ▼ AI-Helper

Objectives : We would like to study what is the most appropriate "feature" to effectively perform authorship attribution of the text of Traditional East Asian Medicine Methods : The authorship attribution performance of the Support Vector Machine (SVM) was compared by cross validation, depending on whether the function words or content words, single word or collocations, and IDF weights were applied or not, using 'Variorum of the Nanjing' as an experimental Corpus. Results : When using the combination of 'function words/uni-bigram/TF', the performance was best with accuracy of 0.732, and the combination of 'content words/unigram/TFIDF' showed the lowest accuracy of 0.351. Conclusions : This shows the following facts from the authorship attribution of the text of East Asian traditional medicine. First, function words play an important role in comparison to content words. Second, collocations was relatively important in content words, but single words have more important meanings in function words. Third, unlike general text analysis, IDF weighting resulted in worse performance.

주제어

표/그림 (2)

표 Table 1. The 10 Most Frequent Features for Documents Belonging to Corpus. ( UG: unigram, BG: bigram, AF: all features, FF: function features, CF: content features. value: feature count )
그림 Fig 1. The Average Accuracy of 5-fold Cross-validation for Each Case.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 실험을 통해 저자 판별에 가장 효과적인 방법을 검토해 보고자 한다. 실험에 사용할 텍스트를 선택한 뒤 저자 판별에 비교적 널리 사용되는 SVM을 분류 방법으로 고정하고¹³⁾, 내용어와 기능어, 단어와 연어가 분류 결과에 어떤 영향을 미치는지 검토해 보았다.
본 연구에서는 저자 판별에 영향을 미칠 것으로 추정되는 특성(feature)의 3가지 요소를 검토하였다. 첫째로 기능어와 내용어, 둘째로 단어와 연어 셋째로 TF방식과 TFIDF방식이 그것이다.
본 연구의 목적은 한의학 고문헌 텍스트를 대상으로 한 저자 판별 문제를 계량적으로 수행하기 위해 가장 적합한 ‘특성(feature)’이 무엇인지 검토해 보는 것이다.
서로 상이한 주제를 다루고 있을 경우, 문서에 나타나는 특성(feature)이 저자가 달라 생겨난 것인지 주제가 달라 야기된 것 인지 구분하기 어려울 수 있다. 이러한 변수를 줄이기 위해 가급적 동일한 주제에 대해 쓴 글을 찾고자 했다.
이를 위해서는 먼저 한의학 텍스트를 대상으로 한 계량적 저자 판별 방법이 수행 가능한 것인지, 가능하다면 적합한 방법이 무엇인지 검토하는 과정이 필요하다. 이에 본고에서는 이러한 방법에 대해 검토하고자 한다.
계량적인 방법으로 저자 판별을 수행할 때 핵심적인 문제는 ‘텍스트의 문체를 어떤 특성(feature)으로 나타낼 것인가’와 ‘텍스트 사이의 관계를 어떤 분류 방법(classification methods)으로 구분할 것인가’를 결정하는 일이다. 효과적인 저자 판별 방법을 모색한 선행연구 2가지를 살펴보자. 터키 신문을 대상으로 한 저자 판별 연구에서는 ‘기능어를 제외한 단어’를 특성(feature)으로 하고 ‘서포트 벡터 머신(SVM；Support Vector Machine)’을 분류 방법으로 한 경우, 그리고 ‘기능어(FW；Function Word)’를 특성(feature)으로 하고 ‘베이지안 분류기(Bayesian Classifier)’와 같은 가우시안 모델을 사용한 경우에 가장 좋은 성능을 보였다.

가설 설정

저자 판별을 시험하기 위해 여러 저자의 글이 포함되어 있어야하기 때문이다. 둘째, 코퍼스에 속한 문서들은 유사하거나 동일한 주제에 대해 다루고 있을 것. 서로 상이한 주제를 다루고 있을 경우, 문서에 나타나는 특성(feature)이 저자가 달라 생겨난 것인지 주제가 달라 야기된 것 인지 구분하기 어려울 수 있다.
실험에서 사용할 코퍼스(Corpus)를 선택하기 위해 다음 2가지 기준을 고려하였다. 첫째, 코퍼스를 이루는 문서들(Documents)이 서로 다른 몇 명의 저자에 의해 작성되어 있을 것. 저자 판별을 시험하기 위해 여러 저자의 글이 포함되어 있어야하기 때문이다.

제안 방법

18) 본 연구에서는 텍스트 분석에서 기본적으로 사용되는 카운트 기반 방법 가운데 1차 벡터(1st order vector)로 문서를 표시하는 방법을 사용하였다.
다음으로 단어와 연어를 차이를 살펴보기 위해 유니그램(unigram)만 사용한 경우(B①), 바이그램(bigram)만 사용한 경우(B②), 양자를 모두 합친 경우(uni-bigram)(B③)를 살펴보자. 이 차이는 다른 변수에 영향을 받았다.
둘째, 단어와 연어를 차이를 살펴보기 위해 특성(feature) 추출에서 유니그램(unigram)을 사용한 경우(B①), 바이그램(bigram)을 사용한 경우(B②), 양자를 모두 합친 경우(B③) 이렇게 3가지로 나누어 분석하였다. 유니그램은 보통 단어 하나, 바이그램은 인접한 2가지 단어를 의미한다.
먼저 기능어와 내용어가 저자의 문체 특징을 어떻게 드러내지 확인하기 위해 모든 용어를 사용한 경우(A①), 기능어만 사용한 경우(A②), 내용어만 사용한 경우(A③)를 비교해 보자. 전반적으로 기능어만 사용한 경우에 높은 정확도를 보였고 내용어를 사용한 경우에 낮은 정확도를 보였다.
분석에 앞서 각 텍스트를 원문(이하 약어 사용, 'O'), 여광의 주석('L'), 양현조 혹은 양강 후의 주석('Y')15), 정덕용의 주석('Z'), 우서의 주석('W')으로 나누었다.
셋째, TF방식과 TFIDF방식의 차이를 살펴보았다. TF는 단순 용어 빈도(TF；Term Frequency)를 의미한다(C①).
본 연구에서는 실험을 통해 저자 판별에 가장 효과적인 방법을 검토해 보고자 한다. 실험에 사용할 텍스트를 선택한 뒤 저자 판별에 비교적 널리 사용되는 SVM을 분류 방법으로 고정하고¹³⁾, 내용어와 기능어, 단어와 연어가 분류 결과에 어떤 영향을 미치는지 검토해 보았다. 아울러 텍스트를 수학적으로 공간에 표시할 때, 단순빈도(TF；Term Frequency)를 사용하는 경우와 여기에 역문서빈도(IDF；Inverse Document Frequency)를 가중치로 적용한 TFIDF(Term Frequency - Inverse Document Frequency)를 사용한 경우의 차이도 함께 살펴보았다.
실험에 사용할 텍스트를 선택한 뒤 저자 판별에 비교적 널리 사용되는 SVM을 분류 방법으로 고정하고¹³⁾, 내용어와 기능어, 단어와 연어가 분류 결과에 어떤 영향을 미치는지 검토해 보았다. 아울러 텍스트를 수학적으로 공간에 표시할 때, 단순빈도(TF；Term Frequency)를 사용하는 경우와 여기에 역문서빈도(IDF；Inverse Document Frequency)를 가중치로 적용한 TFIDF(Term Frequency - Inverse Document Frequency)를 사용한 경우의 차이도 함께 살펴보았다.
본 연구의 목적은 한의학 고문헌 텍스트를 대상으로 한 저자 판별 문제를 계량적으로 수행하기 위해 가장 적합한 ‘특성(feature)’이 무엇인지 검토해 보는 것이다. 이를 위해 「난경집주(難經集註)「를 실험 코퍼스(Corpus)로 하고 「난경(難經)」 원문 및 주석을 5종의 서로 다른 저자의 문서(Documents)로 보고 실험을 수행하였다. 선행 연구를 바탕으로, 저자 판별 모델은 가장 보편적으로 사용되는 서포트 벡터 머신(SVM；Support Vector Machine)을 사용 하였다.
선행 연구를 바탕으로, 저자 판별 모델은 가장 보편적으로 사용되는 서포트 벡터 머신(SVM；Support Vector Machine)을 사용 하였다. 저자 판별에 가장 적합한 문서의 특성(feature)을 알아내기 위해, 기능어와 내용어의 차이(A)［모든 용어를 사용한 경우(A①), 기능어(function word)만 사용한 경우(A②), 내용어(content word)만 사용한 경우(A③)］, 단어와 연어의 차이(B)［유니그램(unigram)을 사용한 경우(B①), 바이그램(bigram)을 사용한 경우(B②), 양자를 모두 합친 경우(B③)］, IDF 가중치 적용 여부(C)［TF를 사용한 경우(C①), TFIDF를 사용한 경우(C②)］로 나누어 살펴보았다.
첫째, 기능어와 내용어가 저자의 문체 특징을 얼마나 잘 드러내는지 확인하기 위해 특성(feature) 추출에서 전체 어휘를 대상으로 한 경우(A①), 기능어(function words)를 대상으로 한 경우(A②), 그리고 기능어를 제외한 내용어(content words)만을 대상으로 한 경우(A③) 이렇게 3가지로 나누어 분석을 진행하였다. 기능어는 문법이나 어감을 나타내기 위해 사용되는 용어로서 한자 텍스트에서는 주로 허사(虛辭)를 의미한다.
전체 코퍼스에 속한 문서를 4:1의 비율로 학습 데이터(training data)와 테스트 데이터(test data)로 나누고 학습과 테스트를 5회 반복하는 방법이다. 학습 데이터로 모델을 학습 시키고 이를 테스트 데이터에 적용해 각 회차별로 정확도(accuracy)²¹⁾를 측정한다. 이렇게 되면 5회에 걸쳐 5개의 정확도가 도출되는데, 이를 평균 내어 최종 결과로 삼는다.

대상 데이터

「난경집주」의 전자 텍스트는, 한국한의학연구원에서 상해(上海) 함분루(涵芬樓)에서 영인한 일존총서본(佚存叢書本)을 저본으로 하여 한의학고전DB(mediclassics.k)를 통해 공개하고 있는 데이터¹⁶⁾를 사용하였다.
유니그램 기능어로는 ‘也’, ‘之’, ‘者’, ‘其’, ‘不’, ‘而’, 바이그램 기능어로는 ‘何以’, ‘假令’, ‘奈何’, ‘者也’, ‘所以’ 등이 그 예이다. 본 연구에서는 한문 해석 관련 전문서¹⁹⁾에서 다루고 있는 928종의 허사를 기능어로 보았다.
연구에 사용된 실험용 코퍼스는 모두 299개의 문서로 이루어졌다. 「난경집주」에서 20글자 미만으로 구성된 문서를 제외한 결과이다.
이렇게 원문을 포함하여 저자 레이블(label)이 붙은 81장 × 5종의 ‘문서’로 이루어진 분석 대상 코퍼스를 준비하였다.

이론/모형

차원 축소의 결과는 문서에 잠재된 특성을 드러내는 데도 의미가 있다. 본고에서는 잠재의미분석(LSA；Latent Semantic Analysis) 방법을 이용하여 64차원으로 축소하였다.
선행 연구를 바탕으로, 저자 판별 모델은 가장 보편적으로 사용되는 서포트 벡터 머신(SVM；Support Vector Machine)을 사용 하였다.
성능 검토를 위해서 5-fold 교차검증(cross validation) 방식을 사용하였다. 전체 코퍼스에 속한 문서를 4:1의 비율로 학습 데이터(training data)와 테스트 데이터(test data)로 나누고 학습과 테스트를 5회 반복하는 방법이다.

성능/효과

모든 용어를 사용한 경우에는 각각의 성능 차이가 크지 않았다. 그러나 기능어의 경우에는 바이그램을 사용한 경우 성능이 낮았고, 반대로 내용어의 경우 바이그램을 사용한 경우 성능이 높게 나타났다. 저자 판별에서는 기능어가 중요한 역할을 하지만, 내용어로 한정한다면 내용어의 바이그램이 상대적으로 저자의 문체 특성(feature)을 드러낸다고 할 수 있다.
첫째, 기능어가 내용어에 비해 중요한 역할을 한다. 둘째, 내용어에서는 상대적으로 연어가 중요했지만, 기능어에서는 단어가 더 중요한 의미를 가진다. 셋째, 일반적인 텍스트 분석에서와 달리 IDF 가중치 적용이 더 좋지 않은 결과를 가져왔다.
마지막으로 IDF 가중치 적용의 문제(C①, C②)이다. 모든 경우에서 IDF 가중치를 적용하지 않았을때 더 우수한 성능을 보였다. 따라서 저자 판별에서 IDF 가중치는 큰 의미가 없으며 때에 따라 오히려 기능을 저해할 수 있다.
둘째, 내용어에서는 상대적으로 연어가 중요했지만, 기능어에서는 단어가 더 중요한 의미를 가진다. 셋째, 일반적인 텍스트 분석에서와 달리 IDF 가중치 적용이 더 좋지 않은 결과를 가져왔다.
실험 결과 ‘기능어(A②)/유니-바이그램(B③)/TF(C①)’를 사용한 경우에 가장 높은 정확도(0.732)를 보였고, ‘기능어(A②)/유니그램(B①)/TF(C①)’ 조합에서 그 다음으로 높은 정확도(0.729)를 보였다.
먼저 기능어와 내용어가 저자의 문체 특징을 어떻게 드러내지 확인하기 위해 모든 용어를 사용한 경우(A①), 기능어만 사용한 경우(A②), 내용어만 사용한 경우(A③)를 비교해 보자. 전반적으로 기능어만 사용한 경우에 높은 정확도를 보였고 내용어를 사용한 경우에 낮은 정확도를 보였다. 이를 통해 저자 판별에서 기능어가 중요하다는 점을 확인할 수 있었다.
이를 통해 한의학 고문헌 저자 판별에서 다음과 같은 사실을 알 수 있었다. 첫째, 기능어가 내용어에 비해 중요한 역할을 한다. 둘째, 내용어에서는 상대적으로 연어가 중요했지만, 기능어에서는 단어가 더 중요한 의미를 가진다.
코퍼스 전체에서 1회 이상 나타난 유니그램은 1,480종, 바이그램은 20,075종이었고, 이 가운데 기능어는 유니그램 268종, 바이그램 77종이었다. 저자에 따라 사용된 유니그램, 바이그램, 기능어 가운데 빈도가 높은 10가지 특성(feature)을 살펴보면 [Table 1]과 같다.

후속연구

이 경우, 유니-바이그램을 혼합하여 사용하였을 때 가장 좋은 성능을 보였으나, 유니그램만 사용한 경우와의 성능 차이가 크지 않으므로 연산의 복잡도를 고려한다면 ‘기능어/유니그램 /TF’ 조합도 합리적인 선택이 될 수 있다. 다만 최고 성능이 0.732로 높지 않기 때문에 문서에 대한 임베딩 방식과 분류 방식을 달리하여 검토해야 하며, 다른 종류의 한의학 고문헌에도 동일한 결과가 나타나는지에 대해서도 후속 연구가 필요하다.
마지막으로 본 연구 결과를 일반화할 수는 없으며, 최고 성능이 만족할 만큼 높지 않으므로 이에 대한 후속 연구가 진행되어야 할 것이다.

참고문헌 (18)

김원중. 한문 해석 사전. 서울. 글항아리. 2013.
최지명. 기계학습 알고리즘을 이용한 한국어 텍스트 저자 판별. 서울. 석사학위논문(연세대). 2015.
강남준, 이종영, 최운호. 독립신문 논설의 형태 주석 말뭉치를 활용한 논설 저자 판별 연구 - 어미 사용빈도 분석을 중심으로. 한국사전학. 2010. 15.
박경모, 최승훈. 강평 (康平) 상한론 (傷寒論)의 고증을 통한 상한론(傷寒論) 과 황제 내경(黃帝內經) 의 비교연구. 대한한의학원전학회지. 1995. 9.
양승률. 주촌 신만의 보유신편(保幼新編)편찬과 주촌신방(舟村新方). 장서각. 2011. 25.
오준호. 한의학 고문헌 데이터 분석을 위한 단어 임베딩 기법 비교 : 자연어처리 방법을 적용하여. 대한한의학원전학회지. 2019. 32(1).

원문보기 상세보기
이가은, 안상우. 소아의방(小兒醫方)의 판본비교(板本比較) 및 편제(篇第) 고찰(考察). 한국의사학회지. 2004. 17(1).

원문보기 상세보기
Bing-Cho Chan. The authorship of the Dream of the red chamber based on a computerized statistical study of its vocabulary. Hong Kong. Joint Publishing Co Ltd. 1986.
Hsieh-Chang Tu, Jieh Hsiang. A Text-Mining Approach to the Authorship Attribution Problem of Dream of the Red Chamber. Digital Humanities. 2013.
Hu, Xianfeng, Yang Wang and Qiang Wu. Multiple authors Detection: a Quantitative Analysis of Dream of the Red Chamber. Advances in Adaptive Data Analysis. 2014. 6.
Ilker Nadi Bozkurt, Ozgur Baglioglu, Erkan Uyar. Authorship attribution: performance of various features and classification methods. 22nd International Symposium on Computer and Information Sciences, ISCIS 2007. IEEE. 2007.
Matthew L. Jockers, Daniela M. Witten. A comparative study of machine learning methods for authorship attribution. Literary and Linguistic Computing. 2010. 25(2).

상세보기
Mike Kestemont. Function Words in Authorship Attribution From Black Magic to Theory?(Proceedings of the 3rd Workshop on Computational Linguistics for Literature) Association for Computational Linguistics. 2014.
Patrick Juola. Authorship Attribution. Foundations and Trends in Information Retrieval. 2006. 1(3).
Qing-Xiang Yu. Applications of Statistical methods to Dream of the Red Chamber. Journal of National Cheng-Chi University. 1998. 76.
Shlomo Argamon, Shlomo Levitan. Measuring the Usefulness of Function Words for Authorship Attribution. ACH/ALLC 2005 Conference Abstracts book. 2005.
Smita Nirkhi, R.V.Dharaskar, V.M.Thakare. Authorship Identification using Generalized Features and Analysis of Computational Method. Transactions on Machine Learning and Artificial Intelligence. 2015. 3(2).
MEDICLASSICS [homepage on the Internet]. Korea Institute of Oriental Medicine; 2015 [cited 30 Jan 2020]. Available from: https://mediclassics.kr/books/149

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증