[논문]해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구

김판준; 이재윤

doi:10.4275/kslis.2014.48.3.491

문제 정의

이런 한계를 극복하기 위해서 본 연구에서는 해외 학술데이터베이스로부터 통제어휘색인정보를 학습하여 국내 학술논문에 통제언어 색인어로서 디스크립터를 부여하는 실험을 수행해 보았다. 또한, 다양한 분류기와 이들 분류기의 결합을 통하여 이러한 디스크립터 자동 할당의 성능을 향상하는 방안을 모색하였다.
이러한 측면에서 본 연구는 ‘독서(reading)’ 분야를 대상으로 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 자동으로 학습하여, 영문 초록이 있는 국내 학술지 논문에 디스크립터를 자동 할당할 수 있는 가능성을 확인해 보고자 한다. 또한, 다양한 분류기와 이들 분류기의 결합을 통해 이러한 디스크립터 자동 할당의 성능을 향상시킬 수 있는 방안을 제시하고자 한다.
이러한 측면에서 본 연구는 ‘독서(reading)’ 분야를 대상으로 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 자동으로 학습하여, 영문 초록이 있는 국내 학술지 논문에 디스크립터를 자동 할당할 수 있는 가능성을 확인해 보고자 한다.
그러나 가장 기본이 되는 학술논문 데이터베이스는 양적인 성장에도 불구하고 통제어휘색인과 같은 핵심 요소를 아직까지 제공하지 못하고 있다. 이런 한계를 극복하기 위해서 본 연구에서는 해외 학술데이터베이스로부터 통제어휘색인정보를 학습하여 국내 학술논문에 통제언어 색인어로서 디스크립터를 부여하는 실험을 수행해 보았다. 또한, 다양한 분류기와 이들 분류기의 결합을 통하여 이러한 디스크립터 자동 할당의 성능을 향상하는 방안을 모색하였다.
분류기 결합을 시도한 2차 실험에서는 1차 실험에서 좋은 성능을 보인 분류기를 중심으로 여러 분류기의 판정 결과를 결합하는 분류기 결합 실험을 수행해보았다. 이를 통해 단일 분류기를 사용한 경우에 비해 더 좋은 성능과 더 안정적인 성능을 얻을 수 있는지 여부를 살펴보았다.
따라서 본 연구는 학술지 논문을 대상으로 하나의 언어(영어)로 작성된 문헌에 부여된 통제 키워드(범주명)를 학습하여 다른 언어(한국어)로 작성된 문헌에 디스크립터를 자동 할당하는 실험을 수행하였다. 특히, 이러한 실험은 색인 전문가 및 통제어휘표의 부재로 인해 통제키워드는 없지만 대부분의 학술지 논문에 대한 영어 제목과 초록 필드가 제공되고 있는 국내 데이터 베이스의 현실을 반영하여, 투자 대비 효율이 떨어지는 번역 과정을 필요로 하지 않는 기계학습 접근법에 기초하였다.

제안 방법

9개 분류기의 성능을 비교한 1차 실험에서는 각 분류기마다 10개 디스크립터가 할당된 영어 학술지 논문의 제목과 초록에 출현한 단어 자질로 학습단계를 수행한 후, 798건의 국내 논문집합을 대상으로 디스크립터 자동 할당을 수행하여 성능을 비교해보았다. 모든 분류는 각 문헌에 각 디스크립터의 할당 여부를 판정하는 이원 분류 방식으로 수행하였다.
각 분류기의 성능은 분류 정확률과 분류 재현율, 그리고 이들에 기초한 복합 척도인 매크로 F1 및 마이크로 F1과 함께, 재현율보다 정확률에 두 배 중요도를 부여하는 매크로 F0.5와 마이크로 F0.5로도 평가하였다. 정확률을 재현율보다 중요하게 반영하는 이유는 디스크립터 할당의 경우에 하나의 논문에 여러 개의 디스크립터가 할당되므로 소수의 디스크립터가 누락되는 경우는 눈에 잘 띄지 않지만, 잘못된 디스크립터가 할당된 것은 논문 정보에서 바로 드러나기 때문이다(김판준, 이재윤 2012).
4.2 분류기 결합 실험 결과

결합 분류기 5종의 성능은 단일 분류기 중에서 성능이 가장 좋은 NB 분류기, SVM, VPT와 비교하여 살펴보았다. 단일 분류기 최상위 3종과 결합 분류기 5종의 마이크로 평균 성능은 <표 7>에 제시하였고, 매크로 평균 성능은 <표 8>에 제시하였다.
결합 분류기의 평균 성능 이외에 각 디스크립터에 대한 성능이 어떻게 분포되었는가를 살펴보기 위해서 10종 디스크립터에 대한 F1 성능 분포를 에, F0.5 성능 분포를 에 상자 도표로 제시하였다.
단일 분류기 최상위 3종과 결합 분류기 5종의 마이크로 평균 성능은 에 제시하였고, 매크로 평균 성능은 에 제시하였다.
둘째, 통제키워드로서 디스크립터는 국외 학술 데이터베이스(LISTA)의 검색 결과에서 ‘SU(Subject Terms)’ 필드에 출현한 통제키워드를 사용하였다.
또한 분류 실험의 경우에는 재현율을 향상시키는 것에 비해서 상대적으로 정확률을 향상시키는 것이 어려운 문제이다. 따라서 디스크립터 할당의 경우에는 할당된 디스크립터 중 올바른 디스크립터의 비율인 정확률이 재현율보다 더 중요한 기준이라고 판단하여 F0.5 척도를 평가에 함께 사용하였다.
따라서 본 연구는 학술지 논문을 대상으로 하나의 언어(영어)로 작성된 문헌에 부여된 통제 키워드(범주명)를 학습하여 다른 언어(한국어)로 작성된 문헌에 디스크립터를 자동 할당하는 실험을 수행하였다. 특히, 이러한 실험은 색인 전문가 및 통제어휘표의 부재로 인해 통제키워드는 없지만 대부분의 학술지 논문에 대한 영어 제목과 초록 필드가 제공되고 있는 국내 데이터 베이스의 현실을 반영하여, 투자 대비 효율이 떨어지는 번역 과정을 필요로 하지 않는 기계학습 접근법에 기초하였다.
그러나 SVM 분류기는 디스크립터별 분류 성능의 편차가 다소 크게 나타났으며, NB 분류기는 정확률이 낮다는 단점이 있었다. 따라서 자동분류의 성능 향상을 위한 여러 전략 중에서 별도의 추가 자원을 사용하지 않고 실험에 사용된 여러 분류기를 그대로 활용하는 투표 방식의 분류기 결합을 시도해보았다.
따라서 정확률과 재현율을 각각 가로축과 세로축으로 반영하는 그림은 와 같이 매크로 평균 성능만 제시하였다.
9개 분류기의 성능을 비교한 1차 실험에서는 각 분류기마다 10개 디스크립터가 할당된 영어 학술지 논문의 제목과 초록에 출현한 단어 자질로 학습단계를 수행한 후, 798건의 국내 논문집합을 대상으로 디스크립터 자동 할당을 수행하여 성능을 비교해보았다. 모든 분류는 각 문헌에 각 디스크립터의 할당 여부를 판정하는 이원 분류 방식으로 수행하였다.
더구나, 색인전문가와 적절한 통제어휘표의 부재라는 근본적인 문제를 해소하면서 국내 학술 데이터베이스의 검색 환경에서 통제키워드를 제공할 수 있는 방안을 제시한 연구는 찾아보기 힘든 상황이다. 본 연구에서는 국내외에서 수행된 학술지 논문에 대한 통제키워드의 자동 할당을 위한 연구들을 크게 두 가지 유형으로 구분하였다. 먼저 국내에서 수행된 텍스트 범주화 기법을 사용하여 학술지 논문에 통제키워드(디스크립터, 주제명, 범주명)를 자동 할당하기 위한 연구들이 있다.
기계학습 기반의 텍스트 범주화를 통한 디스크립터 자동 할당에서 문헌 및 자질집합과 함께 가장 중요한 요소는 분류기이다. 본 연구의 목적에 적합한 분류기를 선정하기 위해 지금까지 선행연구들에서 주로 사용되어 온 기본 분류기들을 검토하여, 본 연구의 목적에 적합한 것으로 WEKA Version 3.6(Witten, Frank and Hall 2011)에서 제공하는 9개 분류기(NB, SVM, VPT, RBF, KNN1, ADT10, J48, OneR, Ridor)를 선정하였다(김판준, 이재윤 2012).
분류기 결합을 시도한 2차 실험에서는 1차 실험에서 좋은 성능을 보인 분류기를 중심으로 여러 분류기의 판정 결과를 결합하는 분류기 결합 실험을 수행해보았다. 이를 통해 단일 분류기를 사용한 경우에 비해 더 좋은 성능과 더 안정적인 성능을 얻을 수 있는지 여부를 살펴보았다.
셋째, 자질선정 측면에서는 실험집합에 속한 학술지 논문의 영어 표제와 초록에 출현한 단어 중에서 Porter 스태머를 이용한 어근추출과 불용어(전치사, 조사, 숫자 등) 제거 절차를 거친 이후, 전체 문헌집단에서 6개 이상의 논문에 출현한 키워드를 자질로 선정하여 출현빈도에 기반한 가중치(logTF × IDF)를 부여한 문헌벡터를 구성하였다.
이 연구에서 시도한 결합 분류기는 사전 실험을 거쳐 과 같은 다섯 종류를 채택하였다.
기계학습을 통한 자동분류의 성능을 향상시키기 위한 전략은 용어 가중치 활용이나 자질 선정(김판준 2008; 이재윤 2005), WordNet이나 Wikipedia와 같은 외부 자원의 활용(김용환, 정영미 2012; 정은경 2007), 미분류 학습문헌의 활용(김판준, 이재윤 2007), 여러 분류기의 판정 결과를 조합하는 분류기 결합(송성전, 정영미 2012; 유호현, 정영미 2008) 등이 사용된다. 이중에서 외부 자원을 추가로 필요로 하지 않고 실험에 사용된 자원과 조건만으로 수행이 가능한 분류기 결합 방법을 채택하여 성능 향상 실험을 추가로 실시해보았다.
해외 학술 데이터베이스의 경우 학술지 논문의 색인작업은 크게 두 가지 경로로 이루어진다. 첫째, 컴퓨터가 입력문헌의 텍스트를 분석하여 문헌의 내용을 대표하는 키워드(자연언어색인어)를 일정한 기준에 의해 기계적으로 추출한다. 둘째, 색인전문가는 해당 문헌의 내용을 분석하여 다루고 있는 주제를 판단한 다음, 통제어휘집에서 이를 표현할 수 있는 적절한 디스크립터(통제언어 색인어)를 부여한다.

대상 데이터

1차 실험에서는 WEKA가 제공하는 9종의 분류기를 사용하여 10개 디스크립터를 798건의 논문에 할당하는 실험을 수행하였다.
본 실험에서 사용된 상위 10개의 통제키워드는 ‘WRITING’, ‘TEACHERlibrarians’, ‘SCHOOL libraries’, ‘PUBLIC libraries’, ‘READING comprehension’, ‘READERS’, LITERACY, ‘CURRICULA (Courses of study)’, ‘BIBLIOTHERAPY’, ‘BOOKS’이다.
실험집합은 독서 영역을 대상으로 국외 학술데이터베이스인 LISTA로부터 검색된 1,809건의 영어 학술 논문과 10개 디스크립터를 학습집합으로 하고, 국내 학술 데이터베이스인 RISS에서 검색된 798건의 영문 제목과 영문 초록을 검증 집합으로 하였다. WEKA에서 제공하는 9종 분류기를 이용한 1차 실험에서는 SVM 분류기가 정확률과 재현율이 고르게 높게 나타났으며, NB 분류기는 재현율이 두드러지게 높으면서 안정적인 성능을 보였다.
국외학술 데이터베이스(LISTA)와 국내 학술 데이터베이스(RISS)의 검색문헌 집합에 기초하여 구성한 실험문헌 집합의 세부 내용은 <표 1>과 같다. 즉 학습집합은 국외 학술 데이터베이스 (LISTA)에서 검색된 1,809건의 제목과 초록, 통제키워드 필드에 기초하여 구성하고, 검증집합은 국내 학술 데이터베이스(RISS)에서 검색된 한국어 학술지 논문 798건의 영문 제목과 영문 초록 필드로 구성하였다.
첫째, 문헌집합은 ‘독서’ 영역을 대상으로 2013년 7월에 국내외의 대표적인 학술 데이터베이스에서 직접 검색한 결과를 사용하였다.

이론/모형

본 연구에서 실험집단에 대한 사전처리와 자질선정을 위한 프로그램은 Python 및 Visual FoxPro로 구현된 프로그램을 사용하였고, 국내 학술지 논문에 대한 통제키워드 자동 부여 실험을 위한 프로그램(분류기)은 공개된 기계학습 실험 패키지인 WEKA Version 3.6(Witten, Frank and Hall 2011)을 사용하였다.

성능/효과

5 성능 편차가 다르게 나타났다. 9종 분류기를 모두 결합하는 Two_ALL은 가장 좋은 평균 성능을 보였지만 상자의 길이가 매우 길어서 성능 편차가 큰 것으로 나타났는데, 세 분류기만 결합한 Two_TOP3는 성능 편차가 상대적으로 작게 나타났다. 대체로 결합에 동원된 분류기의 수가 많을수록 성능의 편차가 큼을 알 수 있다.
실험집합은 독서 영역을 대상으로 국외 학술데이터베이스인 LISTA로부터 검색된 1,809건의 영어 학술 논문과 10개 디스크립터를 학습집합으로 하고, 국내 학술 데이터베이스인 RISS에서 검색된 798건의 영문 제목과 영문 초록을 검증 집합으로 하였다. WEKA에서 제공하는 9종 분류기를 이용한 1차 실험에서는 SVM 분류기가 정확률과 재현율이 고르게 높게 나타났으며, NB 분류기는 재현율이 두드러지게 높으면서 안정적인 성능을 보였다. 따라서 문헌마다 부여된 디스크립터를 살펴보는 경우와 같이 정확률이 중요하다면 SVM을 선택해야 하고, 특정 주제에 관한 문헌을 망라적으로 찾기 위해 재현율도 정확률만큼 중요하게 고려한다면 NB 분류기를 선택하는 것이 더 바람직하다.
각 디스크립터에 대해 측정한 분류 성능의 평균에 해당하는 매크로 분류 성능을 기준으로 하더라도 균형잡인 성능을 얻기 위해서는 마이크로 분류 성능을 기준으로 살펴보았을 때와 마찬가지로 SVM이 가장 바람직한 것으로 나타났다. 부적합 문헌이 다수 포함되더라도 디스크립터와 관련된 문헌을 가급적 많이 찾을 수 있게 하려면 역시 NB 분류기도 좋은 선택임을 알 수 있다.
단일 분류기를 사용한 3장의 실험에서는 SVM 분류기와 NB 분류기가 좋은 성능을 보였으며 VPT도 정확률 면에서 가능성이 있는 것으로 나타났다. 그러나 SVM 분류기는 디스크립터별 분류 성능의 편차가 다소 크게 나타났으며, NB 분류기는 정확률이 낮다는 단점이 있었다. 따라서 자동분류의 성능 향상을 위한 여러 전략 중에서 별도의 추가 자원을 사용하지 않고 실험에 사용된 여러 분류기를 그대로 활용하는 투표 방식의 분류기 결합을 시도해보았다.
단일 분류기를 사용한 3장의 실험에서는 SVM 분류기와 NB 분류기가 좋은 성능을 보였으며 VPT도 정확률 면에서 가능성이 있는 것으로 나타났다. 그러나 SVM 분류기는 디스크립터별 분류 성능의 편차가 다소 크게 나타났으며, NB 분류기는 정확률이 낮다는 단점이 있었다.
분류 횟수 대비 성능을 기준으로 하는 마이크로 분류 성능은 다른 디스크립터에 비해 월등하게 많은 문헌에 부여된 ‘Reading Comprehension’이나 ‘Literacy’의 성능에 상당히 좌우된다. 마이크로 분류 성능 기준으로는 정확률은 Ridor가 가장 좋았고 재현율은 NB 분류기가 가장 좋았다. 정확률과 재현율을 같은 비율로 종합한 마이크로 F1 성능은 SVM이 가장 좋았으며 NB 분류기, VPT가 그 다음이었다.
마이크로 정확률과 마이크로 재현율을 가로축과 세로축으로 표현한 을 보면 SVM 분류기는 정확률과 재현율이 비교적 균형잡힌 성능을 보여주며, NB 분류기는 재현율이 월등하게 높은 성능을 보인다.
단일 분류기 최상위 3종과 결합 분류기 5종의 마이크로 평균 성능은 <표 7>에 제시하였고, 매크로 평균 성능은 <표 8>에 제시하였다. 마이크로 평균 성능과 매크로 평균 성능 양쪽 모두 가장 성능이 좋은 분류기는 일치하게 나타났으며 대체로 유사한 순위를 보여준다. 따라서 정확률과 재현율을 각각 가로축과 세로축으로 반영하는 그림은 <그림 5>와 같이 매크로 평균 성능만 제시하였다.
5에서는 뚜렷하게 높게 나타나서 더 좋은 성능을 기대할 수 있지만, 최하값인 아랫 수염이 매우 낮으므로 디스크립터에 따른 성능 편차가 심하다는 것을 알 수 있다. 매크로 분류 성능 평균에서 높은 정확률 덕분에 F1과 F0.5 기준으로 3위와 4위를 차지한 VPT와 ADT10은 최고 성능과 최저 성능의 차이가 매우 크고 분류 성능이 0인 경우도 있을 정도로 기복이 심한 것으로 나타났다.
매크로 정확률과 매크로 재현율을 가로축과 세로축으로 표현한 를 보면 의 마이크로 분류 성능에서와 마찬가지로 SVM 분류기는 정확률과 재현율이 비교적 균형잡힌 성능을 보여주며, NB 분류기는 재현율이 월등하게 높은 성능을 보인다.
매크로 정확률은 ADT10이 가장 좋았고 매크로 재현율은 마이크로 재현율과 마찬가지로 NB 분류기가 가장 좋았다. 정확률과 재현율을 같은 비율로 종합한 매크로 F1 성능도 NB 분류기가 가장 좋았으며 SVM과 VPT가 그 다음이었다.
5의 경우와 마찬가지로 SVM이 가장 좋았으며 NB 분류기와 VPT가 근소한 차이로 2위와 3위를 차지했다. 매크로 정확률이 가장 좋은 ADT10은 매크로 재현율이 매우 낮아서 F1과 F0.5 성능에서는 4위로 밀려났다. 이는 ADT10이 소극적으로 적은 수의 문헌에만 디스크립터를 할당했기 때문에 높은 정확률에 비해서 낮은 재현율을 보인 것으로 해석할 수 있다.
이로 미루어볼 때 마이크로 분류 성능을 기준으로 보면 균형잡인 성능을 얻기 위해서는 SVM이 가장 바람직하며, 부적합 문헌이 다수 포함되더라도 디스크립터와 관련된 문헌을 가급적 많이 찾을 수 있게 하려면 NB 분류기도 좋은 선택임을 알 수 있다. 반면에 각 문헌에 관계없는 디스크립터가 할당되는 것을 최대한 방지하고 비교적 정확한 디스크립터만 할당하기를 원할 때에는 VPT도 SVM에 버금가게 좋은 분류기인 것으로 나타났다.
3대 중후반의 성능을 보이고 SVM이 NB보다 약간 더 나은 성능을 보인 것으로 보고되었다(김판준 2007, 그림 6). 본 연구의 실험 결과는 학습문헌과 검증문헌이 상이한 데이터베이스로 구성되었음에도 불구하고 거의 유사한 결과를 보였다. 다만 VPT의 경우 김판준(2007)의 연구에서보다 상당히 낮은 성능을 보인 것으로 나타났다.
실험 결과에서 단일 분류기인 NB 분류기를 이용할 경우에 0.6 이상의 매크로 재현율을 얻었고, 보수적인 결합 분류기인 Any_TOP2를 이용할 경우 정확률 저하 없이 0.8 이상의 매우 높은 재현율을 얻었다. 그러나 정확률의 경우에는 단일 분류기 중 가장 좋은 SVM의 매크로 정확률이 0.
앞의 에서 매크로 F1 평균은 결합 분류기인 Any_TOP2와 Any_TOP3가 가장 좋았는데, 의 분포를 보면 두 결합 분류기의 상자 길이가 NB 분류기보다는 길지만 SVM보다는 짧게 나타나서 디스크립터별 성능 편차가 심하지 않음을 알 수 있다.
5도 가장 낮게 나타났는데, 이는 극소수의 문헌에만 디스크립터를 할당하였기 때문이다. 이로 미루어볼 때 마이크로 분류 성능을 기준으로 보면 균형잡인 성능을 얻기 위해서는 SVM이 가장 바람직하며, 부적합 문헌이 다수 포함되더라도 디스크립터와 관련된 문헌을 가급적 많이 찾을 수 있게 하려면 NB 분류기도 좋은 선택임을 알 수 있다. 반면에 각 문헌에 관계없는 디스크립터가 할당되는 것을 최대한 방지하고 비교적 정확한 디스크립터만 할당하기를 원할 때에는 VPT도 SVM에 버금가게 좋은 분류기인 것으로 나타났다.
5 기준에서 단일 분류기 최고 성능보다 좋은 결과를 보였다. 이를 통해 종합성능인 매크로 F1은 13.2%, 매크로 F0.5는 11.0% 향상시킬 수 있었다.
정확률면에서 단일 분류기보다 성능이 향상된 결합 분류기는 Two_TOP3와 Two_ALL로서 셋 이상의 분류기 중에서 둘 이상이 긍정 판정을 하는 경우에 디스크립터를 할당하는 방식의 결합이 정확률을 향상시키는데 효과적인 것으로 나타났다. 재현율 면에서 단일 분류기보다 성능이 향상된 결합 분류기는 Any_TOP3와 Any_TOP2로서, 최상위 성능을 보이는 복수의 분류기 중 하나라도 긍정 판정을 하면 디스크립터를 할당하는 방식의 결합이 재현율을 향상시키는데 효과적인 것으로 나타났다. 결국 정확률을 향상시키기에는 셋 이상의 분류기 중 둘 이상의 긍정판정에 따르는 보수적인 ‘Two_’ 방식의 결합 분류기가 유용하며, 재현율을 향상시키기에는 좋은 성능을 가진 복수의 단일 분류기 중 하나 이상의 긍정 판정에 따르는 적극적인 ‘Any_’ 방식의 결합 분류기가 유용하였다.
4% 향상되었다. 재현율의 경우 최상위 3종 분류기 중 1종이라도 디스크립터 할당으로 판정하는 경우에 인정하는 Any_TOP3가 가장 좋았으며 단일 분류기 중 가장 재현율이 좋은 NB 분류기의 성능 대비 마이크로 재현율은 42.0%, 매크로 재현율은 43.0% 향상되었다. 종합 성능인 F1은 최상위 2종 분류기인 NB와 SVM을 결합한 Any_TOP2가 가장 좋았으며 단일 분류기 중 마이크로 F1이 가장 좋은 SVM에 비해서는 7.
전체 798개 문헌 중에서 가장 많은 143개 문헌에 할당된 디스크립터는 C7인 ‘Literacy’였으며, 가장 적은 24개 문헌에 할당된 디스크립터는 C9인 ‘Bibliotherapy’였다.
전체적으로 매크로 분류 성능 평균과 분포를 고려하였을 때 SVM 분류기는 정확률과 재현율이 고르게 높게 나타났으며, NB 분류기는 재현율이 두드러지게 높으면서 안정적인 성능을 보였다. 따라서 문헌마다 부여된 디스크립터를 살펴보는 경우와 같이 정확률이 중요하다면 SVM을 선택해야 하고, 특정 주제에 관한 문헌을 망라적으로 찾기 위해 재현율도 정확률만큼 중요하게 고려한다면 NB 분류기를 선택하는 것이 바람직하다.
전체적으로 매크로 분류 성능 평균과 분포를 고려하였을 때 재현율을 저하시키지 않으면서 정확률을 향상시키려면 두 종 이상의 분류기가 긍정 판정하는 경우에 디스크립터를 할당하는 Two_ALL이나 Two_TOP3를 사용하는 것이 바람직하며, 이중에서 Two_TOP3가 더 안정적인 성능을 보였다. 반면에 정확률을 저하시키지 않으면서 재현율을 향상시키기 위해서는 Any_TOP2나 Any_TOP3를 사용할 수 있으며, 이중에서도 더 높은 F1과 F0.
정확률과 재현율 면에서 각각 단일 분류기 최고 성능보다 정확률이 향상된 결합 분류기를 보면 일정한 패턴이 있는 것이 확인된다. 정확률면에서 단일 분류기보다 성능이 향상된 결합 분류기는 Two_TOP3와 Two_ALL로서 셋 이상의 분류기 중에서 둘 이상이 긍정 판정을 하는 경우에 디스크립터를 할당하는 방식의 결합이 정확률을 향상시키는데 효과적인 것으로 나타났다.
마이크로 분류 성능 기준으로는 정확률은 Ridor가 가장 좋았고 재현율은 NB 분류기가 가장 좋았다. 정확률과 재현율을 같은 비율로 종합한 마이크로 F1 성능은 SVM이 가장 좋았으며 NB 분류기, VPT가 그 다음이었다. 정확률에 두 배 가중치를 두고 종합한 마이크로 F0.
매크로 정확률은 ADT10이 가장 좋았고 매크로 재현율은 마이크로 재현율과 마찬가지로 NB 분류기가 가장 좋았다. 정확률과 재현율을 같은 비율로 종합한 매크로 F1 성능도 NB 분류기가 가장 좋았으며 SVM과 VPT가 그 다음이었다. 정확률에 두 배 가중치를 두고 종합한 매크로 F0.
정확률과 재현율 면에서 각각 단일 분류기 최고 성능보다 정확률이 향상된 결합 분류기를 보면 일정한 패턴이 있는 것이 확인된다. 정확률면에서 단일 분류기보다 성능이 향상된 결합 분류기는 Two_TOP3와 Two_ALL로서 셋 이상의 분류기 중에서 둘 이상이 긍정 판정을 하는 경우에 디스크립터를 할당하는 방식의 결합이 정확률을 향상시키는데 효과적인 것으로 나타났다. 재현율 면에서 단일 분류기보다 성능이 향상된 결합 분류기는 Any_TOP3와 Any_TOP2로서, 최상위 성능을 보이는 복수의 분류기 중 하나라도 긍정 판정을 하면 디스크립터를 할당하는 방식의 결합이 재현율을 향상시키는데 효과적인 것으로 나타났다.
정확률과 재현율을 같은 비율로 종합한 마이크로 F1 성능은 SVM이 가장 좋았으며 NB 분류기, VPT가 그 다음이었다. 정확률에 두 배 가중치를 두고 종합한 마이크로 F0.5 성능도 SVM이 가장 좋았으며 VPT가 2위, NB 분류기가 3위를 차지했다. 학습문헌과 검증문헌을 동일 데이터베이스의 문헌으로 구성했던 선행 연구인 김판준(2007)의 실험 결과에서는 학습문헌대 검증문헌 비율이 이 연구와 유사한 2:1인 경우에 SVM과 NB가 0.
정확률과 재현율을 같은 비율로 종합한 매크로 F1 성능도 NB 분류기가 가장 좋았으며 SVM과 VPT가 그 다음이었다. 정확률에 두 배 가중치를 두고 종합한 매크로 F0.5 성능에서는 마이크로 F0.5의 경우와 마찬가지로 SVM이 가장 좋았으며 NB 분류기와 VPT가 근소한 차이로 2위와 3위를 차지했다. 매크로 정확률이 가장 좋은 ADT10은 매크로 재현율이 매우 낮아서 F1과 F0.
2% 향상되었다. 정확률에 두 배의 가중치를 두는 F0.5 기준으로는 모든 분류기의 판정을 결합한 Two_ALL이 가장 좋은 성능을 보였으며 단일 분류기 중 성능이 가장 좋은 SVM과 비교했을 때 마이크로 F0.5는 11.6% 향상되었고 매크로 F0.5는 11.0% 향상되었다. 중간 성능의 분류기 5종을 결합한 Any_MID5는 정확률과 재현율 양 측면 모두 단일 분류기의 최고 성능에는 미치지 못하였다.
정확률을 강조한 매크로 F0.5 평균이 가장 좋았던 Two_ALL과 두 번째로 좋았던 Two_TOP3는 에서 보듯이 디스크립터별 F0.5 성능 편차가 다르게 나타났다.
따라서 정확률과 재현율을 각각 가로축과 세로축으로 반영하는 그림은 <그림 5>와 같이 매크로 평균 성능만 제시하였다. 정확률의 경우 최상위 분류기 3종의 판정을 다수결로 반영하는 Two_TOP3가 가장 좋아서 단일 분류기 중 가장 좋은 SVM 분류기의 정확률과 비교했을 때 마이크로 정확률은 27.0% 향상되었으며 매크로 정확률은 16.4% 향상되었다. 재현율의 경우 최상위 3종 분류기 중 1종이라도 디스크립터 할당으로 판정하는 경우에 인정하는 Any_TOP3가 가장 좋았으며 단일 분류기 중 가장 재현율이 좋은 NB 분류기의 성능 대비 마이크로 재현율은 42.
0% 향상되었다. 종합 성능인 F1은 최상위 2종 분류기인 NB와 SVM을 결합한 Any_TOP2가 가장 좋았으며 단일 분류기 중 마이크로 F1이 가장 좋은 SVM에 비해서는 7.9% 향상되었고 매크로 F1이 가장 좋은 NB 분류기에 비해서는 13.2% 향상되었다. 정확률에 두 배의 가중치를 두는 F0.
종합 성능인 F척도를 살펴보면 Two_TOP3와 Two_ALL은 F1 기준으로 단일 분류기 최고 성능보다 좋은 결과를 보였고, 적극적인 ‘Any_’ 방식의 결합 분류기인 Any_TOP2와 Any_TOP3는 정확률을 더 강조하는 F0.5 기준에서 단일 분류기 최고 성능보다 좋은 결과를 보였다.
정확률을 향상시키기에는 셋 이상의 분류기 중 둘 이상의 긍정 판정에 따르는 보수적인 방식의 결합 분류기가 유용했으며, 재현율을 향상시키기에는 좋은 성능을 가진 복수의 단일 분류기 중 하나 이상의 긍정 판정에 따르는 적극적인 방식의 결합 분류기가 유용하였다. 종합 성능인 F척도를 살펴보면 보수적인 방식의 Two_TOP3와 Two_ALL은 F1 기준으로 단일 분류기 최고 성능보다 좋은 결과를 보였고, 적극적인 방식의 Any_TOP2와 Any_TOP3는 정확률을 더 강조하는 F0.5 기준에서 단일 분류기 최고 성능보다 좋은 결과를 보였다. 이를 통해 종합성능인 매크로 F1은 13.
이를 보면 굵은 실선으로 표시된 중앙값이 0에 해당하여 매우 저조한 성능을 보이는 OneR과 Ridor는 고려 대상에서 제외해야 한다. 중앙값이 0보다 큰 나머지 7종의 분류기 중에서 상자의 몸통, 즉 50%의 값이 집중 분포된 영역이 가장 작은 분류기는 NB인 것으로 나타났다. 이는 NB 분류기가 각 디스크립터를 할당하는 성능이 가장 안정적임을 의미한다.
투표 방식의 분류기 결합을 통해 성능 향상을 시도한 2차 실험에서는 매크로 정확률과 매크로 재현율이 각각 최고 16.4%와 43.0% 향상되는 효과를 얻었다. 정확률을 향상시키기에는 셋 이상의 분류기 중 둘 이상의 긍정 판정에 따르는 보수적인 방식의 결합 분류기가 유용했으며, 재현율을 향상시키기에는 좋은 성능을 가진 복수의 단일 분류기 중 하나 이상의 긍정 판정에 따르는 적극적인 방식의 결합 분류기가 유용하였다.

후속연구

4293 정도로 나타나서 절반을 넘기기가 어려웠다. 물론 통제색인어휘의 사용이 재현율을 향상시키는 것에 주된 목적이 있으므로 이와 같은 결과가 기대에 크게 어긋나는 것은 아니지만, 추후에는 정확률의 향상을 도모할 수 있는 다른 전략의 개발도 필요할 것이다.

핵심어	질문	논문에서 추출한 답변
	교차-언어 텍스트 범주화의 문제점은 무엇인가?	그러나 교차-언어 텍스트 범주화의 문제점은 기계번역, 사전-기반, 말뭉치-기반 등의 방법에 기초하여 미분류된 문헌을 번역하는 과정에서 요구되는 시간과 비용에 비하여, 언어와 문화의 차이로 인한 오류와 정보 손실(information loss)이 상당히 크다는 것이다(Guo and Xiao 2012; Wei, Lin and Yang 2011). 지금까지 다양한 측면에서 이러한 문제를 해소하기 위한 방안을 제시하는 많은 연구들이 보고되고 있지만 여전히 서로 다른 언어를 번역하는데 막대한 시간과 비용을 필요로 한다는 문제점을 내재하고 있다.
	통제키워드의 장점은 무엇인가?	특히, 학술 데이터베이스의 탐색과 활용 측면에서 통제 키워드의 필요성과 유용성은 의심의 여지가 없는 사실이다. 통제키워드는 특정한 개념에 대한 다양한 표현들을 대표 용어로 일관성 있게 표현하므로 특정 주제에 관한 정보자료를 망라적으로 검색할 수 있다는 고유의 장점을 갖는다.
	해외 학술 데이터베이스의 경우 학술지 논문의 색인작업의 두 가지 경로는 무엇인가?	해외 학술 데이터베이스의 경우 학술지 논문의 색인작업은 크게 두 가지 경로로 이루어진다. 첫째, 컴퓨터가 입력문헌의 텍스트를 분석하여 문헌의 내용을 대표하는 키워드(자연언어색인어)를 일정한 기준에 의해 기계적으로 추출한다. 둘째, 색인전문가는 해당 문헌의 내용을 분석하여 다루고 있는 주제를 판단한 다음, 통제어휘집에서 이를 표현할 수 있는 적절한 디스크립터(통제언어 색인어)를 부여한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

4.2 분류기 결합 실험 결과

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (29)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

4.2 분류기 결합 실험 결과

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (29)

이 논문을 인용한 문헌

저자의 다른 논문 :

김판준 (17)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper