학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.
학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.
Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. In the case of academic papers among domestic works, subject classif...
Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. In the case of academic papers among domestic works, subject classification can be a more important information because it can cover a larger area of service and can provide service by setting a range. However, the problem of classifying themes by field requires the hands of experts in various fields, and various methods of verification are needed to increase accuracy. In this paper, we try to classify topics using the unsupervised learning algorithm to find the correct answer in the unknown state and compare the results of the subject classification algorithms using the coherence and perplexity. The unsupervised learning algorithms are a well-known Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA) and Latent Semantic Indexing (LSI) algorithm.
Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. In the case of academic papers among domestic works, subject classification can be a more important information because it can cover a larger area of service and can provide service by setting a range. However, the problem of classifying themes by field requires the hands of experts in various fields, and various methods of verification are needed to increase accuracy. In this paper, we try to classify topics using the unsupervised learning algorithm to find the correct answer in the unknown state and compare the results of the subject classification algorithms using the coherence and perplexity. The unsupervised learning algorithms are a well-known Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA) and Latent Semantic Indexing (LSI) algorithm.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 국가 연구 성과물 중에 하나인 학술정보 메타데이터(OCEAN)를 활용한 주제 분류 알고리즘의 성능 테스트 및 비교를 해보았다. 실제 국가 논문성과물 데이터를 바탕으로 주제 분류를 시도했다는 점에서 본 논문에서는 의의가 있으며, 데이터의 특성과 목적에 맞게 분류 알고리즘을 사용해야 한다는 것을 확인할 수 있었다.
LSA는 코퍼스를 가지고 문서들의 유사도를 계산하지만 LDA는 토픽 집단을 생성하는 것이 다른 점이다. 본 논문에서는 논문 단위의 주제 분류를 위해 주제 분류로 많이 활용되는 주제 분류 알고리즘을 비교해 보고 성능을 평가해 보고자 한다.
제안 방법
이런 관점에서 문서는 한 가지 주제에 대해서만 기술하기 보다는 여러 가지의 주제를 부분적으로 기술하고 있다. LDA 모델은 확률모델이기 때문에 여러 번 반복 실험을 실시하여 수행되었으며 논문의 제목, 초록, 키워드 등의 100개미만의 단어는 제외하고 소문자로 모두 변경 후 문장 부호를 삭제하고 불용어(전치사, 대명사, 관사 등)를 제거하고 어간 추출 방법을 활용하였다. 법률 판례 분류 시스템에 LDA를 활용한 사례[7]도 있다.
용어의 빈도 수 측정(Term Frequency) 뿐만 아니라 문서 내에 자주 사용되지는 않지만 주제 분류에 중요한 용어를 발견하기 위해 IDF(Inverse Document Frequency) 도 활용한다. 다음으로 생성된 TF-IDF 모델을 각 LSI, LDA, HDP 모델에 입력 값으로 넣어 학습 모델을 생성한다. 테스트 데이터 집합은 다음과 같이 진행한다.
비지도 방법으로 학술정보 데이터 학습을 수행 할 경우에는 정답 집합이 없기 때문에 주로 일관도와 복잡성을 평가해서 측정을 하게 된다. 본 논문에서는 일관도와 복잡도로 성능을 비교하였다. LDA 알고리즘에 대한 일관도는 주제 토픽이 7개 정도에서 값이 높음을 확인할 수 있다.
저자명을 입력 값으로 넣으면 많이 나오는 성 이름이 상위 키워드로 분류가 되어 제대로 된 주제 분류가 나오지 않는 문제점이 있다. 입력 데이터의 개수는 저널별 주제 분류가 서비스 되고 있기 때문이 이 정보를 바탕으로 논문 주제 분류를 구분하기 위해 우선 저널 별대분류 기준으로 논문의 수를 나누고 DDC 대분류를 기준으로 각 종 별 700개의 학습데이터, 700개의 테스트 데이터로 구분하여 수행하였다. 주제 분류 알고리즘은 Latent Semantic Indexing(LSI), Latent Dirichlet Allocation(LDA), Hierarchical Dirichlet Precess(HDP) 알고리즘으로 성능을 비교하였다.
입력데이터는 전체 700개의 메타데이터에 대한 저널지 기준 대분류별 논문 수를 확인하였다. 종 별 700 개의 논문 메타 정보를 추출한 후에 각 논문이 어느 DDC 대분류에 속해 있는지를 확인하고 입력 값으로 넣었다. 총 7개의 대분류가 확인이 되었다[그림 3].
논문의 주제어와 초록의 관계를 LDA로 학습한 사례도 있다[9]. 학습을 위해 불용어를 제거하고 논문의 저자 주제어와 초록을 쌍으로 만들어 학습 데이터를 만든 후 학습 군과 테스트 군의 데이터 분류를 시도하였다.
다음 단계로 불용어(stopwords) 와 유의어를 제거한다. 한글과 영어에 대한 불용어를 각각 100개 정도로 설정했으며, 유의어를 제외한 명사추출 후 리스트 화 하였다. 문서 별 단어 사전을 구축하고 빈도수를 계산한 후 코퍼스를 생성해서 TF-IDF 모델에 적용하였다.
대상 데이터
비지도 학습은 정답이 없는 학습데이터로 테스트가 이루어진다. 국내 학술 정보(OCEAN)[1] 메타데이터에서 기사 명(한글, 영문), 키워드(한글, 영문), 초록(한글, 영문), 저널 명(한글, 영문) 정보를 입력 값으로 선정하였다. 메타데이터의 추출 기준은 학술지 종 별 최소 700개의 논문 메타데이터를 선정하였다.
논문 메타 데이터 수가 100개라면 학습 데이터를 80으로 하고 테스트와 검증 데이터를 10 개씩 학습하는 것이 적당하다. 데이터 학습을 위해서 DDC 주제 분류가 되어 있는 메타데이터를 선정하고 학습 데이터 수를 종 별 500개씩 선별하였다. 테스트와 검증을 위한 데이터는 각각 100 개씩 설정하였다.
국내 학술 정보(OCEAN)[1] 메타데이터에서 기사 명(한글, 영문), 키워드(한글, 영문), 초록(한글, 영문), 저널 명(한글, 영문) 정보를 입력 값으로 선정하였다. 메타데이터의 추출 기준은 학술지 종 별 최소 700개의 논문 메타데이터를 선정하였다. 전체 종은 540 종정도 되며 메타데이터 수는 약 378,000 개의 논문을 활용하였다.
주제 분류 알고리즘은 Latent Semantic Indexing(LSI), Latent Dirichlet Allocation(LDA), Hierarchical Dirichlet Precess(HDP) 알고리즘으로 성능을 비교하였다. 불용어는 한글 불용어 약 200 개를 구분하고 영문 불용어 70여개 + NLTK의 불용어 리스트를 참조하였다. [그림 1]은 불용어 리스트의 일부를 나타낸 것이다.
[그림 6]는 LDA 알고리즘의 토픽 개수 별 일관도를 나타낸 것이다. 일관도를 측정하기 위해 각 토픽 별 상위 100개의 키워드를 활용하였다.
학습의 수행 시간은 약 1시간 정도 소요되었으며, 학습 도구는 GENSIM툴[19]을 사용하였다. 입력데이터는 전체 700개의 메타데이터에 대한 저널지 기준 대분류별 논문 수를 확인하였다. 종 별 700 개의 논문 메타 정보를 추출한 후에 각 논문이 어느 DDC 대분류에 속해 있는지를 확인하고 입력 값으로 넣었다.
메타데이터의 추출 기준은 학술지 종 별 최소 700개의 논문 메타데이터를 선정하였다. 전체 종은 540 종정도 되며 메타데이터 수는 약 378,000 개의 논문을 활용하였다.
데이터 학습을 위해서 DDC 주제 분류가 되어 있는 메타데이터를 선정하고 학습 데이터 수를 종 별 500개씩 선별하였다. 테스트와 검증을 위한 데이터는 각각 100 개씩 설정하였다.
주제 분류 알고리즘 성능을 비교하기 위해 학습 데이터 선정은 다음과 같이 진행하였다. 학술 정보 메타데이터에서 기사 명(한글, 영문), 키워드(한글, 영문), 초록(한글, 영문), 저널 명(한글, 영문) 등의 기본 데이터를 가지고 학습데이터를 선정하기로 하였다. 학술정보 데이터 학습 단계는 다음과 같은 순서로 진행한다[그림2].
데이터처리
입력 데이터의 개수는 저널별 주제 분류가 서비스 되고 있기 때문이 이 정보를 바탕으로 논문 주제 분류를 구분하기 위해 우선 저널 별대분류 기준으로 논문의 수를 나누고 DDC 대분류를 기준으로 각 종 별 700개의 학습데이터, 700개의 테스트 데이터로 구분하여 수행하였다. 주제 분류 알고리즘은 Latent Semantic Indexing(LSI), Latent Dirichlet Allocation(LDA), Hierarchical Dirichlet Precess(HDP) 알고리즘으로 성능을 비교하였다. 불용어는 한글 불용어 약 200 개를 구분하고 영문 불용어 70여개 + NLTK의 불용어 리스트를 참조하였다.
이론/모형
법률 판례 분류 시스템에 LDA를 활용한 사례[7]도 있다. 또한, 토픽 별 카테고리를 분류하기 위해 트위터의 토픽을 LDA 모델에 적용하였다[8]. 논문의 주제어와 초록의 관계를 LDA로 학습한 사례도 있다[9].
한글과 영어에 대한 불용어를 각각 100개 정도로 설정했으며, 유의어를 제외한 명사추출 후 리스트 화 하였다. 문서 별 단어 사전을 구축하고 빈도수를 계산한 후 코퍼스를 생성해서 TF-IDF 모델에 적용하였다. 용어의 빈도 수 측정(Term Frequency) 뿐만 아니라 문서 내에 자주 사용되지는 않지만 주제 분류에 중요한 용어를 발견하기 위해 IDF(Inverse Document Frequency) 도 활용한다.
com/twitter/twitter-korean-text)를 활용한다. 영어 문자의 경우에는 명사를 확인하기 위해 NLTK 툴에서 제공하는 방법을 활용한다. 다음 단계로 불용어(stopwords) 와 유의어를 제거한다.
문서 별 단어 사전을 구축하고 빈도수를 계산한 후 코퍼스를 생성해서 TF-IDF 모델에 적용하였다. 용어의 빈도 수 측정(Term Frequency) 뿐만 아니라 문서 내에 자주 사용되지는 않지만 주제 분류에 중요한 용어를 발견하기 위해 IDF(Inverse Document Frequency) 도 활용한다. 다음으로 생성된 TF-IDF 모델을 각 LSI, LDA, HDP 모델에 입력 값으로 넣어 학습 모델을 생성한다.
학술정보 데이터 학습 단계는 다음과 같은 순서로 진행한다[그림2]. 우선 학습 메타데이터를 가져와서 한글 문자에서 명사 형태소를 분석하기 위해 트위터 도구(https://github.com/twitter/twitter-korean-text)를 활용한다. 영어 문자의 경우에는 명사를 확인하기 위해 NLTK 툴에서 제공하는 방법을 활용한다.
학습의 수행 시간은 약 1시간 정도 소요되었으며, 학습 도구는 GENSIM툴[19]을 사용하였다. 입력데이터는 전체 700개의 메타데이터에 대한 저널지 기준 대분류별 논문 수를 확인하였다.
성능/효과
이 이유는 국가 학술정보(OCEAN) 데이터는 대부분 인문, 사회 분야 보다는 과학 분야의 논문이 많이 있다는 것을 반증하는 것이다. LDA 알고리즘은 일관도와 복잡도를 고려했을 때 다른 알고리즘보다 좋은 결과를 보였다.
테스트 데이터 집합은 다음과 같이 진행한다. 논문 메타 데이터 수가 100개라면 학습 데이터를 80으로 하고 테스트와 검증 데이터를 10 개씩 학습하는 것이 적당하다. 데이터 학습을 위해서 DDC 주제 분류가 되어 있는 메타데이터를 선정하고 학습 데이터 수를 종 별 500개씩 선별하였다.
여러 주제에서 동일한 키워드가 반복되는 경우는 토픽의 수가 너무 크다는 것을 확인할 수 있다. 대체적으로 LSI는 주제별 중복 키워드가 확인되었으며, LDA와 HDP의 경우에는 주제 분류 별로 다양한 키워드가 존재하고 있음을 확인할 수 있다. [그림 6]는 LDA 알고리즘의 토픽 개수 별 일관도를 나타낸 것이다.
본 논문에서는 국가 연구 성과물 중에 하나인 학술정보 메타데이터(OCEAN)를 활용한 주제 분류 알고리즘의 성능 테스트 및 비교를 해보았다. 실제 국가 논문성과물 데이터를 바탕으로 주제 분류를 시도했다는 점에서 본 논문에서는 의의가 있으며, 데이터의 특성과 목적에 맞게 분류 알고리즘을 사용해야 한다는 것을 확인할 수 있었다. LSI는 보다 직관적인 데이터 집합에 활용하고 LDA는 다양한 키워드가 분류되어 새로운 용어를 적용하는데 유리하며, HDP는 보다 세분화된 분류체계에 적용하는데 유리해 보인다.
대분류를 기준으로 신뢰도가 향상이 되면 논문 단위의 주제 분류가 되어 실제 다양한 분야의 기관과 연구자에게 필요한 주제 분류 서비스가 가능해 질 것이다. 알고리즘 비교 분석에서 데이터의 특성 별로 유용한 알고리즘은 존재하였으며, 목적에 맞는 올바른 알고리즘의 선택이 필수가 됨을 확인할 수 있었다. 향후에는 좀 더 효과적인 주제 분류를 위한 연구 개발을 진행할 계획이다.
주제 분류 알고리즘을 비교해 본 결과 입력 데이터의 대분류 개수와 비슷한 7개가 최적의 토픽으로 확인할 수 있다. 주제 분류 알고리즘의 성능은 LDA가 좋은 것으로 확인할 수 있다.
주제 분류 알고리즘을 비교해 본 결과 입력 데이터의 대분류 개수와 비슷한 7개가 최적의 토픽으로 확인할 수 있다. 주제 분류 알고리즘의 성능은 LDA가 좋은 것으로 확인할 수 있다. [그림 9]는 LDA 알고리즘의 토픽 개수 별 복잡도를 나타낸 것이다.
[그림 7]는 LSI 알고리즘의 토픽 개수 별 일관도를 나타낸 것이다. 토픽의 개수가 적을 때는 일관도가 높지만 토픽의 개수가 증가하면 증가할수록 일관도가 떨어져 신뢰도가 낮아지는 추세를 확인할 수 있다.
후속연구
LSI는 보다 직관적인 데이터 집합에 활용하고 LDA는 다양한 키워드가 분류되어 새로운 용어를 적용하는데 유리하며, HDP는 보다 세분화된 분류체계에 적용하는데 유리해 보인다. 본 연구의 한계점은 LDA 등의 알고리즘은 키워드에 민감한 결과를 보이기 때문에 키워드의 세밀한 정제가 필요하다는 것이다. 대분류를 기준으로 신뢰도가 향상이 되면 논문 단위의 주제 분류가 되어 실제 다양한 분야의 기관과 연구자에게 필요한 주제 분류 서비스가 가능해 질 것이다.
알고리즘 비교 분석에서 데이터의 특성 별로 유용한 알고리즘은 존재하였으며, 목적에 맞는 올바른 알고리즘의 선택이 필수가 됨을 확인할 수 있었다. 향후에는 좀 더 효과적인 주제 분류를 위한 연구 개발을 진행할 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
LDA 토픽 모델링의 특징은 무엇인가?
국내 기록 관리학 연구 분야[3]에서는 HDP 토픽 모델링과 LDA 토픽 모델링을 응용한 결과를 비교 분석하였다. LDA 토픽 모델링의 경우 전체 토픽이 과도하게 특정 부분에 집중되어 있지 않고 일부 소 영역을 이루며 고르게 분포되어 각 토픽의 특징을 파악할 수 있는 고유한 키워드가 많으면 연구 주제영역을 뚜렷하게 구분할 수 있다. HDP 토픽모델링은 세부 주제별 연구 동향 분석을 하는 데에도 효율적으로 알려져 있다.
토픽 모델링의 결과를 평가하는 Perplexity방법은 어떻게 이루어 지는가?
토픽 모델링의 결과를 평가하는 방법은 내재적인 것(Intrinsic)과 외재적인 것(Extrinsic)으로 나뉘는데 내재적인 기법 중 고전적인 방법이 Perplexity(혼란도)이며, Perplexity의 한계를 극복하기 위해 제시된 Topic Coherence가 있다. 대게 깁스샘플링 과정에서 반복횟수가 증가할수록 Perplexity는 감소하는 경향을 나타낸다. 그러다가 특정 시점을 지나면 더 이상 Perplexity는 감소하지 않고 증가, 감소를 반복하며 요동치는 지점이 등장하는데 이때를 해당 깁스 샘플링의 수렴 지점으로 보고 샘플링을 멈추는 경우가 많다. 그리고 이때의 Perplexity가 해당 모델의 최종 Perplexity가 된다. 이 값이 작으면 작을수록 해당 토픽 모델은 실제 문헌 결과를 잘 반영한다는 뜻이므로 학습이 잘 되었다고 평가를 할 수 있다. 이 값은 LDA 등에서 적절한 주제 개수를 정하기 어려울 때 유용하게 쓰인다.
pLSA는 무엇을 말하는가?
잠재 의미 분석(Latent Semantic Analysis) 는 압축된 행렬에서 함축된 의미를 도출해낼 때 사용된다. pLSA(Probabilistic Latent Semantic Analysis)는 문헌-용어 행렬을 문헌 내에 특정 용어가 등장한 횟수를 기반으로 하는 것이 아니라, 문헌 내에 특정 용어가 등장할 확률을 기반으로 해서 구축하는 것이다. 따라서 행렬 내에 음수도 사용하는 SVD를 사용하지 못하며 대신 음수 미포함 행렬 분해 기법이나 기대값 최대 기법 등을 활용한다.
참고문헌 (19)
김무철, "과학기술용어 간 관계 도출을 위한 토픽분석 연구," 한국전자거래학회지, 제21권, 제1호, pp.119-129, 2016.
L. Zheng, Z. Caiming, and C. Caixian, "MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation," Expert Systems with Applications, Vol.104, pp.168-184, 2018.
B. Cao, J. Liu, Y. Wen, H. Li, Q. Xiao, and J. Chen, "QoS-aware service recommendation based on relational topic model and factorization machines for IoT Mashup applications," Journal of Parallel and Distributed Computing, 2018.
Y. Papanikolaou and G. Tsoumakas, Subset Labeled LDA for Large-Scale Multi-Label Classification (2017, September 16), arXiv.org.
M. Pavlinek and V. Podgorelec, "Text classification method based on self-training and LDA topic models," Expert Systems with Applications, Vol.80, pp.83-93, 2017. http://doi.org/10.1016/j.eswa.2017.03.020
M. Rani, A. K. Dhar, and O. P. Vyas, "Semi-automatic terminology ontology learning based on topic modeling," Engineering Applications of Artificial Intelligence, Vol.63, pp.108-125, 2017. http://doi.org/10.1016/j.engappai.2017.05.006
※ AI-Helper는 부적절한 답변을 할 수 있습니다.