국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 - Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP원문보기
본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.
본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.
The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstl...
The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstly we collected 1,027 articles related to archives management from 1997 to 2016 in two journals related with archives management and four journals related with library and information science in Korea and performed several preprocessing steps. And then we conducted LDA and HDP topic modelings. For a more in-depth comparison analysis, we utilized LDAvis as a topic modeling visualization tool. At the results, LDA topic modeling was influenced by frequently keywords in all topics, whereas, HDP topic modeling showed specific keywords to easily identify the characteristics of each topic.
The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstly we collected 1,027 articles related to archives management from 1997 to 2016 in two journals related with archives management and four journals related with library and information science in Korea and performed several preprocessing steps. And then we conducted LDA and HDP topic modelings. For a more in-depth comparison analysis, we utilized LDAvis as a topic modeling visualization tool. At the results, LDA topic modeling was influenced by frequently keywords in all topics, whereas, HDP topic modeling showed specific keywords to easily identify the characteristics of each topic.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 토픽모델링을 활용한 분석에서 주로 사용되었던 LDA 토픽모델링을 보완한 기법으로 국내 연구에서는 자주 사용되지 않았던 HDP 토픽모델링을 적용하여 차이점을 도출한 것에 의의가 있다. 본 연구의 향후 연구 방향으로는 두 토픽모델링 기반으로 도출된 토픽 들에 대해 기록관리학에 관한 분류표, 기록관리학 분야 전문가의 조언 등을 통해 각 토픽에 대한 명칭과 주제를 정하여 연구동향을 심층적인 분석이 필요하며, 이후 시계열에 따른 토픽 모델링 분석으로 확장하여 시간에 따른 국내 기록관리학 연구 변화와 각 시기마다 관심이 집중된 주제, 관심이 멀어진 주제 등을 파악하는 연구가 진행될 수 있다.
기존의 정성적 분석 방법의 한계점을 극복하고 대량의 문서집합에서 잠재된 토픽을 찾아내는 기법으로 각광받고 있다(서성훈 2016). 본 절에서는 최근 각광받고 있는 LDA 토픽모델과 이를 변형한 방법인 HDP 모델링 방법에 대해 살펴보도록 한다.
이러한 맥락에서 본 연구에서는 국내 기록관리학의 연구동향을 분석하기 위해 LDA 토픽 모델링과 이를 변형한 HDP 토픽모델링을 적용하고자 한다. 이를 위해서는 먼저 LDA와 HDP 토픽모델링 기법을 비교하여 그 특성을 파악하는 것이 선행되어야 한다.
이를 위해서는 먼저 LDA와 HDP 토픽모델링 기법을 비교하여 그 특성을 파악하는 것이 선행되어야 한다. 특정 분야의 연구동향을 분석하는데 어떤 기법이 더 효과적인지 파악하기 위해 본 연구에서는 기록관리학분야 학술지 2종과 문헌정보학 분야 학술지 4종을 중심으로 국내 기록관리학 관련 논문을 수집하고, LDA 토픽모델링과 HDP 토픽모델링을 각각 수행한 후, 두 토픽모델링의 결과를 비교함으로써 시사점을 도출하고자 한다.
제안 방법
이에 본 연구에서는 토픽 수를 5~20까지 설정한 후각각 토픽모델링을 수행한 결과, 토픽 수 10개가 각 토픽을 적절하게 표현하는 것을 확인할수 있었다. HDP 토픽모델링은 알고리즘 특성상 토픽 수를 설정할 필요가 없지만 본 연구에 서는 두 토픽모델링의 적절한 비교를 위해 HDP 토픽모델링도 LDA 토픽모델링과 동일한 토픽 수로 설정하여 분석을 진행하였다. 이후 Gensim의 토픽모델링 함수에 전처리된 문서집합과 토픽수, 반복횟수(1,000회)를 입력하고 다른 인수들은 기본값으로 설정하여 LDA 토픽모 델링과 HDP 토픽모델링을 수행하였다.
손혜인, 남영준(2016)은 한국기록관리학회지와 기록학연구에서 2000년부터 2015년까지 게재된 681편의 논문을 중심으로 빈도분석과 네트워크 분석을 실시하였다. 그 결과, 두학회지의 연구자 배경의 차이, 주제 변화 추이 등을 파악하였다.
첫째, 기록관리학 관련 연구가 활발하게 진행되고 있는 기록관리학 학술지와 문헌정보학 학술지를 수집대상으로 선정하여, 국내학술지 원문DB 사이트인 DBPIA에서 학술지 최초 발간일부터 2016년까지 등재된 논문을 자동 수집하였다. 둘째, 수집된 데이터는 토픽모델링을 수행하는데 적합한 포맷으로 변경시키기 위해 형태소분석, 명사추출, 벡터화(Vectorization)과 같은 적절한 전처리 과정을 진행하였다. 셋째, 전처리 과정을 거친 데이터를 기반으로 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하고 LDAvis를 통해 각각 토픽모델링의 결과를 시각화하였다.
전처리과정을 거친 문서집합은 토픽모델링에 적합한 포맷으로 변경한 후 LDA 토픽 모델링, HDP 토픽모델링을 각각 적용하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 각 토픽모델링 결과를 시각화하였다.
마지막으로 시각화를 통해 가시적 으로 표현된 토픽들간의 거리와 세부 대표 키워드를 비교·분석하여 국내 기록관리학 연구동향 분석에 두 토픽모델링 기법의 특징과 차이를 분석하였다.
본 연구는 토픽모델링을 활용한 국내 기록관리학 연구동향 분석을 위해 데이터마이닝 기법중 하나로 연구동향분석에 주로 활용되는 LDA 토픽모델링과 LDA 토픽모델링을 응용한 토픽모델링 방법인 HDP 토픽모델링을 적용, 그 결과를 비교 분석하였다. 먼저, 국내 기록관리학 분야 학술지 2종과 문헌정보학 분야 학술지 4종의 발간일부터 2016년까지 게재된 모든논문의 논문명, 초록, 키워드 등을 자동수집하고 기록관리와 관련된 모든 논문을 추출하였다. 총 1,027건의 데이터를 수집하였고 형태소분석, 명사추출, 벡터화 등 적절한 전처리과정을 거쳤다.
먼저, 수집한 기록관리학 관련 논문 1,027건의 논문명을 중심으로 문서집합을 생성하고 각문서에 대해 형태소분석을 실시하였다. 형태소분석이 완료되면 분석된 문서에서 명사를 추출 한다.
본 연구는 토픽모델링을 활용한 국내 기록관리학 연구동향 분석을 위해 데이터마이닝 기법중 하나로 연구동향분석에 주로 활용되는 LDA 토픽모델링과 LDA 토픽모델링을 응용한 토픽모델링 방법인 HDP 토픽모델링을 적용, 그 결과를 비교 분석하였다. 먼저, 국내 기록관리학 분야 학술지 2종과 문헌정보학 분야 학술지 4종의 발간일부터 2016년까지 게재된 모든논문의 논문명, 초록, 키워드 등을 자동수집하고 기록관리와 관련된 모든 논문을 추출하였다.
본 연구에서는 Python의 한국어 자연어처리 라이브러리인 Konlpy를 활용하여 문서집합에서 각 문서의 형태소분석 후 명사만 추출하였다. Konlpy 라이브러리는 Hannanum, Kkma, Komoran, Twitter, Mecab 5가지 형태소분석기를 제공하고 있다.
둘째, 수집된 데이터는 토픽모델링을 수행하는데 적합한 포맷으로 변경시키기 위해 형태소분석, 명사추출, 벡터화(Vectorization)과 같은 적절한 전처리 과정을 진행하였다. 셋째, 전처리 과정을 거친 데이터를 기반으로 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하고 LDAvis를 통해 각각 토픽모델링의 결과를 시각화하였다. 마지막으로 시각화를 통해 가시적 으로 표현된 토픽들간의 거리와 세부 대표 키워드를 비교·분석하여 국내 기록관리학 연구동향 분석에 두 토픽모델링 기법의 특징과 차이를 분석하였다.
이후 Gensim의 토픽모델링 함수에 전처리된 문서집합과 토픽수, 반복횟수(1,000회)를 입력하고 다른 인수들은 기본값으로 설정하여 LDA 토픽모 델링과 HDP 토픽모델링을 수행하였다. 수행된 결과는 Python의 토픽모델링 시각화 라이브러리인 LDAvis를 통해 각 토픽모델링 결과를 가시화하였다. LDAvis는 토픽모델링 결과를 html 형식의 파일로 제공하여 연구자가 웹브라우저를 통해 토픽모델링 결과를 쉽게 확인할 수 있다.
HDP 토픽모델링은 알고리즘 특성상 토픽 수를 설정할 필요가 없지만 본 연구에 서는 두 토픽모델링의 적절한 비교를 위해 HDP 토픽모델링도 LDA 토픽모델링과 동일한 토픽 수로 설정하여 분석을 진행하였다. 이후 Gensim의 토픽모델링 함수에 전처리된 문서집합과 토픽수, 반복횟수(1,000회)를 입력하고 다른 인수들은 기본값으로 설정하여 LDA 토픽모 델링과 HDP 토픽모델링을 수행하였다. 수행된 결과는 Python의 토픽모델링 시각화 라이브러리인 LDAvis를 통해 각 토픽모델링 결과를 가시화하였다.
전처리 과정을 통해 수집한 문서집합을 토픽모델링에 적합한 포맷으로 변환하면 동일한 문서집합을 대상으로 LDA 토픽모델링과 HDP 토픽모델링을 수행한다. 본 연구에서는 토픽모 델링을 수행하기 위해 Python에서 지원하는 Gensim 라이브러리를 활용하였다.
총 1,027건의 데이터를 수집하였고 형태소분석, 명사추출, 벡터화 등 적절한 전처리과정을 거쳤다. 전처리과정을 거친 문서집합은 토픽모델링에 적합한 포맷으로 변경한 후 LDA 토픽 모델링, HDP 토픽모델링을 각각 적용하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 각 토픽모델링 결과를 시각화하였다.
추출된 키워드 중 ‘연구’, ‘중심’, ‘분석’ 등 모든 논문에 공통으로 출연하는 어휘는 불용어로 간주, 토픽모델링 입력에서는 제거하여 처리하였다.
대상 데이터
본 연구에서 기록관리학 관련 학술지인 ‘한국기록관리학회지’, ‘기록학연구’ 2종과 문헌정 보학 관련 학술지인 ‘한국문헌정보학회지’, ‘한국도서관·정보학회지’, ‘한국비블리아학회지’, ‘정보관리학회지’ 4종으로, 총 6종의 국내학술지를 수집대상으로 선정하였다.
세부 기록 관리학 분야의 전문 학술지를 살펴보면 ‘한국기록관리학회지’는 발간연도인 2001년부터 2016년까지 339건의 논문을 수집하였고, ‘기록학연구’는 발간연도인 2000년부터 2016년까지 450건의 논문을 수집하였다.
“기록관리” 관련 연구는 주로 기록관리학 학술지에 많이 게재되지만 문헌정보학 학회지에서도 빈번히 게재되기 때문에 문헌정보학 학술지를 수집대상에 포함하였다. 수집기간은 각 학술지 발간일부터 2016년까지로 선정하였으며, 국내 학술DB 사이트인 DBPIA에서 논문명, 초록, 키워드, 논문 저자 등 학술지에 게재된 모든 논문의 정보들을 자동수집하였다. 자동수집은 프로그래밍 언어인 C#을 기반으로 DBPIA 웹사이트 수집 크롤러를 직접 구현하여 사용하였다.
본 연구에서 제안하는 국내 기록관리학 관련 연구동향 분석을 위한 토픽모델링 기법 적용및 비교는 <그림 4>와 같이 진행되었다. 첫째, 기록관리학 관련 연구가 활발하게 진행되고 있는 기록관리학 학술지와 문헌정보학 학술지를 수집대상으로 선정하여, 국내학술지 원문DB 사이트인 DBPIA에서 학술지 최초 발간일부터 2016년까지 등재된 논문을 자동 수집하였다. 둘째, 수집된 데이터는 토픽모델링을 수행하는데 적합한 포맷으로 변경시키기 위해 형태소분석, 명사추출, 벡터화(Vectorization)과 같은 적절한 전처리 과정을 진행하였다.
먼저, 국내 기록관리학 분야 학술지 2종과 문헌정보학 분야 학술지 4종의 발간일부터 2016년까지 게재된 모든논문의 논문명, 초록, 키워드 등을 자동수집하고 기록관리와 관련된 모든 논문을 추출하였다. 총 1,027건의 데이터를 수집하였고 형태소분석, 명사추출, 벡터화 등 적절한 전처리과정을 거쳤다. 전처리과정을 거친 문서집합은 토픽모델링에 적합한 포맷으로 변경한 후 LDA 토픽 모델링, HDP 토픽모델링을 각각 적용하였다.
데이터처리
은 본 연구의 실험집합의 통계를 나타낸 것으로, 전체 5,884건의 수집된 논문 중에서 기록관리학 관련 논문 1,027건을 대상으로 LDA 토픽모델링과 HDP 토픽모델링을 수행 하여 각 모델링의 차이와 장·단점을 비교 분석하였다.
이론/모형
이러한 처리는 문서 내 반복되는 단어가 많아져서 이후 토픽모델링을 실행할 때 각 토픽의 특수한 키워 드를 추출하기 어렵다. 따라서 본 연구의 형태소분석은 5가지 형태소분석기 중 복합명사를 적절하게 처리하는 Hannanum을 사용하여 진행하였다. 추출된 키워드 중 ‘연구’, ‘중심’, ‘분석’ 등 모든 논문에 공통으로 출연하는 어휘는 불용어로 간주, 토픽모델링 입력에서는 제거하여 처리하였다.
전처리 과정을 통해 수집한 문서집합을 토픽모델링에 적합한 포맷으로 변환하면 동일한 문서집합을 대상으로 LDA 토픽모델링과 HDP 토픽모델링을 수행한다. 본 연구에서는 토픽모 델링을 수행하기 위해 Python에서 지원하는 Gensim 라이브러리를 활용하였다. LDA 토픽 모델링은 사전에 적절한 토픽 수를 설정해야 한다.
성능/효과
LDA 토픽모델링과 HDP 토픽모델링을 수행한 결과, LDA 토픽모델링은 빈도수가 높은 키워드에 많은 영향을 받았으며 각 토픽의 특징을 파악하기 어려운 일반적인 키워드가 많았다. 시각화를 살펴보면 대부분의 토픽이 특정 부분에 과도하게 집중되어 있다.
Top-30 Most Salient Terms를 살펴보면 ②와 같이 “기록관리”, “기록”, “개발”, “아카이브” 와 같은 키워드가 다른 키워드에 비해 전체 토픽에서 상당히 높은 빈도수로 출현하고 있는 것을 확인할 수 있다.
각 결과를 종합적으로 살펴보면 먼저, LDA 토픽모델링은 “기록관리”, “기록”, “개발”, “아카이브”등과 같이 전체 문헌에서 빈도수가 높은 키워드의 영향을 많이 받았다.
각 토픽 내 “기록관리”, “기록”, “개발”, “아카이브”와 같이 빈도가 많은 키워드와 Top-30 Most Salient Terms에 포함된 키워드의 가중치가 높을수록 토픽 비율이 높은 것을 확인할 수 있다.
이와 같은 특징은 각 토픽의 주제 분석에 있어서 많은 영향을 미친다. <표 5>는 LDA와 HDP 토픽별 주요 주제를 정리한 것으로, 앞서 예시한 바와 같이 LDA 토픽모델링 결과에는 대부분 거시적 주제가, HDP는 LDA보다 세부적인 주제가 도출된 것을 확인할 수 있다.
또한 Kkma는 ‘대학특별사업단’을 복합명사로 적절히 처리하였으나 ‘대학’, ‘특별’, ‘사업단’등으로도 명사를 추출한 것을 확인할 수 있다.
LDAvis는 prevalence가 높은 순서로 토픽을 정렬하여 제공하고 있다. 또한 각 토픽 사이의 거리는 토픽 사이의 연관성을 나타내며 거리가 가까울수록 토픽들의 연관성이 높으며 거리가 멀수록 토픽들의 연관성이 낮다. <그림 3>의오른쪽 부분은 “Top-30 Most Salient Terms”과 “Top-30 Most Relevant Terms”기능을 제공하고 있다.
각 토픽의 상위 키워드들은 각 토픽의 고유한 특징을 파악할 수 있는 특수한 키워드가 주요 키워드로위치하고 있다. 또한 각 토픽의 비율을 살펴보면, Topic1이 12.3%로 전체 토픽에서 가장 높은 비율을 차지하고 있으며 이후 Topic2은 11.5%, Topic3은 11.1%, Topic4은 10.9%, Topic5는 10.6%, Topic6과 Topic7은 9.7% Topic8은 8.6%, Topic9는 8.5%, Topic10은 7.2% 순의 비율을 이루고 있다.
<표 3> 상위 10개 각 토픽의 비율을 살펴보면, Topic1은 12.7%로 전체 토픽에서 가장 높은 비율을 차지하고 있으며 이후 토픽 순서대로 11.4%, 11.2%, 10.7%, 10.6%, 9.7%, 9.2%, 9%, 7.9%, 7.6%의 비율을 보이고 있다. 각 토픽 내 “기록관리”, “기록”, “개발”, “아카이브”와 같이 빈도가 많은 키워드와 Top-30 Most Salient Terms에 포함된 키워드의 가중치가 높을수록 토픽 비율이 높은 것을 확인할 수 있다.
오른쪽 그림의 Top-30 Most Salient Terms를 살펴보면 HDP 토픽모델링은 “기록관리”, “기록”, “개발”, “아카이브”와 같이 전체 문서집합에서 단순히 빈도수만 높고 일반적인 의미를 가진 키워드보다 토픽의 특징과 주제를 파악할 수 있는 특수한 키워드가 높은 순위에 있는 것을 확인할 수 있다.
따라서 각 토픽들은 여러 토픽에 중복되어 나타나는 키워드보다 해당 토픽의 특징을 나타내는 특수한 키워드를 많이 가지고 있어야 명확한 연구 주제 영역을 구분할 수 있다. 이에 HDP 토픽모델링은 일반적인 키워드, 중복된 키워드가 적으며 각 토픽별로 특징을 분명하게 파악할 수 있는 키워드가 뚜렷하게 나타나기 때문에 세부적인 연구동향 분석을 하는데 있어 LDA 토픽모델링보다 더욱 효율적일 것으로 판단된다. 반면 LDA는 해당 분야에서 공통적으로 다루고 있는 주제 키워드 분석에 유리해 거시적인 연구동향 파악에 적합한 방법으로 볼 수 있다.
이에 각 형태소분석기의 분석결과를 살펴보면 Hannanum과 Kkma는 ‘대학 특별사업단’을 하나의 복합명사로 처리하였지만 Komoran, Twitter, Mecab은 이를 적절하게 처리하지 못한 것을 확인할 수 있다.
토픽 수를 너무 높게 설정하면 특별한 키워드가 없어 의미없는 토픽이 도출될 수 있으며 토픽 수를 적게 설정하면 한 토픽에 많은 키워드가 뭉쳐 토픽을 구분하기 어렵다. 이에 본 연구에서는 토픽 수를 5~20까지 설정한 후각각 토픽모델링을 수행한 결과, 토픽 수 10개가 각 토픽을 적절하게 표현하는 것을 확인할수 있었다. HDP 토픽모델링은 알고리즘 특성상 토픽 수를 설정할 필요가 없지만 본 연구에 서는 두 토픽모델링의 적절한 비교를 위해 HDP 토픽모델링도 LDA 토픽모델링과 동일한 토픽 수로 설정하여 분석을 진행하였다.
종합적으로 LDA 토픽모델링과 HDP 토픽모델링 기법을 비교해보면, LDA 토픽모델링은 사전에 이용자가 K, α, β값을 설정해줘야 하며 K값에 따라 토픽모델링 결과가 크게 달라지기 때문에 적절한 K값을 찾는 것이 중요하다.
토픽별 주요 주제를 종합적으로 살펴보면, 각 토픽별 키워드가 “전자기록”, “메타데이터”, “기록정보서비스”, “보존”등 대부분 기록관리학에서 주요 대주제로 사용하고 있는 키워드가 많기 때문에 각 토픽의 주제가 대부분 거시적인 것을 확인할 수 있다.
예를 들어, “공연예술기록”, “혁명역사기록물”, “무형문화유산”등과 같은 키워드는 최근 다양한 민간기록에 대한 기록화 연구가 진행되어지고 있는 것을 파악할 수 있다. 토픽별 주제를 종합적으로 살펴보면, HDP의 각 토픽의 주제가 LDA 보다 세부적인 의미로분석되어지는 것을 확인할 수 있다.
후속연구
본 연구는 토픽모델링을 활용한 분석에서 주로 사용되었던 LDA 토픽모델링을 보완한 기법으로 국내 연구에서는 자주 사용되지 않았던 HDP 토픽모델링을 적용하여 차이점을 도출한 것에 의의가 있다. 본 연구의 향후 연구 방향으로는 두 토픽모델링 기반으로 도출된 토픽 들에 대해 기록관리학에 관한 분류표, 기록관리학 분야 전문가의 조언 등을 통해 각 토픽에 대한 명칭과 주제를 정하여 연구동향을 심층적인 분석이 필요하며, 이후 시계열에 따른 토픽 모델링 분석으로 확장하여 시간에 따른 국내 기록관리학 연구 변화와 각 시기마다 관심이 집중된 주제, 관심이 멀어진 주제 등을 파악하는 연구가 진행될 수 있다.
각 토픽의 특징을 파악할 수 있는 고유한 키워드가 많으면 연구 주제 영역을 뚜렷하게 구분할 수 있으며 이를 통해 연구동향을 파악할 수 있다. 이에 HDP 토픽모델링은 LDA 토픽 모델링보다 세부 주제별 연구동향 분석을 하는데 더욱 효율적일 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
토픽모델링이란?
한편, 텍스트마이닝 기법 중 하나인 토픽모델링은 최근 많은 연구에서 활용되면서 관심이 높아지고 있다. 토픽모델링은 방대한 양의 문서로부터 주요 주제를 추출하고 각 주제에 대응 되는 문서를 식별하여 제공하는 방법이다(Blei, Ng and Jordan 2003). 토픽모델링 기법은 초기에 LSA(Latent Semantic Allocation), pLSA(Probablistic Latent Semantic Analysis) 등의 방법이 주로 활용되다가 이후 Blei, Ng and Jordan(2003)가 고안한 LDA(Latent Dirichlet Allocation)을 가장 널리 사용되고 있다.
LDA 토픽모델링과 HDP 토픽모델링 중 더 효율적인 방법은?
각 토픽의 특징을 파악할 수 있는 고유한 키워드가 많으면 연구 주제 영역을 뚜렷하게 구분할 수 있으며 이를 통해 연구동향을 파악할 수 있다. 이에 HDP 토픽모델링은 LDA 토픽 모델링보다 세부 주제별 연구동향 분석을 하는데 더욱 효율적일 것으로 판단된다.
토픽 모델링이 적합한 기법인 이유는?
토픽모델링은 방대한 양의 문서집합에서 주요 토픽을 추출하고 각 토픽에 대응되는 문서를 식별하여 제공한다. 토픽 모델링은 하나의 문서가 하나의 토픽으로만 할당되는 일반적인 군집화(clustering) 기법과 달리 하나의 문서가 여러 토픽에 동시에 대응될 수 있기 때문에 현실 세계의 모델링에 보다적합한 기법으로 평가받고 있다(김남규, 이동훈, 최호창 2017). 기존의 정성적 분석 방법의 한계점을 극복하고 대량의 문서집합에서 잠재된 토픽을 찾아내는 기법으로 각광받고 있다(서성훈 2016).
참고문헌 (27)
Choi, Yilang. 2015. A Study on the Research Trends of Archival Studies in Korea : Focused on Research Papers between 2004 and 2013. The Korean Journal of Archival Studies, 43, 147-177.
Gyu-Hwan Kim, Young-Joon Nam. 2009. A Study on the Research Trends of Records and Archives Management in Korea through an Analysis of Journal Articles. Journal of The Korean Society for Library and Information Science, 43(4): 217-239.
Gyu-Hwan Kim, Bo-Seong Jang, Hyun-Jung Yi. 2009. A Study on Intellectual Structure of Records Management and Archives in Korea : Based on Syntactic and Semantic Structure of Article Titles. Journal of The Korean Society for Library and Information Science, 43(3): 417-439.
Namgyu Kim, Donghoon Lee, Hochang Choi, Willam Xiu Shun Wong. 2017. Investigations on Techniques and Applications of Text Analytics. The Journal of Communications and Information Sciences, 42(2): 471-492.
Kim, Sang Kyoum. 2016. A Study on the Research Trends in Domestic Industrial Engineering using Topic Modeling. master's thesis, Seoul National University of Science and Technology, Seoul, Korea.
Seol A Jin, Min Song. 2016. Topic Modeling based Interdisoiplinarity Measurement in the Informatics Related Journals. Journal of the Korean Society for Information Management, 33(1): 7-32.
So-Young Yu. 2015. Combining Ego-centric Network Analysis and Dynamic Citation Network Analysis to Topic Modeling for Characterizing Research Trends. Journal of the Korean Society for Information Management, 32(1): 153-169.
TaeKyung Kim, HoeRyeon Choi, HongChul Lee. 2016. A Study on the Research Trends in Fintech using Topic Modeling. The Journal of Korea Academy Industrial Cooperation Society, 17(11): 670-681.
Jae-Yun Lee, Ju-Young Moon, Hee-Jung Kim. 2007. Examining the Intellectual Structure of Records Management & Archivial Science in Korea with Text Mining. Journal of The Korean Society for Library and Information Science, 41(1): 345-372.
Nahm, Choon-Ho. 2016. An Illustrative Application of Topic Modeling Method to a Farmer's Diary. Cross-Cultural Studies, 22(1): 89-135.
Sang-Tae Na, Joo-Eon Ahn, Min-Ho Jung, Ja-Hee Kim. 2017. Research Trend Analysis for Smart Grids Using Dynamic Topic Modeling. The transactions of The Korean Institute of Electrical Engineers, 66(4): 613-620.
Tea-Woo Nam, Jin-Young Lee. 2009. A Study on the Research Trends of Records and Archives Management in Korea. Journal of Korean Library and Information Science Society, 40(2): 451-472.
Ja-Hyun Park, Min Song. 2013. A Study on the Research Trends in Library & Infromation Science in Korea using Topic Modeling. Journal of the Korean Society for Information Management, 30(1): 7-32.
Park Ju Seop, Hong Soon-Goo, Kim Jong-Weon. 2017. A Study on Science Technology Trend and Prediction Using Topic Modeling. Journal of the Korea Industrial Information Systems Research, 22(4): 19-28.
Records Management & Archives Society Of Korea. 2013. Records & Archives Management. Seongnam: Asian cultural history.
Seo, Seong Hun. 2016. Fintech trend analysis using topic modeling of BM patents. master's thesis, Seoul National University of Science and Technology, Seoul, Korea.
Shin, Kyoo-Sik, Choi, Hoe-Ryeon, Lee, Hong-Chul. 2015. Topic Model Analysis of Research Trend on Renewable Energy. The Journal of Korea Academy Industrial Cooperation Society, 16(9): 6411-6418.
Hye In Sohn, Young Joon Nam. 2016. A Study on the Research Trends of Archives Management in Korea : Focused on the Journal of Records - Management & Archives Society of Korea and The Korean Journal of Archival Studies. Journal of Korea Society for Information Management, 33(1): 85-110.
Carson Sievert and Kenneth E. Shirley. 2014. LDAvis: A method for visualizing and interpreting topics. proceedings of workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland.
Chong Wang, John Paisley and David M. Blei. 2011. Online Variational Inference for the Hierarchical Dirichlet Process. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, FL.
David M. Blei. 2012. Provavilistic Topic Models. Communications of the ACM, 55(4): 77-84.
David M. Blei, Andrew Y. Ng and Michael I. Jordan. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3: 993-1022.
Gensim Home Page. [cited 2017. 9. 15].
Jason Chuang, Christopher D. Manning and Jeffrey Heer. 2012. Termite: Visualization Techniques for Assessing Textual Topic Models. Advanced Visual Interfaces, 12: 21-25.
Konlpy Home Page. [cited 2017. 9. 15].
Loet Leydesdorff and and Adina Nerghes. 2017. Co-word Maps and Topic Modeling: A Comparison Using Small and Medium-Sized Corpora (N<1,000). Journal of the Association for Information Science and Technology, 68(4): 1024-1035.
Teh, Yee Whye, Michael I. Jordan, Matthew J. Beal and David M. Blei. 2007. Hierarchical Dirichlet processes. Journal of the American Statistical Association,101(476): 1566-1581.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.