$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 -
Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP 원문보기

한국도서관 정보학회지 = Journal of Korean Library and Information Science Society, v.48 no.4, 2017년, pp.235 - 258  

박준형 (전북대학교 일반대학원 기록관리학과) ,  오효정 (전북대학교 기록관리학과, 문화융복합 아카이빙연구소)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstl...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 토픽모델링을 활용한 분석에서 주로 사용되었던 LDA 토픽모델링을 보완한 기법으로 국내 연구에서는 자주 사용되지 않았던 HDP 토픽모델링을 적용하여 차이점을 도출한 것에 의의가 있다. 본 연구의 향후 연구 방향으로는 두 토픽모델링 기반으로 도출된 토픽 들에 대해 기록관리학에 관한 분류표, 기록관리학 분야 전문가의 조언 등을 통해 각 토픽에 대한 명칭과 주제를 정하여 연구동향을 심층적인 분석이 필요하며, 이후 시계열에 따른 토픽 모델링 분석으로 확장하여 시간에 따른 국내 기록관리학 연구 변화와 각 시기마다 관심이 집중된 주제, 관심이 멀어진 주제 등을 파악하는 연구가 진행될 수 있다.
  • 기존의 정성적 분석 방법의 한계점을 극복하고 대량의 문서집합에서 잠재된 토픽을 찾아내는 기법으로 각광받고 있다(서성훈 2016). 본 절에서는 최근 각광받고 있는 LDA 토픽모델과 이를 변형한 방법인 HDP 모델링 방법에 대해 살펴보도록 한다.
  • 이러한 맥락에서 본 연구에서는 국내 기록관리학의 연구동향을 분석하기 위해 LDA 토픽 모델링과 이를 변형한 HDP 토픽모델링을 적용하고자 한다. 이를 위해서는 먼저 LDA와 HDP 토픽모델링 기법을 비교하여 그 특성을 파악하는 것이 선행되어야 한다.
  • 이를 위해서는 먼저 LDA와 HDP 토픽모델링 기법을 비교하여 그 특성을 파악하는 것이 선행되어야 한다. 특정 분야의 연구동향을 분석하는데 어떤 기법이 더 효과적인지 파악하기 위해 본 연구에서는 기록관리학분야 학술지 2종과 문헌정보학 분야 학술지 4종을 중심으로 국내 기록관리학 관련 논문을 수집하고, LDA 토픽모델링과 HDP 토픽모델링을 각각 수행한 후, 두 토픽모델링의 결과를 비교함으로써 시사점을 도출하고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
토픽모델링이란? 한편, 텍스트마이닝 기법 중 하나인 토픽모델링은 최근 많은 연구에서 활용되면서 관심이 높아지고 있다. 토픽모델링은 방대한 양의 문서로부터 주요 주제를 추출하고 각 주제에 대응 되는 문서를 식별하여 제공하는 방법이다(Blei, Ng and Jordan 2003). 토픽모델링 기법은 초기에 LSA(Latent Semantic Allocation), pLSA(Probablistic Latent Semantic Analysis) 등의 방법이 주로 활용되다가 이후 Blei, Ng and Jordan(2003)가 고안한 LDA(Latent Dirichlet Allocation)을 가장 널리 사용되고 있다.
LDA 토픽모델링과 HDP 토픽모델링 중 더 효율적인 방법은? 각 토픽의 특징을 파악할 수 있는 고유한 키워드가 많으면 연구 주제 영역을 뚜렷하게 구분할 수 있으며 이를 통해 연구동향을 파악할 수 있다. 이에 HDP 토픽모델링은 LDA 토픽 모델링보다 세부 주제별 연구동향 분석을 하는데 더욱 효율적일 것으로 판단된다.
토픽 모델링이 적합한 기법인 이유는? 토픽모델링은 방대한 양의 문서집합에서 주요 토픽을 추출하고 각 토픽에 대응되는 문서를 식별하여 제공한다. 토픽 모델링은 하나의 문서가 하나의 토픽으로만 할당되는 일반적인 군집화(clustering) 기법과 달리 하나의 문서가 여러 토픽에 동시에 대응될 수 있기 때문에 현실 세계의 모델링에 보다적합한 기법으로 평가받고 있다(김남규, 이동훈, 최호창 2017). 기존의 정성적 분석 방법의 한계점을 극복하고 대량의 문서집합에서 잠재된 토픽을 찾아내는 기법으로 각광받고 있다(서성훈 2016).
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. Choi, Yilang. 2015. A Study on the Research Trends of Archival Studies in Korea : Focused on Research Papers between 2004 and 2013. The Korean Journal of Archival Studies, 43, 147-177. 

  2. Gyu-Hwan Kim, Young-Joon Nam. 2009. A Study on the Research Trends of Records and Archives Management in Korea through an Analysis of Journal Articles. Journal of The Korean Society for Library and Information Science, 43(4): 217-239. 

  3. Gyu-Hwan Kim, Bo-Seong Jang, Hyun-Jung Yi. 2009. A Study on Intellectual Structure of Records Management and Archives in Korea : Based on Syntactic and Semantic Structure of Article Titles. Journal of The Korean Society for Library and Information Science, 43(3): 417-439. 

  4. Namgyu Kim, Donghoon Lee, Hochang Choi, Willam Xiu Shun Wong. 2017. Investigations on Techniques and Applications of Text Analytics. The Journal of Communications and Information Sciences, 42(2): 471-492. 

  5. Kim, Sang Kyoum. 2016. A Study on the Research Trends in Domestic Industrial Engineering using Topic Modeling. master's thesis, Seoul National University of Science and Technology, Seoul, Korea. 

  6. Seol A Jin, Min Song. 2016. Topic Modeling based Interdisoiplinarity Measurement in the Informatics Related Journals. Journal of the Korean Society for Information Management, 33(1): 7-32. 

  7. So-Young Yu. 2015. Combining Ego-centric Network Analysis and Dynamic Citation Network Analysis to Topic Modeling for Characterizing Research Trends. Journal of the Korean Society for Information Management, 32(1): 153-169. 

  8. TaeKyung Kim, HoeRyeon Choi, HongChul Lee. 2016. A Study on the Research Trends in Fintech using Topic Modeling. The Journal of Korea Academy Industrial Cooperation Society, 17(11): 670-681. 

  9. Jae-Yun Lee, Ju-Young Moon, Hee-Jung Kim. 2007. Examining the Intellectual Structure of Records Management & Archivial Science in Korea with Text Mining. Journal of The Korean Society for Library and Information Science, 41(1): 345-372. 

  10. Nahm, Choon-Ho. 2016. An Illustrative Application of Topic Modeling Method to a Farmer's Diary. Cross-Cultural Studies, 22(1): 89-135. 

  11. Sang-Tae Na, Joo-Eon Ahn, Min-Ho Jung, Ja-Hee Kim. 2017. Research Trend Analysis for Smart Grids Using Dynamic Topic Modeling. The transactions of The Korean Institute of Electrical Engineers, 66(4): 613-620. 

  12. Tea-Woo Nam, Jin-Young Lee. 2009. A Study on the Research Trends of Records and Archives Management in Korea. Journal of Korean Library and Information Science Society, 40(2): 451-472. 

  13. Ja-Hyun Park, Min Song. 2013. A Study on the Research Trends in Library & Infromation Science in Korea using Topic Modeling. Journal of the Korean Society for Information Management, 30(1): 7-32. 

  14. Park Ju Seop, Hong Soon-Goo, Kim Jong-Weon. 2017. A Study on Science Technology Trend and Prediction Using Topic Modeling. Journal of the Korea Industrial Information Systems Research, 22(4): 19-28. 

  15. Records Management & Archives Society Of Korea. 2013. Records & Archives Management. Seongnam: Asian cultural history. 

  16. Seo, Seong Hun. 2016. Fintech trend analysis using topic modeling of BM patents. master's thesis, Seoul National University of Science and Technology, Seoul, Korea. 

  17. Shin, Kyoo-Sik, Choi, Hoe-Ryeon, Lee, Hong-Chul. 2015. Topic Model Analysis of Research Trend on Renewable Energy. The Journal of Korea Academy Industrial Cooperation Society, 16(9): 6411-6418. 

  18. Hye In Sohn, Young Joon Nam. 2016. A Study on the Research Trends of Archives Management in Korea : Focused on the Journal of Records - Management & Archives Society of Korea and The Korean Journal of Archival Studies. Journal of Korea Society for Information Management, 33(1): 85-110. 

  19. Carson Sievert and Kenneth E. Shirley. 2014. LDAvis: A method for visualizing and interpreting topics. proceedings of workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland. 

  20. Chong Wang, John Paisley and David M. Blei. 2011. Online Variational Inference for the Hierarchical Dirichlet Process. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, FL. 

  21. David M. Blei. 2012. Provavilistic Topic Models. Communications of the ACM, 55(4): 77-84. 

  22. David M. Blei, Andrew Y. Ng and Michael I. Jordan. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3: 993-1022. 

  23. Gensim Home Page. [cited 2017. 9. 15]. 

  24. Jason Chuang, Christopher D. Manning and Jeffrey Heer. 2012. Termite: Visualization Techniques for Assessing Textual Topic Models. Advanced Visual Interfaces, 12: 21-25. 

  25. Konlpy Home Page. [cited 2017. 9. 15]. 

  26. Loet Leydesdorff and and Adina Nerghes. 2017. Co-word Maps and Topic Modeling: A Comparison Using Small and Medium-Sized Corpora (N<1,000). Journal of the Association for Information Science and Technology, 68(4): 1024-1035. 

  27. Teh, Yee Whye, Michael I. Jordan, Matthew J. Beal and David M. Blei. 2007. Hierarchical Dirichlet processes. Journal of the American Statistical Association,101(476): 1566-1581. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로