$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

국내 학술논문 주제 분류 알고리즘 비교 및 분석
Comparison and Analysis of Subject Classification for Domestic Research Data 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.18 no.8, 2018년, pp.178 - 186  

최원준 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ,  설재욱 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ,  정희석 (한국과학기술정보연구원 콘텐츠 큐레이션센터) ,  윤화묵 (한국과학기술정보연구원 콘텐츠 큐레이션센터)

초록
AI-Helper 아이콘AI-Helper

학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

Abstract AI-Helper 아이콘AI-Helper

Subject classification of thesis units is essential to serve scholarly information deliverables. However, to date, there is a journal-based topic classification, and there are not many article-level subject classification services. In the case of academic papers among domestic works, subject classif...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 국가 연구 성과물 중에 하나인 학술정보 메타데이터(OCEAN)를 활용한 주제 분류 알고리즘의 성능 테스트 및 비교를 해보았다. 실제 국가 논문성과물 데이터를 바탕으로 주제 분류를 시도했다는 점에서 본 논문에서는 의의가 있으며, 데이터의 특성과 목적에 맞게 분류 알고리즘을 사용해야 한다는 것을 확인할 수 있었다.
  • LSA는 코퍼스를 가지고 문서들의 유사도를 계산하지만 LDA는 토픽 집단을 생성하는 것이 다른 점이다. 본 논문에서는 논문 단위의 주제 분류를 위해 주제 분류로 많이 활용되는 주제 분류 알고리즘을 비교해 보고 성능을 평가해 보고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
LDA 토픽 모델링의 특징은 무엇인가? 국내 기록 관리학 연구 분야[3]에서는 HDP 토픽 모델링과 LDA 토픽 모델링을 응용한 결과를 비교 분석하였다. LDA 토픽 모델링의 경우 전체 토픽이 과도하게 특정 부분에 집중되어 있지 않고 일부 소 영역을 이루며 고르게 분포되어 각 토픽의 특징을 파악할 수 있는 고유한 키워드가 많으면 연구 주제영역을 뚜렷하게 구분할 수 있다. HDP 토픽모델링은 세부 주제별 연구 동향 분석을 하는 데에도 효율적으로 알려져 있다.
토픽 모델링의 결과를 평가하는 Perplexity방법은 어떻게 이루어 지는가? 토픽 모델링의 결과를 평가하는 방법은 내재적인 것(Intrinsic)과 외재적인 것(Extrinsic)으로 나뉘는데 내재적인 기법 중 고전적인 방법이 Perplexity(혼란도)이며, Perplexity의 한계를 극복하기 위해 제시된 Topic Coherence가 있다. 대게 깁스샘플링 과정에서 반복횟수가 증가할수록 Perplexity는 감소하는 경향을 나타낸다. 그러다가 특정 시점을 지나면 더 이상 Perplexity는 감소하지 않고 증가, 감소를 반복하며 요동치는 지점이 등장하는데 이때를 해당 깁스 샘플링의 수렴 지점으로 보고 샘플링을 멈추는 경우가 많다. 그리고 이때의 Perplexity가 해당 모델의 최종 Perplexity가 된다. 이 값이 작으면 작을수록 해당 토픽 모델은 실제 문헌 결과를 잘 반영한다는 뜻이므로 학습이 잘 되었다고 평가를 할 수 있다. 이 값은 LDA 등에서 적절한 주제 개수를 정하기 어려울 때 유용하게 쓰인다.
pLSA는 무엇을 말하는가? 잠재 의미 분석(Latent Semantic Analysis) 는 압축된 행렬에서 함축된 의미를 도출해낼 때 사용된다. pLSA(Probabilistic Latent Semantic Analysis)는 문헌-용어 행렬을 문헌 내에 특정 용어가 등장한 횟수를 기반으로 하는 것이 아니라, 문헌 내에 특정 용어가 등장할 확률을 기반으로 해서 구축하는 것이다. 따라서 행렬 내에 음수도 사용하는 SVD를 사용하지 못하며 대신 음수 미포함 행렬 분해 기법이나 기대값 최대 기법 등을 활용한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. 김무철, "과학기술용어 간 관계 도출을 위한 토픽분석 연구," 한국전자거래학회지, 제21권, 제1호, pp.119-129, 2016. 

  2. 배덕호, 엄태환, 윤석호, 박정, 김상욱, "LDA를 이용한 논문 유사도 계산 방안의 성능 평가," 한국통신학회 학술대회논문집, pp.356-357, 2013. 

  3. 박준형, 오효정, "국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교," 한국도서관.정보학회지, 제48권, 제4호, pp.235-258, 2017. 

  4. 서경희, 이민수, 오상윤, "Spark 를 사용한 LDA 기반의 비정형 의료 데이터의 토픽 분석," 한국통신학회 학술대회논문집, pp.61-63, 2016. 

  5. 문병주, 송주의, 임현근, 정일품, "Hybrid-LDA 기반의 평가위원 추천시스템," 한국통신학회 학술대회논문집, pp.1051-1052, 2016. 

  6. 조태민, 이지형, "LDA 모델을 이용한 잠재 키워드 추출," 한국지능시스템학회 논문지, 제25권, 제2호, pp.180-185, 2015. 

  7. 심준식, 김형중, "LDA 토픽 모델링을 활용한 판례 검색 및 분류 방법," 전자공학회논문지, 제54권, 제9호, pp.67-75, 2017. 

  8. 정병문, 김태환, 이진, 김정선, "LDA 모델을 이용한 트위터 토픽 추출 및 토픽 카테고리 판단," 한국정보과학회 학술발표논문집, pp.787-788, 2015. 

  9. 봉성용, 황규백, "Labeled LDA를 이용한 저자 주제어 추천," 한국정보과학회 학술발표논문집, Vol.37(1C), pp.385-389, 2010. 

  10. 표신지, 김은회, 김문철, "토픽 모델링을 이용한 유사 시청 사용자 그룹핑 및 TV 프로그램 추천 알고리듬," 한국방송미디어공학회 학술발표대회논문집, pp.116-119, 2012. 

  11. 박자현, 송민, "토픽모델링을 활용한 국내 문헌정보학 연구동향 분석," 정보관리학회지, 제30권, 제1호, pp.7-32, 2013. 

  12. L. Zheng, Z. Caiming, and C. Caixian, "MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation," Expert Systems with Applications, Vol.104, pp.168-184, 2018. 

  13. B. Cao, J. Liu, Y. Wen, H. Li, Q. Xiao, and J. Chen, "QoS-aware service recommendation based on relational topic model and factorization machines for IoT Mashup applications," Journal of Parallel and Distributed Computing, 2018. 

  14. Y. Papanikolaou and G. Tsoumakas, Subset Labeled LDA for Large-Scale Multi-Label Classification (2017, September 16), arXiv.org. 

  15. M. Pavlinek and V. Podgorelec, "Text classification method based on self-training and LDA topic models," Expert Systems with Applications, Vol.80, pp.83-93, 2017. http://doi.org/10.1016/j.eswa.2017.03.020 

  16. M. Rani, A. K. Dhar, and O. P. Vyas, "Semi-automatic terminology ontology learning based on topic modeling," Engineering Applications of Artificial Intelligence, Vol.63, pp.108-125, 2017. http://doi.org/10.1016/j.engappai.2017.05.006 

  17. 곽창욱, 김선중, 박성배, 김권양, "무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장," 정보과학회 컴퓨팅의 실제 논문지, 제22권, 제9호, pp.461-466, 2016. 

  18. 이호경, 양선, 고영중, "비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장," 정보과학회논문지, 제43권, 제9호, pp.1008-1014, 2016. 

  19. https://radimrehurek.com/gensim/ 

LOADING...

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로