$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

단어 연관성 가중치를 적용한 연관 문서 추천 방법
A Method on Associated Document Recommendation with Word Correlation Weights 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.2, 2019년, pp.250 - 259  

김선미 (Dept. of Software Convergence Engineering Chosun University) ,  나인섭 (SW Convergence Education Institute, Chosun University) ,  신주현 (Dept. of ICT Convergence, Chosun University)

Abstract AI-Helper 아이콘AI-Helper

Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution ve...

주제어

표/그림 (14)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 가중치 행렬을 통해 사용자가 원하는 키워드와 문서집합 내 단어들의 의미적 연관성을 가중치로 부여하였고 키워드와 문서의 연관성을 SCORE로 수치화하였다. LDA는 확률 모델로 단어 간의 관계를 확률적으로 계산하지만 Word2vec을 이용해 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 의미적 검색을 가능하게 하였고 확률에 의존한 일반화의 한계를 극복할 수 있도록 했다. 의미적 모호성을 해소하여 문서 검색의 성능이 향상될 수 있고 사용자가 원하는 키워드와 가장 연관성이 높은 문서를 추천해주므로 사용자 맞춤형 정보를 제공할 수 있으며 같은 주제에서 각 키워드와 관련된 사건들을 파악하기 쉬워진다.
  • LDA 분석을 위한 작업으로 문서에 나타나는 단어를 행렬로 표현하는 TDM(Term Document Matrix)을 생성하여 단어가 문서에 몇 회 출현했는지 알 수 있다. TDM은 단어들의 단순 빈도수를 나타내기 때문에 빈도수가 적은 단어들은 중요도가 떨어지므로 어떤 단어가 특정 문서에서 얼마나 중요한지 나타내주는 TF-IDF 가중치를 부여하여 단어 별 TF-IDF 분포 값을 기준으로 TDM의 크기를 조절해 성능을향상시켜 LDA 기반 토픽 모델링을 수행하였다. 그 결과 ‘오늘’, ‘이번’, ‘관련’, ‘당시’와 같은 의미가 중요하지 않지만 자주 등장하는 단어를 제거할 수 있었다.
  • TF-IDF 가중치를 부여하여 LDA 기반 토픽 모델링을 수행하고 문서 내 주제 분포와 주제 내 단어 분포를 추출한다. Word2vec 학습을 통해 VectorSpacemodel을 구축하고 단어를 벡터화한 후 단어 간 의미적 유사도를 구해 거리 행렬(Distance matrix)을 생성한다.
  • 가중치 행렬을 통해 사용자가 원하는 키워드와 문서집합 내 단어들의 의미적 연관성을 가중치로 부여하였고 키워드와 문서의 연관성을 SCORE로 수치화하였다. LDA는 확률 모델로 단어 간의 관계를 확률적으로 계산하지만 Word2vec을 이용해 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 의미적 검색을 가능하게 하였고 확률에 의존한 일반화의 한계를 극복할 수 있도록 했다.
  • 단어의 의미와 문장에서의 맥락을 내포한 단어 간의 의미적 유사도를 가중치로 사용하였고 특정 키워드와 의미가 유사할수록 높은 가중치를 부여할 수 있다. 가중치가 적용된 키워드와 문서 내 단어들의 등장 유무를 통해 연관성 SCORE를 산출하였다. 연관성 SCORE를 통해 어떤 문서가 어떤 주제 내 특정 키워드와 얼마나 연관성이 있는지 수치화할 수 있게 되고 점수가 높은 순서대로 문서를 추천해준다.
  • 거리 행렬에서 주제 내 키워드에 해당하는 부분만 추출해 가중치 행렬(Weight matrix)을 생성하여 단어 연관성 가중치를 적용해 키워드를 확장하고 DTM(Document Term Matrix) 행렬과 가중합을 통해 연관성 SCORE를 도출한다. 연관성 SCORE의 범위를 0부터 1구간으로 일치시키기 위하여 정규화 과정을 거친 후 연관성 SCORE 수치가 높은 순서대로 문서를 추천하는 방법을 제안한다.
  • 키워드와 문서간의 연관성을 측정하여 문서의 랭킹을 매기기 위해 제안하는 방법과 기존 방법론을 통해 문서들에 대한 연관성을 도출하여 비교 실험을 진행한다. 검색 엔진에서 많이 사용되는 TF-IDF와LDA를 사용하였고 본 논문에서 제안하는 방법의 결과인 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에서 기존 방법론을 통해 키워드와 문서간의 연관성을 측정하였다. Table 6과 Table 7은 각 범위의 비교 실험에 대한 결과를 나타낸다.
  • 서로 연관되어 있는 단어들이 군집을 형성하며 비슷한 공간에 위치하고 있으며 Word2vec 학습을 통해 단어를 벡터화 할 때 단어의 문맥적 의미를 보존하는 것을 알 수 있다. 단어 간의 유사도를 구하기 위해 단어를 벡터 값으로 표현한 수치를 cosine similarity를 이용해 계산하여 단어 벡터들 간의 거리를 측정하였다. 식 (1)은 벡터 A와 B의 cosine similarity를 구하는 계산식이다.
  • 본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고Word2vec을 사용하여 단어 간 유사도를 구한다. 두 결과 값을 이용해 가중치 행렬을 생성하고 연관성 SCORE를 도출하여 수치가 높은 순서대로 문서를 추천한다. Fig.
  • 사용자 관심문서의 키워드와 문서 집합 내 단어들의 의미 관계를 고려하기 위하여 Word2vec을 사용해 생성한 단어들 간의 유사도를 나타내는 거리 행렬에서 해당 주제의 키워드에 해당하는 부분만 추출하여 가중치 행렬로 사용하였고 문서와 단어의 관계를 빈도수로 나타내는 DTM을 생성하였다. 두 행렬의가중합을 통해 연관성 SCORE를 산출하였고 키워드와 문서간의 연관성을 파악할 수 있다. 가중합은 각각의 수에 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합하는 계산 방식을 의미한다.
  • 본 논문에서 제안하는 방법에 대한 성능을 평가하기 위해 TextRank 알고리즘을 사용하여 문서 내 단어의 중요도를 측정하였다[9-12]. 문서 내의 단어들을 정점(Node)로 선택하였고 두 단어의 연관성을 확률적으로 계산하는 PMI(Pointwise Mutual Information) 값을 간선(Edge)으로 지정했다. PMI 값이 클수록 두 단어의 연관성이 높다는 것을 의미한다[13].
  • 본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고Word2vec을 사용하여 단어 간 유사도를 구한다. 두 결과 값을 이용해 가중치 행렬을 생성하고 연관성 SCORE를 도출하여 수치가 높은 순서대로 문서를 추천한다.
  • 본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와주제 내 단어 분포를 추출하고 Word2vec을 이용해단어를 벡터화한 후 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한 다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안하였다.
  • 본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와주제 내 단어 분포를 추출하고 Word2vec을 이용해단어를 벡터화한 후 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한 다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안한다.
  • 본 절에서는 문서의 주제 내 키워드에 해당하는 부분만 추출하여 가중치 행렬을 생성하고 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한다. Fig.
  • 사용자 관심문서의 키워드와 문서 집합 내 단어들의 의미 관계를 고려하기 위하여 Word2vec을 사용해 생성한 단어들 간의 유사도를 나타내는 거리 행렬에서 해당 주제의 키워드에 해당하는 부분만 추출하여 가중치 행렬로 사용하였고 문서와 단어의 관계를 빈도수로 나타내는 DTM을 생성하였다. 두 행렬의가중합을 통해 연관성 SCORE를 산출하였고 키워드와 문서간의 연관성을 파악할 수 있다.
  • 거리 행렬에서 주제 내 키워드에 해당하는 부분만 추출해 가중치 행렬(Weight matrix)을 생성하여 단어 연관성 가중치를 적용해 키워드를 확장하고 DTM(Document Term Matrix) 행렬과 가중합을 통해 연관성 SCORE를 도출한다. 연관성 SCORE의 범위를 0부터 1구간으로 일치시키기 위하여 정규화 과정을 거친 후 연관성 SCORE 수치가 높은 순서대로 문서를 추천하는 방법을 제안한다.
  • 전처리 작업을 거친 데이터를 Word2vec을 이용하여 200차원, 대용량 데이터에 성능이 좋은 Skipgram 방식으로 학습하였다. 학습 결과인 단어 벡터값들을 Vector Space Model로 구축했다.
  • Table 3은 ‘비핵화’ 키워드에 대한 연관성 SCORE 결과와 정규화 과정을 거친 연관성 SCORE 값을 비교한 것이다. 키워드 결과 값마다 서로 다른 연관성 SCORE 범위를 가지므로 범위를 0에서 1 구간으로 일치시키기 위하여 연관성 SCORE를 정규화하였다. 1에 가까울수록 연관성이 높은 문서이며 정규화 할 때 사용한 수식은 식 (3)과 같다.
  • 키워드와 문서간의 연관성을 측정하여 문서의 랭킹을 매기기 위해 제안하는 방법과 기존 방법론을 통해 문서들에 대한 연관성을 도출하여 비교 실험을 진행한다. 검색 엔진에서 많이 사용되는 TF-IDF와LDA를 사용하였고 본 논문에서 제안하는 방법의 결과인 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에서 기존 방법론을 통해 키워드와 문서간의 연관성을 측정하였다.
  • 잠재 디리클레 할당(Latent Dirichlet Alocation,LDA)은 토픽 모델링 기법 중 가장 주목 받고 있으며비 구조화된 대량의 문서 집합에서 잠재되어있는 주제(토픽)를 추출하여 숨겨진 의미 구조를 발견하기 위한 머신러닝 기법이다[6]. 특정 주제에 관련된 문서에서는 해당 주제에 대한 단어가 다른 단어들에 비해 더 자주 등장할 것이라는 개념을 바탕으로 하며 문서 내에 내포된 주제와 주제의 분포는 문서 내의 단어 통계를 수학적으로 분석하여 알아낸다. LDA는확률 모델로 여러 주제가 혼합된 문서를 다룰 수 있는 것을 장점으로 한다.
  • 전처리 작업을 거친 데이터를 Word2vec을 이용하여 200차원, 대용량 데이터에 성능이 좋은 Skipgram 방식으로 학습하였다. 학습 결과인 단어 벡터값들을 Vector Space Model로 구축했다. 그 결과 의미적으로 유사한 단어들끼리 근접한 벡터 공간에서 위치하는 것을 확인할 수 있었다.

대상 데이터

  • LDA기반 토픽 모델링 결과 총 24,887개의 각각의 뉴스 기사 문서에 대한 주제 분포와 주제 내 단어분포 벡터를 추출할 수 있었다. 본 논문에서는 매개변수 K를 15으로 지정하였고 총 15개의 주제가 생성되었다. 15개의 주제에 따라 총 15개의 클러스터가 생성되었고 같은 클러스터 내에 있는 문서들은 서로동일한 주제 범위를 갖는다.
  • 실험에 사용한 키워드는 ‘비핵화’로 선정했으며 제안하는 방법의 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에 있는 기사들은 Table 4와 같다.
  • 실험을 위한 데이터는 네이버(www.naver.com)에서 제공하는 정치 카테고리의 뉴스 기사로 선정해 Java 기반 환경에서 웹 크롤링하여 2018.07.01.부터 2018.07.31.까지 총 24,887개의 기사 내용을 수집해 .csv 파일로 저장하였다.

이론/모형

  • TF-IDF 가중치를 부여하여 LDA 기반 토픽 모델링을 수행하고 문서 내 주제 분포와 주제 내 단어 분포를 추출한다. Word2vec 학습을 통해 VectorSpacemodel을 구축하고 단어를 벡터화한 후 단어 간 의미적 유사도를 구해 거리 행렬(Distance matrix)을 생성한다.
  • 본 논문에서 제안하는 방법에 대한 성능을 평가하기 위해 TextRank 알고리즘을 사용하여 문서 내 단어의 중요도를 측정하였다[9-12]. 문서 내의 단어들을 정점(Node)로 선택하였고 두 단어의 연관성을 확률적으로 계산하는 PMI(Pointwise Mutual Information) 값을 간선(Edge)으로 지정했다.
  • 같은 단어라도 단어의 의미와 맥락에 따라 다른 벡터 공간에 학습될 수 있다는 것을 의미한다. 본 논문에서는 단어 벡터들 간의 거리를 코사인 유사도를 통해 계산하여 단어 간 의미적 유사도를 구하기 위해 Word2vec을 사용하였다.
  • 각 문서들이 갖는 주제 θ를 확률적으로 나타내며 각 토픽에 해당하는 단어들의 확률 분포 z도 나타낼 수 있다. 본 논문에서는 문서 내 주제 분포와 주제 내 단어 분포를 추출하기 위하여 LDA를 사용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
인공지능 관련 기술 분야에는 무엇이 있는가? 인공지능이란 기계가 사람과 유사한 지능을 가지도록 인간의 학습능력, 추론능력, 자연어 이해능력 등을 컴퓨터 프로그램으로 실현하는 기술이다. 인공지능 관련 기술 분야로는 패턴인식, 자연어 처리, 기계 학습(MachineLearning), 데이터마이닝, 시멘틱 웹, 지능 엔진 등이 있다. 데이터 분석 및 처리를 위한 핵심 기술들이 주로 해당되고 인공지능은 중요한 기반 기술로 자리 잡고 있으며 인공지능의 능력을 활용하여 더욱 가치 있는 분석 결과를 창출할 수 있다.
자료/정보 습득 시 가장 많이 이용하는 방법 중 ‘뉴스’의 한계점은 무엇인가? 뉴스는 다양한 언론사를 통해 보도되고 넓고 방대한 정보 범위를 가지는 것을 특징으로 한다. 다양한 사건을 다루기 때문에 여러 주제를 내포하고 있으며 하나의 주제속에 매우 다양한 키워드로 이루어져 있으므로 사용자 맞춤형 정보를 제공하는데 한계가 있다.
인공지능이란 무엇인가? 빅데이터의 등장으로 인공지능이 본격적으로 시장에 확대되기 시작했고 구글의 인공지능 ‘알파고’의 바둑 대전을 통해 사람들의 관심도높아졌다. 인공지능이란 기계가 사람과 유사한 지능을 가지도록 인간의 학습능력, 추론능력, 자연어 이해능력 등을 컴퓨터 프로그램으로 실현하는 기술이다. 인공지능 관련 기술 분야로는 패턴인식, 자연어 처리, 기계 학습(MachineLearning), 데이터마이닝, 시멘틱 웹, 지능 엔진 등이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. J.Y. Kim, "Internet Search Engine : Technological Mode that Draws User's Attention to Make Its Expertise Reinforce," Journal of Science and Technology Studies, Vol. 13, No. 1, pp. 181-216, 2013. 

  2. J.Y. Oh and S.G. Park, "The Effects of Search Engine Credibility and Information Ranking on Search Behavior," Journal of Korean Society for J ournalism and Communication Studies, Vol. 53, No. 6, pp. 26-49, 2009. 

  3. G.J. Ham, "Semantic-based Document Retrieval Technology Trend," Journal of Korean Society of Mechanical Engineers, Vol. 55, No. 5, pp. 38-42, 2015. 

  4. R. Kwak, S. Kim, S. Lee, and B. Suh, "Intelligent Issues Tracking System : Exploring Relationship between Stock-specific Keywords and Stock Price," Proceedings of HCI KOREA, pp. 351-356, 2018. 

  5. M.S. Kim and G.Y. Hae, "XML Information Retrieval by Document Filtering and Query Expansion Based on Ontology," Journal of Korea Multimedia Society, Vol. 8, No. 5, pp. 596-605, 2005. 

  6. D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003. 

  7. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv preprint, arXiv:1301.3781, 2013. 

  8. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," Proceeding of International Conference on Neural Information Processing Systems, pp. 3111-3119, 2013. 

  9. L. Page, S. Brin, R. Motwani, and T. Winograd, ThePageRank Citation Ranking: Bringing Order to the Web, Stanford Digital Libraries Working Paper, 1998. 

  10. S. Brin and L. Page, "The Anatomy of a Large-scale Hypertextual Web Search Engine," Journal of Computer Networks and ISDN Systems, Vol. 33, pp. 107-117, 1988. 

  11. R. Mihalcea and P. Tarau, "TextRank: Brigning Order into Texts," Proceeding of EMNLP-04 and the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004. 

  12. J.Y. Son and Y.T. Shin, "Music Lyrics Summarization Method Using TextRank Algorithm," Journal of Korea Multimedia Society, Vol. 21, No. 1, pp. 45-50, 2015. 

  13. Turney and M. Littman, "Measuring Praise and Criticism: Inference of Semantic Orientation from Association," Proceedings of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, pp. 417-424, 2002. 

  14. S.M. Kim, Method of Related Document Recommendation Considering Semantic Relation between Words, Master's Thesis of Chosun University, 2019. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로