[논문]단어 연관성 가중치를 적용한 연관 문서 추천 방법

김선미; 나인섭; 신주현

doi:10.9717/kmms.2019.22.2.250

단어 연관성 가중치를 적용한 연관 문서 추천 방법
A Method on Associated Document Recommendation with Word Correlation Weights 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.2, 2019년, pp.250 - 259

김선미 (Dept. of Software Convergence Engineering Chosun University) , 나인섭 (SW Convergence Education Institute, Chosun University) , 신주현 (Dept. of ICT Convergence, Chosun University)

Abstract ▼ AI-Helper

Big data processing technology and artificial intelligence (AI) are increasingly attracting attention. Natural language processing is an important research area of artificial intelligence. In this paper, we use Korean news articles to extract topic distributions in documents and word distribution vectors in topics through LDA-based Topic Modeling. Then, we use Word2vec to vector words, and generate a weight matrix to derive the relevance SCORE considering the semantic relationship between the words. We propose a way to recommend documents in order of high score.

주제어

표/그림 (14)

그림 Fig. 1. Graphical model representation of LDA.
그림 Fig. 2. Examples of (a) CBOW and (b) Skip-gram model configurations.
그림 Fig. 3. System configuration diagram.
그림 Fig. 4. Topic number and probability distribution.
표 Table 1. Topic distribution of documents
그림 Fig. 5. Probability distributions of top 15 words by topic (Utilizing Korean news articles in political categories provided by Naver).
표 Table 2. Example of a distance matrix (Utilizing Korean news articles in political categories provided by Naver)
그림 Fig. 6. Framework for Recommendation of Related Documents.
그림 Fig. 7. Procedure of extracting relevance score (Utilizing Korean news articles in political categories provided by Naver).
표 Table 3 The relevance score normalization results of the 'denuclearization' keyword
표 Table 4. Examples of articles by the range of relevance scores (Utilizing Korean news articles in political categories provided by Naver)
표 Table 5. Importance of words by the range of relevance scores (Utilizing Korean news articles in political categories provided by Naver)
표 Table 6. Comparison test results of the high relevance score range
표 Table 7. Comparison test results of the low relevance score range

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

가중치 행렬을 통해 사용자가 원하는 키워드와 문서집합 내 단어들의 의미적 연관성을 가중치로 부여하였고 키워드와 문서의 연관성을 SCORE로 수치화하였다. LDA는 확률 모델로 단어 간의 관계를 확률적으로 계산하지만 Word2vec을 이용해 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 의미적 검색을 가능하게 하였고 확률에 의존한 일반화의 한계를 극복할 수 있도록 했다. 의미적 모호성을 해소하여 문서 검색의 성능이 향상될 수 있고 사용자가 원하는 키워드와 가장 연관성이 높은 문서를 추천해주므로 사용자 맞춤형 정보를 제공할 수 있으며 같은 주제에서 각 키워드와 관련된 사건들을 파악하기 쉬워진다.
LDA 분석을 위한 작업으로 문서에 나타나는 단어를 행렬로 표현하는 TDM(Term Document Matrix)을 생성하여 단어가 문서에 몇 회 출현했는지 알 수 있다. TDM은 단어들의 단순 빈도수를 나타내기 때문에 빈도수가 적은 단어들은 중요도가 떨어지므로 어떤 단어가 특정 문서에서 얼마나 중요한지 나타내주는 TF-IDF 가중치를 부여하여 단어 별 TF-IDF 분포 값을 기준으로 TDM의 크기를 조절해 성능을향상시켜 LDA 기반 토픽 모델링을 수행하였다. 그 결과 ‘오늘’, ‘이번’, ‘관련’, ‘당시’와 같은 의미가 중요하지 않지만 자주 등장하는 단어를 제거할 수 있었다.
TF-IDF 가중치를 부여하여 LDA 기반 토픽 모델링을 수행하고 문서 내 주제 분포와 주제 내 단어 분포를 추출한다. Word2vec 학습을 통해 VectorSpacemodel을 구축하고 단어를 벡터화한 후 단어 간 의미적 유사도를 구해 거리 행렬(Distance matrix)을 생성한다.
가중치 행렬을 통해 사용자가 원하는 키워드와 문서집합 내 단어들의 의미적 연관성을 가중치로 부여하였고 키워드와 문서의 연관성을 SCORE로 수치화하였다. LDA는 확률 모델로 단어 간의 관계를 확률적으로 계산하지만 Word2vec을 이용해 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 의미적 검색을 가능하게 하였고 확률에 의존한 일반화의 한계를 극복할 수 있도록 했다.
단어의 의미와 문장에서의 맥락을 내포한 단어 간의 의미적 유사도를 가중치로 사용하였고 특정 키워드와 의미가 유사할수록 높은 가중치를 부여할 수 있다. 가중치가 적용된 키워드와 문서 내 단어들의 등장 유무를 통해 연관성 SCORE를 산출하였다. 연관성 SCORE를 통해 어떤 문서가 어떤 주제 내 특정 키워드와 얼마나 연관성이 있는지 수치화할 수 있게 되고 점수가 높은 순서대로 문서를 추천해준다.
거리 행렬에서 주제 내 키워드에 해당하는 부분만 추출해 가중치 행렬(Weight matrix)을 생성하여 단어 연관성 가중치를 적용해 키워드를 확장하고 DTM(Document Term Matrix) 행렬과 가중합을 통해 연관성 SCORE를 도출한다. 연관성 SCORE의 범위를 0부터 1구간으로 일치시키기 위하여 정규화 과정을 거친 후 연관성 SCORE 수치가 높은 순서대로 문서를 추천하는 방법을 제안한다.
키워드와 문서간의 연관성을 측정하여 문서의 랭킹을 매기기 위해 제안하는 방법과 기존 방법론을 통해 문서들에 대한 연관성을 도출하여 비교 실험을 진행한다. 검색 엔진에서 많이 사용되는 TF-IDF와LDA를 사용하였고 본 논문에서 제안하는 방법의 결과인 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에서 기존 방법론을 통해 키워드와 문서간의 연관성을 측정하였다. Table 6과 Table 7은 각 범위의 비교 실험에 대한 결과를 나타낸다.
서로 연관되어 있는 단어들이 군집을 형성하며 비슷한 공간에 위치하고 있으며 Word2vec 학습을 통해 단어를 벡터화 할 때 단어의 문맥적 의미를 보존하는 것을 알 수 있다. 단어 간의 유사도를 구하기 위해 단어를 벡터 값으로 표현한 수치를 cosine similarity를 이용해 계산하여 단어 벡터들 간의 거리를 측정하였다. 식 (1)은 벡터 A와 B의 cosine similarity를 구하는 계산식이다.
본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고Word2vec을 사용하여 단어 간 유사도를 구한다. 두 결과 값을 이용해 가중치 행렬을 생성하고 연관성 SCORE를 도출하여 수치가 높은 순서대로 문서를 추천한다. Fig.
사용자 관심문서의 키워드와 문서 집합 내 단어들의 의미 관계를 고려하기 위하여 Word2vec을 사용해 생성한 단어들 간의 유사도를 나타내는 거리 행렬에서 해당 주제의 키워드에 해당하는 부분만 추출하여 가중치 행렬로 사용하였고 문서와 단어의 관계를 빈도수로 나타내는 DTM을 생성하였다. 두 행렬의가중합을 통해 연관성 SCORE를 산출하였고 키워드와 문서간의 연관성을 파악할 수 있다. 가중합은 각각의 수에 가중치 값을 곱한 후 이 곱셈 결과들을 다시 합하는 계산 방식을 의미한다.
본 논문에서 제안하는 방법에 대한 성능을 평가하기 위해 TextRank 알고리즘을 사용하여 문서 내 단어의 중요도를 측정하였다[9-12]. 문서 내의 단어들을 정점(Node)로 선택하였고 두 단어의 연관성을 확률적으로 계산하는 PMI(Pointwise Mutual Information) 값을 간선(Edge)으로 지정했다. PMI 값이 클수록 두 단어의 연관성이 높다는 것을 의미한다[13].
본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 LDA 기반 토픽모델링을 통해 문서 내 주제 분포와 주제 내 단어 분포를 추출하고Word2vec을 사용하여 단어 간 유사도를 구한다. 두 결과 값을 이용해 가중치 행렬을 생성하고 연관성 SCORE를 도출하여 수치가 높은 순서대로 문서를 추천한다.
본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와주제 내 단어 분포를 추출하고 Word2vec을 이용해단어를 벡터화한 후 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한 다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안하였다.
본 논문에서는 키워드와 연관성이 높은 문서를 자동으로 분류하기 위해 한국어 뉴스 기사를 이용하여LDA 기반 토픽 모델링을 통해 문서 내 주제 분포와주제 내 단어 분포를 추출하고 Word2vec을 이용해단어를 벡터화한 후 가중치 행렬을 생성하여 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한 다음 점수가 높은 순서대로 문서를 추천하는 방법을 제안한다.
본 절에서는 문서의 주제 내 키워드에 해당하는 부분만 추출하여 가중치 행렬을 생성하고 단어 연관성 가중치를 적용해 연관성 SCORE를 도출한다. Fig.
사용자 관심문서의 키워드와 문서 집합 내 단어들의 의미 관계를 고려하기 위하여 Word2vec을 사용해 생성한 단어들 간의 유사도를 나타내는 거리 행렬에서 해당 주제의 키워드에 해당하는 부분만 추출하여 가중치 행렬로 사용하였고 문서와 단어의 관계를 빈도수로 나타내는 DTM을 생성하였다. 두 행렬의가중합을 통해 연관성 SCORE를 산출하였고 키워드와 문서간의 연관성을 파악할 수 있다.
거리 행렬에서 주제 내 키워드에 해당하는 부분만 추출해 가중치 행렬(Weight matrix)을 생성하여 단어 연관성 가중치를 적용해 키워드를 확장하고 DTM(Document Term Matrix) 행렬과 가중합을 통해 연관성 SCORE를 도출한다. 연관성 SCORE의 범위를 0부터 1구간으로 일치시키기 위하여 정규화 과정을 거친 후 연관성 SCORE 수치가 높은 순서대로 문서를 추천하는 방법을 제안한다.
전처리 작업을 거친 데이터를 Word2vec을 이용하여 200차원, 대용량 데이터에 성능이 좋은 Skipgram 방식으로 학습하였다. 학습 결과인 단어 벡터값들을 Vector Space Model로 구축했다.
Table 3은 ‘비핵화’ 키워드에 대한 연관성 SCORE 결과와 정규화 과정을 거친 연관성 SCORE 값을 비교한 것이다. 키워드 결과 값마다 서로 다른 연관성 SCORE 범위를 가지므로 범위를 0에서 1 구간으로 일치시키기 위하여 연관성 SCORE를 정규화하였다. 1에 가까울수록 연관성이 높은 문서이며 정규화 할 때 사용한 수식은 식 (3)과 같다.
키워드와 문서간의 연관성을 측정하여 문서의 랭킹을 매기기 위해 제안하는 방법과 기존 방법론을 통해 문서들에 대한 연관성을 도출하여 비교 실험을 진행한다. 검색 엔진에서 많이 사용되는 TF-IDF와LDA를 사용하였고 본 논문에서 제안하는 방법의 결과인 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에서 기존 방법론을 통해 키워드와 문서간의 연관성을 측정하였다.
잠재 디리클레 할당(Latent Dirichlet Alocation,LDA)은 토픽 모델링 기법 중 가장 주목 받고 있으며비 구조화된 대량의 문서 집합에서 잠재되어있는 주제(토픽)를 추출하여 숨겨진 의미 구조를 발견하기 위한 머신러닝 기법이다[6]. 특정 주제에 관련된 문서에서는 해당 주제에 대한 단어가 다른 단어들에 비해 더 자주 등장할 것이라는 개념을 바탕으로 하며 문서 내에 내포된 주제와 주제의 분포는 문서 내의 단어 통계를 수학적으로 분석하여 알아낸다. LDA는확률 모델로 여러 주제가 혼합된 문서를 다룰 수 있는 것을 장점으로 한다.
전처리 작업을 거친 데이터를 Word2vec을 이용하여 200차원, 대용량 데이터에 성능이 좋은 Skipgram 방식으로 학습하였다. 학습 결과인 단어 벡터값들을 Vector Space Model로 구축했다. 그 결과 의미적으로 유사한 단어들끼리 근접한 벡터 공간에서 위치하는 것을 확인할 수 있었다.

대상 데이터

LDA기반 토픽 모델링 결과 총 24,887개의 각각의 뉴스 기사 문서에 대한 주제 분포와 주제 내 단어분포 벡터를 추출할 수 있었다. 본 논문에서는 매개변수 K를 15으로 지정하였고 총 15개의 주제가 생성되었다. 15개의 주제에 따라 총 15개의 클러스터가 생성되었고 같은 클러스터 내에 있는 문서들은 서로동일한 주제 범위를 갖는다.
실험에 사용한 키워드는 ‘비핵화’로 선정했으며 제안하는 방법의 상위 연관성 SCORE 범위와 하위 연관성 SCORE 범위에 있는 기사들은 Table 4와 같다.
실험을 위한 데이터는 네이버(www.naver.com)에서 제공하는 정치 카테고리의 뉴스 기사로 선정해 Java 기반 환경에서 웹 크롤링하여 2018.07.01.부터 2018.07.31.까지 총 24,887개의 기사 내용을 수집해 .csv 파일로 저장하였다.

이론/모형

TF-IDF 가중치를 부여하여 LDA 기반 토픽 모델링을 수행하고 문서 내 주제 분포와 주제 내 단어 분포를 추출한다. Word2vec 학습을 통해 VectorSpacemodel을 구축하고 단어를 벡터화한 후 단어 간 의미적 유사도를 구해 거리 행렬(Distance matrix)을 생성한다.
본 논문에서 제안하는 방법에 대한 성능을 평가하기 위해 TextRank 알고리즘을 사용하여 문서 내 단어의 중요도를 측정하였다[9-12]. 문서 내의 단어들을 정점(Node)로 선택하였고 두 단어의 연관성을 확률적으로 계산하는 PMI(Pointwise Mutual Information) 값을 간선(Edge)으로 지정했다.
같은 단어라도 단어의 의미와 맥락에 따라 다른 벡터 공간에 학습될 수 있다는 것을 의미한다. 본 논문에서는 단어 벡터들 간의 거리를 코사인 유사도를 통해 계산하여 단어 간 의미적 유사도를 구하기 위해 Word2vec을 사용하였다.
각 문서들이 갖는 주제 θ를 확률적으로 나타내며 각 토픽에 해당하는 단어들의 확률 분포 z도 나타낼 수 있다. 본 논문에서는 문서 내 주제 분포와 주제 내 단어 분포를 추출하기 위하여 LDA를 사용하였다.

성능/효과

주제 내 단어들을 통해 LDA의 결과인 각 토픽이 어떤 주제 범위를 갖는지 판단할 수 있으며 서로 동일한 주제 범위를 가지는 문서끼리 클러스터링된다. LDA 기반 토픽 모델링을 통해 문서를 구조화하여 잠재되어있는 문서와 문서 내 단어 간의 관계를 파악할 수 있었다.
LDA기반 토픽 모델링 결과 총 24,887개의 각각의 뉴스 기사 문서에 대한 주제 분포와 주제 내 단어분포 벡터를 추출할 수 있었다. 본 논문에서는 매개변수 K를 15으로 지정하였고 총 15개의 주제가 생성되었다.
비교 실험 결과 TF-IDF는 연관성이 불규칙적으로 일치하지 않게 나타났다. LDA의 결과 범위는 0부터 1까지이며 제안하는 방법의 상위 연관성 SCORE 범위에서는 LDA 또한 범위 기준으로 높은 수치 값이 나타났지만 하위 연관성 SCORE 범위에서는 상위 연관성 SCORE와 유사한 값의 수치 결과가 나타난 것을 확인할 수 있었다.
그 결과 ‘오늘’, ‘이번’, ‘관련’, ‘당시’와 같은 의미가 중요하지 않지만 자주 등장하는 단어를 제거할 수 있었다.
학습 결과인 단어 벡터값들을 Vector Space Model로 구축했다. 그 결과 의미적으로 유사한 단어들끼리 근접한 벡터 공간에서 위치하는 것을 확인할 수 있었다. 서로 연관되어 있는 단어들이 군집을 형성하며 비슷한 공간에 위치하고 있으며 Word2vec 학습을 통해 단어를 벡터화 할 때 단어의 문맥적 의미를 보존하는 것을 알 수 있다.
‘비핵화’ 키워드와 연관성이 높은 ‘핵물질’은 높은 가중치가 부여되고 연관성이 낮은 ‘일자리’와 ‘폭염’은 낮은 가중치를 갖게 된다. 단어의 의미와 문장에서의 맥락을 내포한 단어 간의 의미적 유사도를 가중치로 사용하였고 특정 키워드와 의미가 유사할수록 높은 가중치를 부여할 수 있다. 가중치가 적용된 키워드와 문서 내 단어들의 등장 유무를 통해 연관성 SCORE를 산출하였다.
성능 평가 결과 ‘비핵화’ 키워드는 상위 연관성 SCORE에서 더 높은 중요도를 가졌으며 상위 연관성 SCORE 범위의 ‘트럼프’, ‘김정은’과 하위 연관성 SCORE 범위의 ‘종전’, ‘선언’과 같이 각 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었다. 본 논문에서 제안하는 단어 연관성 가중치를 적용한 연관성 SCORE에 따른 의미 기반 문서 추천의 적합성을 확인할 수 있었다.
비교 실험 결과 TF-IDF는 연관성이 불규칙적으로 일치하지 않게 나타났다. LDA의 결과 범위는 0부터 1까지이며 제안하는 방법의 상위 연관성 SCORE 범위에서는 LDA 또한 범위 기준으로 높은 수치 값이 나타났지만 하위 연관성 SCORE 범위에서는 상위 연관성 SCORE와 유사한 값의 수치 결과가 나타난 것을 확인할 수 있었다.
상위 연관성 SCORE와 하위 연관성 SCORE 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었으며 제안하는 방법의 적합성을 확인할 수 있었다. 비교실험을 통하여 기존 문서 랭킹 방법론인 TF-IDF와 LDA보다 더 효과적인 의미 기반 문서 추천이 가능하다는 것을 알 수 있었다.
연관성 SCORE를 통한 문서 추천 성능 평가 결과로 질의 키워드는 상위 연관성 SCORE 수치 값이 클수록 더 높은 중요도를 가졌다. 상위 연관성 SCORE와 하위 연관성 SCORE 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었으며 제안하는 방법의 적합성을 확인할 수 있었다. 비교실험을 통하여 기존 문서 랭킹 방법론인 TF-IDF와 LDA보다 더 효과적인 의미 기반 문서 추천이 가능하다는 것을 알 수 있었다.
성능 평가 결과 ‘비핵화’ 키워드는 상위 연관성 SCORE에서 더 높은 중요도를 가졌으며 상위 연관성 SCORE 범위의 ‘트럼프’, ‘김정은’과 하위 연관성 SCORE 범위의 ‘종전’, ‘선언’과 같이 각 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었다.
연관성 SCORE를 통한 문서 추천 성능 평가 결과로 질의 키워드는 상위 연관성 SCORE 수치 값이 클수록 더 높은 중요도를 가졌다. 상위 연관성 SCORE와 하위 연관성 SCORE 범위에서 중요도가 높은 키워드는 서로 낮은 중요도를 가지는 것 또한 알 수 있었으며 제안하는 방법의 적합성을 확인할 수 있었다.
제안하는 방법론을 통하여 문서를 검색할 때 여러 뜻을 가지고 있는 다의어와 모양이 달라도 의미는 같은 동음이의어를 처리하여 키워드를 확장할 수 있고 단어 간의 의미 관계를 고려한 의미 기반 문서검색이 가능해진다.
문장에서의 맥락이나 문맥상의 의미를 통해 단어 간의 관계를 고려하지 않고 TF-IDF는 단어 간의 관계를 단순 빈도수를 기반으로 계산하며 확률 모델인LDA는 확률적으로 계산하기 때문에 위와 같은 결과가 도출된 것으로 판단할 수 있다. 제안하는 방법은 단어의 문맥적 의미를 보존하여 키워드와 문서의 연관성 SCORE를 도출할 수 있으며 기존 방법론보다 더 효과적인 의미 기반 문서 추천이 가능하다는 것을 알 수 있었다.
X 좌표는 Topic 번호를 뜻하고 총 15개의 주제를 나타내며 Y 좌표는 15개 각 주제들에 대한문서들의 확률 값을 의미한다. 하나의 문서가 갖는 각 토픽에 대한 최대 확률 값으로 한 문서 내에 여러 토픽이 내포되어있으며 다양한 확률 분포 값을 가지는 것을 알 수 있다. 사용자 관심문서가 가장 높은 확률 분포를 가지는 주제를 선택하고 해당 주제의 주제어를 키워드로 지정한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	인공지능 관련 기술 분야에는 무엇이 있는가?	인공지능이란 기계가 사람과 유사한 지능을 가지도록 인간의 학습능력, 추론능력, 자연어 이해능력 등을 컴퓨터 프로그램으로 실현하는 기술이다. 인공지능 관련 기술 분야로는 패턴인식, 자연어 처리, 기계 학습(MachineLearning), 데이터마이닝, 시멘틱 웹, 지능 엔진 등이 있다. 데이터 분석 및 처리를 위한 핵심 기술들이 주로 해당되고 인공지능은 중요한 기반 기술로 자리 잡고 있으며 인공지능의 능력을 활용하여 더욱 가치 있는 분석 결과를 창출할 수 있다.
	자료/정보 습득 시 가장 많이 이용하는 방법 중 ‘뉴스’의 한계점은 무엇인가?	뉴스는 다양한 언론사를 통해 보도되고 넓고 방대한 정보 범위를 가지는 것을 특징으로 한다. 다양한 사건을 다루기 때문에 여러 주제를 내포하고 있으며 하나의 주제속에 매우 다양한 키워드로 이루어져 있으므로 사용자 맞춤형 정보를 제공하는데 한계가 있다.
	인공지능이란 무엇인가?	빅데이터의 등장으로 인공지능이 본격적으로 시장에 확대되기 시작했고 구글의 인공지능 ‘알파고’의 바둑 대전을 통해 사람들의 관심도높아졌다. 인공지능이란 기계가 사람과 유사한 지능을 가지도록 인간의 학습능력, 추론능력, 자연어 이해능력 등을 컴퓨터 프로그램으로 실현하는 기술이다. 인공지능 관련 기술 분야로는 패턴인식, 자연어 처리, 기계 학습(MachineLearning), 데이터마이닝, 시멘틱 웹, 지능 엔진 등이 있다.

참고문헌 (14)

J.Y. Kim, "Internet Search Engine : Technological Mode that Draws User's Attention to Make Its Expertise Reinforce," Journal of Science and Technology Studies, Vol. 13, No. 1, pp. 181-216, 2013.
J.Y. Oh and S.G. Park, "The Effects of Search Engine Credibility and Information Ranking on Search Behavior," Journal of Korean Society for J ournalism and Communication Studies, Vol. 53, No. 6, pp. 26-49, 2009.
G.J. Ham, "Semantic-based Document Retrieval Technology Trend," Journal of Korean Society of Mechanical Engineers, Vol. 55, No. 5, pp. 38-42, 2015.
R. Kwak, S. Kim, S. Lee, and B. Suh, "Intelligent Issues Tracking System : Exploring Relationship between Stock-specific Keywords and Stock Price," Proceedings of HCI KOREA, pp. 351-356, 2018.
M.S. Kim and G.Y. Hae, "XML Information Retrieval by Document Filtering and Query Expansion Based on Ontology," Journal of Korea Multimedia Society, Vol. 8, No. 5, pp. 596-605, 2005.
D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv preprint, arXiv:1301.3781, 2013.
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," Proceeding of International Conference on Neural Information Processing Systems, pp. 3111-3119, 2013.
L. Page, S. Brin, R. Motwani, and T. Winograd, ThePageRank Citation Ranking: Bringing Order to the Web, Stanford Digital Libraries Working Paper, 1998.
S. Brin and L. Page, "The Anatomy of a Large-scale Hypertextual Web Search Engine," Journal of Computer Networks and ISDN Systems, Vol. 33, pp. 107-117, 1988.
R. Mihalcea and P. Tarau, "TextRank: Brigning Order into Texts," Proceeding of EMNLP-04 and the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004.
J.Y. Son and Y.T. Shin, "Music Lyrics Summarization Method Using TextRank Algorithm," Journal of Korea Multimedia Society, Vol. 21, No. 1, pp. 45-50, 2015.
Turney and M. Littman, "Measuring Praise and Criticism: Inference of Semantic Orientation from Association," Proceedings of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, pp. 417-424, 2002.
S.M. Kim, Method of Related Document Recommendation Considering Semantic Relation between Words, Master's Thesis of Chosun University, 2019.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증