[논문]베이지안 공액 사전분포를 이용한 키워드 데이터 분석

전성해

doi:10.5392/jkca.2020.20.06.001

베이지안 공액 사전분포를 이용한 키워드 데이터 분석
Keyword Data Analysis Using Bayesian Conjugate Prior Distribution 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.20 no.6, 2020년, pp.1 - 8

초록
AI-Helper

빅데이터 분석에서 텍스트 데이터의 활용이 증가하고 있다. 따라서 텍스트 데이터의 분석 기법에 관한 많은 연구가 이루어지고 있다. 본 논문에서는 텍스트 데이터로부터 추출된 키워드 데이터의 분석을 위하여 공액사전분포 기반의 베이지안 학습 방법이 연구된다. 베이지안 통계학은 기존의 데이터에 새로운 데이터가 추가될 때마다 모수를 갱신하는 데이터 학습을 제공하기 때문에 시간에 따라 대용량의 데이터가 생성 및 추가되는 빅데이터 환경에서 효율적인 방법을 제공한다. 제안 방법의 성능과 적용 가능성을 보이기 위하여 실제 특허 빅데이터를 전처리하여 구축된 정형화된 키워드 데이터를 분석하는 사례연구를 수행한다.

Abstract ▼ AI-Helper

The use of text data in big data analytics has been increased. So, much research on methods for text data analysis has been performed. In this paper, we study Bayesian learning based on conjugate prior for analyzing keyword data extracted from text big data. Bayesian statistics provides learning process for updating parameters when new data is added to existing data. This is an efficient process in big data environment, because a large amount of data is created and added over time in big data platform. In order to show the performance and applicability of proposed method, we carry out a case study by analyzing the keyword data from real patent document data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구의 목적은 텍스트 빅데이터 환경에서 새로운 데이터가 지속적으로 추가될 때 기존의 데이터에 대한 정보와 새로운 데이터에 대한 정보를 분리하여 모형화함으로써 효율적인 키워드 분석을 수행하기 위한 방법을 개발하는 것이다. 2장에서는 키워드 데이터 분석과 관련된 기존 연구 및 제안 연구의 차별성을 알아본다.
본 논문에서는 텍스트 빅데이터로부터 추출된 키워드 데이터의 효율적인 분석을 위하여 공액 사전분포 기반의 베이지안 학습을 제안한다. 제안 방법은 새로운 데이터가 추가되기 전까지의 데이터를 분석한 모형의 결과를 유지한 상태에서 새로운 데이터에 기반한 모형결과와 결합하여 갱신된 최종 모형을 구축한다.
모든 단계의 학습을 마친 후 최종 사후분포로부터 θ의 기댓값을 구하고 이 결과를 이용하여 각 키워드의 향후 발생 가능성을 예측하게 된다. 본 연구는 공액 사전분포 기반의 베이지안 학습을 이용한 키워드 데이터 분석을 제안한다. 현재 빅데이터의 상당 부분은 텍스트 데이터로 이루어지기 때문에 제안 방법은 빅데이터 분석을 위한 다양한 분야에서 사용이 가능할 것이다.
이와 같은 반복된 사후분포의 갱신이 베이지안 학습(Bayesian learning)이다. 본 연구에서는 공액 사전분포에 기반한 베이지안 학습을 이용하여 키워드 데이터를 분석한다.
본 연구에서는 베이지안 학습을 이용한 키워드 데이터 분석을 제안하였다. 특허문서에 포함된 특정 키워드의 시간에 따른 단계별 발생 결과를 분석하기 위하여 베이지안 공액 사전분포를 이용하였다.
하지만 지금까지 연구되어진 키워드 데이터 분석은 새로운 텍스트 데이터가 추가될 때마다 기존의 데이터와 새로운 데이터를 모두 합친 후 전체 데이터를 다시 분석하여 갱신된 모형을 구축하였다. 이와 같은 문제점을 해결하기 위하여 본 논문에서 는 기존의 데이터로부터 구축된 모형은 그대로 유지하고 새로운 데이터만을 반영한 모형을 만들어 기존의 모형과 합쳐서 갱신된 모형을 구축하는 키워드 데이터 분석전략을 제안한다. 본 연구에서는 제안하는 공액(conjugate) 분포에 기반한 베이지안 키워드 분석 방법은 이전 데이터에 대한 모형의 정보는 사전분포(prior distribution)로 새롭게 관측된 데이터에 대한 정보는 우도함수(likelihood function)로 나타낸다.
본 사례 분석에서는 데이터의 관측 시점을 3개 단계로 구분하였지만, 실제 빅데이터 환경에서는 분석 시점이 무한히 커질수 있기 때문에 매번 이전 데이터를 포함한 전체 데이터를 분석하는 기존방법은 한계가 있게 된다. 이와 같은 한계를 극복하기 위하여 본 논문은 공액 사전분포 기반의 베이지안 학습을 이용한 키워드 데이터 분석을 제안하였다.

제안 방법

1단계를 기존의 데이터로 결정하고 2단계, 3단계의 데이터를 새롭게 추가되는 데이터로 사용하였다. 1단계의 데이터 분석 결과는 그대로 유지된 상태에서 2단계 데이터를 반영한 결과를 통하여 모형이 갱신되고 다시 2단계까지의 갱신된 모형이 유지된 상태에 3단계의 새로운 데이터를 반영하여 최종 분석모형을 구축하였다. 이 결과를 기반으로 θ의 기댓값을 이용하여 각 키워드의 발생확률을 예측할 수 있었다.
[표 1]의 결과를 이용하여 먼저 data와 learning 키워드에 대한 사전분포와 단계1의 사후분포를 계산하였다. θ에 대한 사전분포는 모수 와 가 각각 1인 베타분포를 사용하였다.
데이터에 주어졌을 때 특정 가설일 확률을 조건부 확률을 이용하여 계산한다. 식 (1)에서 모수 θ와 데이터 변수 x를 고려할 때 θ에 대한 사전분포를 f(θ)로 나타내고 θ가 주어진 상태에서 x가 관측될 우도함수를 f(x|θ)라 하면 x가 관측되었다는 조건 하에서 θ의 사후분포는 베이즈 정리에 의해 다음과 같이 정의된다[8].
모든 단계의 학습을 마친 후 최종 사후분포로부터 θ의 기댓값을 구하고 이 결과를 이용하여 각 키워드의 향후 발생 가능성을 예측하게 된다.
주어진 도메인에 대한 문서 빅데이터를 수집하게 되면 먼저 텍스트 마이닝(text mining)의 전처리 과정을 통하여 이진 데이터 형태로 이루어진 문서-키워드 행렬을 구축한다. 본 논문에서는 데이터의 전처리와 이후의 베이지안 학습을 위한 계산을 위하여 R 데이터 언어와 R이 제공하는 패키지를 사용한다[11-13]. 문서-키워드 행렬에서 분석에 사용될 관심 키워드를 선택하여 각 키워드에 대하여 시간에 따라 단계별로 데이터를 분할한다.
본 연구에서는 이들 중에서 AI에 많은 영향을 미치는 ‘data’ 와 ‘learning’ 키워드를 사용하였다.
분할된 단계별 데이터를 이용하여 키워드의 발생여부를 설명하는 모수(θ)에 대한 베이지안 학습을 적용하여 매 단계별 갱신된 사후분포를 구한다.
새로운 데이터가 추가될 때마다 기존의 데이터와 통합하여 전체 데이터를 다시 분석해야 하는 기존의 키워드 데이터 분석에 비하여 효율적인 빅데이터 분석이 가능하게 된다. 제안 방법은 베이지안 학습과 공액 사전분포와 우도함수를 이용한 사후분포의 생성 및 이를 이용한 키워드 데이텅의 분석 과정을 갖는다.
본 논문에서는 텍스트 빅데이터로부터 추출된 키워드 데이터의 효율적인 분석을 위하여 공액 사전분포 기반의 베이지안 학습을 제안한다. 제안 방법은 새로운 데이터가 추가되기 전까지의 데이터를 분석한 모형의 결과를 유지한 상태에서 새로운 데이터에 기반한 모형결과와 결합하여 갱신된 최종 모형을 구축한다. 새로운 데이터가 추가될 때마다 기존의 데이터와 통합하여 전체 데이터를 다시 분석해야 하는 기존의 키워드 데이터 분석에 비하여 효율적인 빅데이터 분석이 가능하게 된다.
제안 방법의 실제 적용을 보이기 위하여 본 논문에서 는AI 기술 관련 특허문서를 수집하여 분석하였다 [14][15]. 컴퓨터가 지능을 갖도록 하는 방법을 연구하는 AI 기술에 대한 특허 출원이 최근 활발히 이루어지고 있다[16].
사전분포와 우도함수를 곱하여 최종 갱신된 모형인 사후분포(posterior distribution)를 구한다. 최종적으로 사후분포를 이용하여 모수의 기댓값(expectation)을 계산하고 이 결과를 이용하여 전체 데이터에 대한 정보를 파악한다.
키워드 데이터 분석을 위하여 빅데이터 환경에서 텍스트 문서를 수집하고 전처리하여 [그림 1]과 같이 정형화된 데이터인 문서-키워드 행렬(document-keyword matrix)을 구축한다.
키워드 빈도 데이터를 발생 여부의 이진 데이터로 바꾸고 키워드 발생확률 θ를 추정하였다.
특허문서에 포함된 특정 키워드의 시간에 따른 단계별 발생 결과를 분석하기 위하여 베이지안 공액 사전분포를 이용하였다. 특허 데이터베이스로부터 검색된 AI 기술 관련 특허문서를 전처리하여 AI 기술 키워드를 추출하였다. 추출된 전체 키워드 중에서 data와 learning을 선정하였다.
본 연구에서는 베이지안 학습을 이용한 키워드 데이터 분석을 제안하였다. 특허문서에 포함된 특정 키워드의 시간에 따른 단계별 발생 결과를 분석하기 위하여 베이지안 공액 사전분포를 이용하였다. 특허 데이터베이스로부터 검색된 AI 기술 관련 특허문서를 전처리하여 AI 기술 키워드를 추출하였다.
특히 본 논문에서는 1983년부터 2019년까지의 출원, 등록된 AI 기술특허 문서를 시간에 따라 3개의 구간으로 나누어 각 단계별로 사후분포를 구하였다. 이전 단계의 사후분포가 현 단계에서 사전분포로 사용되는 베이지안 학습을 적용하였다.

대상 데이터

이전 단계의 사후분포가 현 단계에서 사전분포로 사용되는 베이지안 학습을 적용하였다. 1단계를 기존의 데이터로 결정하고 2단계, 3단계의 데이터를 새롭게 추가되는 데이터로 사용하였다. 1단계의 데이터 분석 결과는 그대로 유지된 상태에서 2단계 데이터를 반영한 결과를 통하여 모형이 갱신되고 다시 2단계까지의 갱신된 모형이 유지된 상태에 3단계의 새로운 데이터를 반영하여 최종 분석모형을 구축하였다.
기존의 키워드 데이터 분석을 위한 연구는 새로운 데이터 분석 기법에 대한 연구들이 대부분이었다. 공통적으로 키워드 데이터 분석모형을 구축하는 시점에 그때까지 수집된 빅데이터를 한꺼번에 이용하였다. 이와 같은 분석 전략은 새로운 데이터가 추가될 때마다 매번 전체 데이터를 분석해야 하기 때문에 매일 막대한 양의 새로운 데이터가 생성되는 빅데이터 환경에서는 효율적이지 않게 된다.
컴퓨터가 지능을 갖도록 하는 방법을 연구하는 AI 기술에 대한 특허 출원이 최근 활발히 이루어지고 있다[16]. 실험에 사용된 유효한 AI 기술특허는 1983년부터 2019년까지 출원, 등록된 16,874건 이었다. 특허문서에 대한 전처리 과정을 거쳐서 최종적으로 구축된 정형화된 많은 키워드를 포함하고 있다.
최초의 ‘Past’ 시점에서는 기존방법이나 제안방법이 모두 5,625 개의 관측된 데이터만을 분석하였다.

데이터처리

베타 공액 사전분포와 이항 우도함수를 이용하여 사후분포를 구하고 사후분포의 모수를 이용하여 θ의 기댓값을 계산하였다.

이론/모형

키워드 데이터 분석(keyword data analysis)은 문서 기반의 빅데이터로부터 전처리 과정을 통하여 구축된 정형화된 텍스트 데이터(structured text data)를 분석하여 의미 있는 패턴을 추출하는 과정이다[1-5]. 다양한 분야에서 키워드 데이터 분석을 위하여 통계학과 머신러닝에서 제공하는 데이터 분석기법을 사용한다. Kim et al.
따라서 본 연구에서는 각 키워드의 발생확률 정보를 가지고 있는 모수 θ를 추정하기 위하여 베이지안 학습을 사용한다.
특히 본 논문에서는 1983년부터 2019년까지의 출원, 등록된 AI 기술특허 문서를 시간에 따라 3개의 구간으로 나누어 각 단계별로 사후분포를 구하였다. 이전 단계의 사후분포가 현 단계에서 사전분포로 사용되는 베이지안 학습을 적용하였다. 1단계를 기존의 데이터로 결정하고 2단계, 3단계의 데이터를 새롭게 추가되는 데이터로 사용하였다.

성능/효과

단계별 사후분포 결과를 통하여 data의 θ값이 증가 하는 것을 알 수 있다.
현재 빅데이터의 상당 부분은 텍스트 데이터로 이루어지기 때문에 제안 방법은 빅데이터 분석을 위한 다양한 분야에서 사용이 가능할 것이다. 본 연구에서 제안하는 키워드 데이터 분석 방법을 사용하게 되면 이전의 데이터에 대한 정보는 별도의 분석 절차 없이 추가된 새로운 데이터의 분석 결과에 반영되어 즉각적인 빅데이터 분석 결과를 얻을 수 있게 된다. 제안 방법의 실제 적용을 보이기 위하여 다음 장에서는 특허 빅데이터를 이용한 사례 분석 결과를 제시한다.
이와 같은 문제점을 해결하기 위하여 본 논문에서 는 기존의 데이터로부터 구축된 모형은 그대로 유지하고 새로운 데이터만을 반영한 모형을 만들어 기존의 모형과 합쳐서 갱신된 모형을 구축하는 키워드 데이터 분석전략을 제안한다. 본 연구에서는 제안하는 공액(conjugate) 분포에 기반한 베이지안 키워드 분석 방법은 이전 데이터에 대한 모형의 정보는 사전분포(prior distribution)로 새롭게 관측된 데이터에 대한 정보는 우도함수(likelihood function)로 나타낸다. 사전분포와 우도함수를 곱하여 최종 갱신된 모형인 사후분포(posterior distribution)를 구한다.

후속연구

제안 방법은 공액 사전분포를 이용한 베이지안 학습을 이용하였지만 통계학과 머신러닝에서 제공하는 더 다양한 분석 기법들을 적용한 키워드 데이터 분석에 대한 추가적인 연구가 요구된다. 먼저 베이지안 통계학을 이용한 키워드 데이터 분석을 위한 향후 연구에서는 특정 공액 사전분포뿐만 아니라 마코프체인 몬테칼로 (Markov Chain Monte Carlo, MCMC)기법을 이용한 좀 더 일반화된 베이지안 학습 모형을 개발해야 하고 또한 베이지안 학습과 신경망 모형을 결합한 베이지안 신경망(Bayesian neural networks) 모형까지 확장이 가능하다. 향후 딥러닝까지 활용할 수 있는 키워드 데이터 분석 모형전략이 개발된다면 텍스트 빅데이터 분석 분야에 대하여 의미 있는 기여가 가능할 것으로 기대된다.
제안 방법은 공액 사전분포를 이용한 베이지안 학습을 이용하였지만 통계학과 머신러닝에서 제공하는 더 다양한 분석 기법들을 적용한 키워드 데이터 분석에 대한 추가적인 연구가 요구된다. 먼저 베이지안 통계학을 이용한 키워드 데이터 분석을 위한 향후 연구에서는 특정 공액 사전분포뿐만 아니라 마코프체인 몬테칼로 (Markov Chain Monte Carlo, MCMC)기법을 이용한 좀 더 일반화된 베이지안 학습 모형을 개발해야 하고 또한 베이지안 학습과 신경망 모형을 결합한 베이지안 신경망(Bayesian neural networks) 모형까지 확장이 가능하다.
먼저 베이지안 통계학을 이용한 키워드 데이터 분석을 위한 향후 연구에서는 특정 공액 사전분포뿐만 아니라 마코프체인 몬테칼로 (Markov Chain Monte Carlo, MCMC)기법을 이용한 좀 더 일반화된 베이지안 학습 모형을 개발해야 하고 또한 베이지안 학습과 신경망 모형을 결합한 베이지안 신경망(Bayesian neural networks) 모형까지 확장이 가능하다. 향후 딥러닝까지 활용할 수 있는 키워드 데이터 분석 모형전략이 개발된다면 텍스트 빅데이터 분석 분야에 대하여 의미 있는 기여가 가능할 것으로 기대된다.
본 연구는 공액 사전분포 기반의 베이지안 학습을 이용한 키워드 데이터 분석을 제안한다. 현재 빅데이터의 상당 부분은 텍스트 데이터로 이루어지기 때문에 제안 방법은 빅데이터 분석을 위한 다양한 분야에서 사용이 가능할 것이다. 본 연구에서 제안하는 키워드 데이터 분석 방법을 사용하게 되면 이전의 데이터에 대한 정보는 별도의 분석 절차 없이 추가된 새로운 데이터의 분석 결과에 반영되어 즉각적인 빅데이터 분석 결과를 얻을 수 있게 된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	베이지안 통계학의 장점은 무엇인가?	본 논문에서는 텍스트 데이터로부터 추출된 키워드 데이터의 분석을 위하여 공액사전분포 기반의 베이지안 학습 방법이 연구된다. 베이지안 통계학은 기존의 데이터에 새로운 데이터가 추가될 때마다 모수를 갱신하는 데이터 학습을 제공하기 때문에 시간에 따라 대용량의 데이터가 생성 및 추가되는 빅데이터 환경에서 효율적인 방법을 제공한다. 제안 방법의 성능과 적용 가능성을 보이기 위하여 실제 특허 빅데이터를 전처리하여 구축된 정형화된 키워드 데이터를 분석하는 사례연구를 수행한다.
	키워드 데이터 분석의 문제점은?	키워드 데이터 분석을 위한 기존의 연구들은 대부분 수집된 데이터 전체를 한 번의 모형 구축을 위하여 모두 사용하였다. 이와 같은 키워드 분석은 새로운 데이터가 추가될 때 기존의 데이터와 새로운 데이터를 합쳐서 다시 분석해야 하는 어려움이 있다. 특히 빅데이터 환경에서는 매일 막대한 양의 새로운 데이터가 생성되고 저장된다.
	키워드 데이터 분석(keyword data analysis)이란 무엇인가?	키워드 데이터 분석(keyword data analysis)은 문서 기반의 빅데이터로부터 전처리 과정을 통하여 구축된 정형화된 텍스트 데이터(structured text data)를 분석하여 의미 있는 패턴을 추출하는 과정이다[1-5]. 다양한 분야에서 키워드 데이터 분석을 위하여 통계학과 머신러닝에서 제공하는 데이터 분석기법을 사용한다.

참고문헌 (16)

C. Lesmeister, Mastering Machine Learning with R, second edition, Birmingham, UK, Packt, 2017.
J. M. Kim, J. Yoon, S. Y. Hwang, and S. Jun, "Patent Keyword Analysis Using Time Series and Copula Models," Applied Science, Vol.9, No.19, p.4071, 2019.

상세보기
D. Uhm, J. Ryu, and S. Jun, "An Interval Estimation Method of Patent Keyword Data for Sustainable Technology Forecasting," Sustainability, Vol.9, No.11, p.2025, 2017.

상세보기
S. Park and S. Jun, "Patent Keyword Analysis of Disaster Artificial Intelligence Using Bayesian Network Modeling and Factor Analysis," Sustainability, Vol.12, p.505, 2020.

상세보기
J. Kim, J. Ryu, S. Lee, and S. Jun, "Penalized Regression Models for Patent Keyword Analysis," Model Assisted Statistics and Applications-International Journal, Vol.12, pp.239-244, 2017.

상세보기
J. Huh, "Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach," Symmetry, Vol.10, No.4, p.93, 2018.

상세보기
A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari, and D. B. Rubin, Bayesian Data Analysis, Third Edition, Boca Raton, FL, Chapman & Hall/CRC Press, 2013.
J. K. Kruschke, Doing Bayesian Data Analysis, Second edition, Waltham, MA, Elsevier, 2015.
R. V. Hogg, J. M. McKean, and A. T. Craig, Introduction to Mathematical Statistics, 8th edition, Upper Saddle River, NJ, Pearson, 2018.
T. M. Donovan and R. M. Mickey, Bayesian Staistics for Beginners, Oxford, UK: Oxford University Press, 2019.
R Development Core Team, R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2019.
I. Feinerer, K. Hornik, and D. Meyer, "Text mining infrastructure in R," Journal of Statistical Software, Vol.25, No.5, pp.1-54, 2008.
I. Feinerer and K. Hornik, Package 'tm' Ver. 0.7-4, Text Mining Package, CRAN of R project, 2019.
USPTO, "The United States Patent and Trademark Office," http://www.uspto.gov, 2019.
WIPSON, "WIPS Corporation," http://www.wipson.com, 2019.
S. Russell and P. Norvig, Artificial Intelligence: A Modern Approach, Third Edition, Essex, UK: Pearson, 2014.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증