[논문]머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로

김용대; 정구환

머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.10, 2016년, pp.60 - 64

김용대 (서울대학교) , 정구환 (서울대학교)

초록
AI-Helper

본고에서는 베이지안 기계학습 방법론에 대해서 간략히 살펴본다. 특히, 복잡한 자료들 사이의 관계를 규명하는 것이 목적이며 비지도학습(unsupervised learning)의 한 분야인 군집분석에서 베이지안 방법론들이 어떻게 사용되어지는지를 설명한다. 군집의 수를 사전에 아는 경우에 사용되는 모수적 베이지안 방법을 간단하게 설명하고, 군집의 수까지 추론 할 수 있는 비모수 베이지안방법에 대해서 자세하게 다룬다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본고에서는 군집분석을 위한 비모수 베이지안 방법 및 다양한 기계학습에서의 응용을 살펴보았다. 베이지안 방법의 가장 큰 장점은 군집의 수에 대한 추론이 가능하다는 것이며, 이는 여러 가지 기계학습 분야에서 매우 유용하게 사용될 수 있다.
특히, 비모수 베이지안 방법을 사용하면 군집의 수 K에 대한 추론도 가능하여 새로운 군집의 생성이나 기존 군집의 소멸 등에 대해서도 추론이 가능하다는 매우 중요한 장점이 있다. 본고에서는 디리클레 과정을 이용하여 혼합모형의 추론을 하는 비모수 베이지안 방법에 대해서 살펴보고자 한다.
본고에서는 혼합모형을 이용한 베이지안 군집분석에 대해 다룬다. 혼합모형이란 관측치 x의 분포가 K개의 분포의 혼합으로 주어진 모형을 지칭한다.
이 둘은 자료의 무작위성을 바라보는 시각이 다르다. 빈도론은 자료를 생성하는 하나의 고정된 확률분포가 존재한다고 생각하기 때문에 이 분포를 정확하게 찾는 것을 궁극적인 목적이다. 반면에 베이지안은 자료를 생성하는 확률분포가 고정된 것이 아닌 랜덤이라고 생각하여 자료를 관측한 뒤 모수의 사후분포(posterior distribution)을 구하고, 이를 기반으로 의사결정을 한다.
베이지안 방법은 Markov chain Monte Carlo(MCMC, [1]) 방법의 개발로 인하여 복잡한 구조를 갖는 모형에서 빈도론적 방법보다 쉽게 모수를 추론할 수 있는 장점이 있어서 현재 기계학습의 여러 분야에서 사용되어지고 있다. 특히, 자료들 사이의 복잡한 구조를 파악하는 것이 목표인 비지도학습 (unsupervised learning)에서 유용하게 사용되어지고 있는데, 본 논문에서는 비지도학습의 한 분야인 군집분석에서 베이지안 방법이 어떻게 사용되어지고 있는가에 대해서 간단히 살펴보고자 한다.

가설 설정

관측치 xi(i = 1,...,n)는 모수가 θi인 확률분포 p(•|θi)에서 추출되고, θ1,...,θn은 디리클레 과정을 따르는 랜덤확률측도 P에서 추출된다고 가정하는 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빈도론(Frequentism)과 베이지안(Bayesian)은 어떤 차이가 있는가?	통계학에는 빈도론(Frequentism)과 베이지안(Bayesian)이라는 두 개의 큰 패러다임이 있다. 이 둘은 자료의 무작위성을 바라보는 시각이 다르다. 빈도론은 자료를 생성하는 하나의 고정된 확률분포가 존재한다고 생각하기 때문에 이 분포를 정확하게 찾는 것을 궁극적인 목적이다. 반면에 베이지안은 자료를 생성하는 확률분포가 고정된 것이 아닌 랜덤이라고 생각하여 자료를 관측한 뒤 모수의 사후분포(posterior distribution)을 구하고, 이를 기반으로 의사결정을 한다.
	통계학에는 어떤 패러다임들이 있는가?	통계학에는 빈도론(Frequentism)과 베이지안(Bayesian)이라는 두 개의 큰 패러다임이 있다. 이 둘은 자료의 무작위성을 바라보는 시각이 다르다.
	베이지안 방법은 어떤 장점이 있는가?	베이지안 방법은 Markov chain Monte Carlo(MCMC, [1]) 방법의 개발로 인하여 복잡한 구조를 갖는 모형에서 빈도론적 방법보다 쉽게 모수를 추론할 수 있는 장점이 있어서 현재 기계학습의 여러 분야에서 사용되어지고 있다. 특히, 자료들 사이의 복잡한 구조를 파악하는 것이 목표인 비지도학습 (unsupervised learning)에서 유용하게 사용되어지고 있는데, 본 논문에서는 비지도학습의 한 분야인 군집분석에서 베이지안 방법이 어떻게 사용되어지고 있는가에 대해서 간단히 살펴보고자 한다.

참고문헌 (13)

Gelfand, Alan E., and Adrian FM Smith. "Samplingbased approaches to calculating marginal densities." Journal of the American statistical association 85.410 (1990): 398-409.

상세보기
Ferguson, Thomas S. "A Bayesian analysis of some nonparametric problems." The annals of statistics (1973): 209-230.
Sethuraman, Jayaram. "A constructive definition of Dirichlet priors." Statistica sinica (1994): 639-650.
Escobar, Michael D., and Mike West. "Bayesian density estimation and inference using mixtures." Journal of the american statistical association 90.430 (1995): 577-588.

상세보기
Blei, David M., and Michael I. Jordan. "Variational inference for Dirichlet process mixtures." Bayesian analysis 1.1 (2006): 121-144.

상세보기
Gorur, Dilan. "Nonparametric Bayesian Discrete Latent Variable Models for Unsupervised Learning." (2007).
Xing, Eric P., Michael I. Jordan, and Roded Sharan. "Bayesian haplotype inference via the Dirichlet process." Journal of Computational Biology 14.3 (2007): 267-284.

상세보기
Teh, Yee Whye, et al. "Hierarchical dirichlet processes." Journal of the american statistical association (2012).
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." Journal of machine Learning research 3.Jan (2003): 993-1022.
Sudderth, Erik B., et al. "Describing visual scenes using transformed objects and parts." International Journal of Computer Vision 77.1-3 (2008): 291-330.

상세보기
Pitman, Jim, and Marc Yor. "The two-parameter Poisson-Dirichlet distribution derived from a stable subordinator." The Annals of Probability (1997): 855-900.
Williamson, Sinead, Avinava Dubey, and Eric P. Xing. "Parallel Markov Chain Monte Carlo for Nonparametric Mixture Models." ICML (1). 2013.
Blei, David M., and John D. Lafferty. "Dynamic topic models." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

이론/모형

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

이론/모형

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper