$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

머신러닝을 위한 베이지안 방법론: 군집분석을 중심으로 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.10, 2016년, pp.60 - 64  

김용대 (서울대학교) ,  정구환 (서울대학교)

초록
AI-Helper 아이콘AI-Helper

본고에서는 베이지안 기계학습 방법론에 대해서 간략히 살펴본다. 특히, 복잡한 자료들 사이의 관계를 규명하는 것이 목적이며 비지도학습(unsupervised learning)의 한 분야인 군집분석에서 베이지안 방법론들이 어떻게 사용되어지는지를 설명한다. 군집의 수를 사전에 아는 경우에 사용되는 모수적 베이지안 방법을 간단하게 설명하고, 군집의 수까지 추론 할 수 있는 비모수 베이지안방법에 대해서 자세하게 다룬다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본고에서는 군집분석을 위한 비모수 베이지안 방법 및 다양한 기계학습에서의 응용을 살펴보았다. 베이지안 방법의 가장 큰 장점은 군집의 수에 대한 추론이 가능하다는 것이며, 이는 여러 가지 기계학습 분야에서 매우 유용하게 사용될 수 있다.
  • 특히, 비모수 베이지안 방법을 사용하면 군집의 수 K에 대한 추론도 가능하여 새로운 군집의 생성이나 기존 군집의 소멸 등에 대해서도 추론이 가능하다는 매우 중요한 장점이 있다. 본고에서는 디리클레 과정을 이용하여 혼합모형의 추론을 하는 비모수 베이지안 방법에 대해서 살펴보고자 한다.
  • 본고에서는 혼합모형을 이용한 베이지안 군집분석에 대해 다룬다. 혼합모형이란 관측치 x의 분포가 K개의 분포의 혼합으로 주어진 모형을 지칭한다.
  • 이 둘은 자료의 무작위성을 바라보는 시각이 다르다. 빈도론은 자료를 생성하는 하나의 고정된 확률분포가 존재한다고 생각하기 때문에 이 분포를 정확하게 찾는 것을 궁극적인 목적이다. 반면에 베이지안은 자료를 생성하는 확률분포가 고정된 것이 아닌 랜덤이라고 생각하여 자료를 관측한 뒤 모수의 사후분포(posterior distribution)을 구하고, 이를 기반으로 의사결정을 한다.
  • 베이지안 방법은 Markov chain Monte Carlo(MCMC, [1]) 방법의 개발로 인하여 복잡한 구조를 갖는 모형에서 빈도론적 방법보다 쉽게 모수를 추론할 수 있는 장점이 있어서 현재 기계학습의 여러 분야에서 사용되어지고 있다. 특히, 자료들 사이의 복잡한 구조를 파악하는 것이 목표인 비지도학습 (unsupervised learning)에서 유용하게 사용되어지고 있는데, 본 논문에서는 비지도학습의 한 분야인 군집분석에서 베이지안 방법이 어떻게 사용되어지고 있는가에 대해서 간단히 살펴보고자 한다.

가설 설정

  • 관측치 xi(i = 1,...,n)는 모수가 θi인 확률분포 p(•|θi)에서 추출되고, θ1,...,θn은 디리클레 과정을 따르는 랜덤확률측도 P에서 추출된다고 가정하는 것이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
빈도론(Frequentism)과 베이지안(Bayesian)은 어떤 차이가 있는가? 통계학에는 빈도론(Frequentism)과 베이지안(Bayesian)이라는 두 개의 큰 패러다임이 있다. 이 둘은 자료의 무작위성을 바라보는 시각이 다르다. 빈도론은 자료를 생성하는 하나의 고정된 확률분포가 존재한다고 생각하기 때문에 이 분포를 정확하게 찾는 것을 궁극적인 목적이다. 반면에 베이지안은 자료를 생성하는 확률분포가 고정된 것이 아닌 랜덤이라고 생각하여 자료를 관측한 뒤 모수의 사후분포(posterior distribution)을 구하고, 이를 기반으로 의사결정을 한다.
통계학에는 어떤 패러다임들이 있는가? 통계학에는 빈도론(Frequentism)과 베이지안(Bayesian)이라는 두 개의 큰 패러다임이 있다. 이 둘은 자료의 무작위성을 바라보는 시각이 다르다.
베이지안 방법은 어떤 장점이 있는가? 베이지안 방법은 Markov chain Monte Carlo(MCMC, [1]) 방법의 개발로 인하여 복잡한 구조를 갖는 모형에서 빈도론적 방법보다 쉽게 모수를 추론할 수 있는 장점이 있어서 현재 기계학습의 여러 분야에서 사용되어지고 있다. 특히, 자료들 사이의 복잡한 구조를 파악하는 것이 목표인 비지도학습 (unsupervised learning)에서 유용하게 사용되어지고 있는데, 본 논문에서는 비지도학습의 한 분야인 군집분석에서 베이지안 방법이 어떻게 사용되어지고 있는가에 대해서 간단히 살펴보고자 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. Gelfand, Alan E., and Adrian FM Smith. "Samplingbased approaches to calculating marginal densities." Journal of the American statistical association 85.410 (1990): 398-409. 

  2. Ferguson, Thomas S. "A Bayesian analysis of some nonparametric problems." The annals of statistics (1973): 209-230. 

  3. Sethuraman, Jayaram. "A constructive definition of Dirichlet priors." Statistica sinica (1994): 639-650. 

  4. Escobar, Michael D., and Mike West. "Bayesian density estimation and inference using mixtures." Journal of the american statistical association 90.430 (1995): 577-588. 

  5. Blei, David M., and Michael I. Jordan. "Variational inference for Dirichlet process mixtures." Bayesian analysis 1.1 (2006): 121-144. 

  6. Gorur, Dilan. "Nonparametric Bayesian Discrete Latent Variable Models for Unsupervised Learning." (2007). 

  7. Xing, Eric P., Michael I. Jordan, and Roded Sharan. "Bayesian haplotype inference via the Dirichlet process." Journal of Computational Biology 14.3 (2007): 267-284. 

  8. Teh, Yee Whye, et al. "Hierarchical dirichlet processes." Journal of the american statistical association (2012). 

  9. Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." Journal of machine Learning research 3.Jan (2003): 993-1022. 

  10. Sudderth, Erik B., et al. "Describing visual scenes using transformed objects and parts." International Journal of Computer Vision 77.1-3 (2008): 291-330. 

  11. Pitman, Jim, and Marc Yor. "The two-parameter Poisson-Dirichlet distribution derived from a stable subordinator." The Annals of Probability (1997): 855-900. 

  12. Williamson, Sinead, Avinava Dubey, and Eric P. Xing. "Parallel Markov Chain Monte Carlo for Nonparametric Mixture Models." ICML (1). 2013. 

  13. Blei, David M., and John D. Lafferty. "Dynamic topic models." Proceedings of the 23rd international conference on Machine learning. ACM, 2006. 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로