[논문]기계학습 및 딥러닝 기술동향

문성은; 장수범; 이정혁; 이종석

기계학습 및 딥러닝 기술동향 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.10, 2016년, pp.49 - 56

문성은 (연세대학교) , 장수범 (연세대학교) , 이정혁 (연세대학교) , 이종석 (연세대학교)

초록
AI-Helper

본 논문에서는 패턴 인식 및 회귀 문제를 풀기 위해 쓰이는 기계학습에 대한 전반적인 이론과 설계방법에 대해 알아본다. 대표적인 기계학습 방법인 신경회로망과 기저벡터머신 등에 대해 소개하고 이러한 기계학습 모델을 선택하고 구축하는 데에 있어 고려해야 하는 문제점들에 대해 이야기 한다. 그리고 특징 추출 과정이 기계학습 모델의 성능에 어떻게 영향을 미치는지, 일반적으로 특징 추출을 위해 어떤 방법들이 사용되는 지에 대해 알아본다. 또한, 최근 새로운 패러다임으로 대두되고 있는 딥러닝에 대해 소개한다. 자가인코더, 제한볼츠만기계, 컨볼루션신경회로망, 회귀신경회로망과 같이 딥러닝 기술이 적용된 대표적인 신경망 구조에 대해 설명하고 기존의 기계학습 모델과 비교하여 딥러닝이 가지고 있는 특장점을 알아본다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기계학습에 대한 전반적인 내용을 설명하고 특히 최근 많은 주목을 받고 있는 딥러닝에 대해 소개했다. 기존의 기계학습은 여러 가지 모형들인 신경회로망, 기저벡터머신, PCA 등의 여러 가지 기법들이 다양하게 연구되고 이용되었다.
특히, 예전에는 기계학습이 많이 사용되지 않았던 자연과학 분야 등에서도 기계학습을 도입하려는 움직임이 나타나면서 기계학습은 인공지능이나 패턴 인식 등에 쓰이는 것을 넘어서 매우 범용적인 기술이 되었다. 본 논문에서는 기존의 기계학습 모델들과 그 한계, 그리고 딥러닝의 개념과 그 가능성에 대해 간략하게 다루며 최근 기계학습이 이루어낸 발전에 대해 살펴본다.

제안 방법

하지만 <그림 1>에서 알 수 있듯이 색만으로는 오렌지와 자몽을 만족스럽게 구분해 낼 수 없었다. 가게주인은 다시 관찰을 통해 일반적으로 오렌지가 크기가 더 작다는 사실을 알아내고, 이 것을 기준으로 가지고 있는 과일들을 나누어 보았다. 크기로 오렌지와 자몽을 구분한 결과<그림 2>, 색을 사용했을 때보다 만족스러운 결과를 얻을 수 있었다.

이론/모형

제한볼츠만기계[17]<그림 8>는 확률적으로 0 또는 1의 값을 가지는 은닉 유닛을 둔 이후, 은닉 유닛이 내는 출력 값의 확률분포를 기반으로 학습된다. 이 학습은 입력 유닛과 은닉 유닛의 결합확률 분포의 값을 최대화 시키는 방향으로 이루어지는데, 이 과정에서 대조 확산법(contrast divergence)[17]을 이용하여 계산량을 줄이게 된다.

성능/효과

첫째로, universal approximation theorem에 의거하여 하나의 은닉 신경층 만으로도 좋은 성능을 얻어내고 있었다. 둘째로, 신경층의 수를 섣불리 늘렸을 때에 늘어나는 가중치의 수를 감당할 수 없었다. 셋째로, 가중치의 수가 많아졌을 때에 발생하는 과도학습 및 소위 curse of dimensionality의 위험성이 있었다.
둘째로, 신경층의 수를 섣불리 늘렸을 때에 늘어나는 가중치의 수를 감당할 수 없었다. 셋째로, 가중치의 수가 많아졌을 때에 발생하는 과도학습 및 소위 curse of dimensionality의 위험성이 있었다. 이러한 문제들 때문에 신경층의 수를 늘릴 필요성이 대두되지 않았으나, 계산 성능, 데이터량의 증가와 알고리즘의 발달로 이러한 접근의 효용성이 밝혀지게 되었다.
풀링 신경층은 몇 개의 출력 값들을 요약하여서 데이터의 크기를 줄이는 역할을 하며, 이 과정에서 입력 데이터의 잡음이나 왜곡을 해소하는 효과를 얻을 수 있다. 정류선형유닛은 램프 함수의 활성을 가지는 비선형 뉴런으로, 기존에 신경회로망 등에서 쓰이던 시그모이드(sigmoid) 함수가 가지고 있던 계산 부담 및 역전파 알고리즘에서의 기울기 사라짐 현상을 동시에 해결하는 효과를 가진다.
기존의 기계학습에서 다수의 신경층을 이용하는 접근은 다음의 세 가지의 문제로 인해 실질적으로는 널리 쓰이지 않았다. 첫째로, universal approximation theorem에 의거하여 하나의 은닉 신경층 만으로도 좋은 성능을 얻어내고 있었다. 둘째로, 신경층의 수를 섣불리 늘렸을 때에 늘어나는 가중치의 수를 감당할 수 없었다.
크기로 오렌지와 자몽을 구분한 결과, 색을 사용했을 때보다 만족스러운 결과를 얻을 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	확률 밀도 분포를 추정함으로써 기계학습을 수행하는 방법에는 무엇이 있는가?	결정경계를 찾는 신경회로망이나 기저벡터머신과 달리, 각 클래스의 확률 밀도 분포를 추정함으로써 기계학습을 수행하는 방법들도 있다. 대표적인 예로는 Parzen's window, Gaussian mixture model, hidden Markov model 등이 있다<그림 5>.
	기계학습 문제는 어떻게 나눌 수 있는가?	기계학습을 통해 풀 수 있는 문제는 크게 주어진 데이터의 클래스를 구분해야 하는 패턴인식(pattern classification) 문제와 연속적인 어떤 값을 추정해야 하는 회귀(regression) 또는 함수 근사화(function approximation) 문제로 나눌 수 있다. 또한 학습 방법에 따라서는 패턴인식이나 회귀 문제에서 학습데이터의 클래스나 출력 값을 알고 이에 대한 피드백을 통해 학습하는 지도학습(supervised learning), 학습 데이터의 클래스나 출력 값을 이용하지 않고 데이터 패턴이나 클러스터, 밀도 등을 추정하는 비지도학습(unsupervised learning), 클래스나 출력 값을 아는 데이터(labeled data)와 모르는 데이터(unlabeled data)를 함께 사용하는 반지도학습(semi-supervised learning), 결과에 대한 피드백만 주어지고 정확한 클래스나 출력 값은 주어지지 않는 강화학습(reinforcement learning)으로 나눌 수 있다.
	CNN의 핵심 요소에는 무엇이 있는가?	CNN은 사람의 시각뉴런의 수용장(receptive field) 개념을 이용하여서 만들어진 신경망[18]이다<그림 9>. CNN은 컨볼루션 신경층(convolution layer), 풀링 신경층(pooling layer)과 정류선형유닛(rectified linear unit; ReLU)을 핵심 요소로 가진다. 컨볼루션 신경층은 입력과 출력을 어떤 신호의 형태로 보고 가중치를 작은 크기의 필터의 형태로 나타낸 가중치 커널이 특징이다.

참고문헌 (35)

McCulloch, W. A., and Pitts, W. "A logical calculus of the ideas immanent in nervous activity," Bulletin of Mathematical Biophysics, vol. 5, no. 4, pp. 115-133, 1943.

상세보기
Rosenblatt, F. "The perceptron: a probabilistic model for information storage and organization in the brain," Psychological Review, vol. 65, no. 6, pp. 386-408, 1958.

상세보기
Minsky, M., and Papert, S., Perceptrons, MIT Press, 1968.
Leshno, M., Ya, V., Pinkus, A., and Schocken, S. "Multilayer feedforward networks with a nonpolynomial activation function can approximate any function," Neural Networks, vol. 6, no. 6, pp. 861-867, 1993.

상세보기
Charalambous, C. "Conjugate gradient algorithm for efficient training of artificial neural networks," in IEE Proceedings of Part G (Circuits, Devices and Systems), vol. 139, no. 3, pp. 301-310, 1992.

상세보기
Dennis, Jr, J. E., and More, J. J. "Quasi-Newton methods, motivation and theory," SIAM Review, vol. 19, no. 1, pp. 46-89, 1977.

상세보기
More, J. J. "The Levenberg-Marquardt algorithm: implementation and theory," Numerical Analysis, Springer, 1978, pp. 105-116.
Cortes, C., and Vapnik, V. "Support-vector networks," Machine Learning, vol. 20, no. 3, pp. 273-297, 1995.

상세보기
Blumer, A., Ehrenfeucht, A., Haussler, D., and Warmuth, M. K. "Occam's razor," Readings in Machine Learning, 1990, pp. 201-204.
Domingos, P. "A few useful things to know about machine learning," Communications of the ACM, vol. 55, no. 10, pp. 78-87, 2012.
Hughes, G. "On the mean accuracy of statistical pattern recognizers," IEEE Transactions on Information Theory, vol. 14, no. 1, pp. 55-63, 1968.

상세보기
Jolliffe, I., Principal Component Analysis, John Wiley & Sons, 2002.
Scholkopft, B., and Mullert, K. R. "Fisher discriminant analysis with kernels," Neural Networks for Signal Processing IX, vol. 1, no. 1, pp. 41-48, 1999.
Imai, S. "Cepstral analysis synthesis on the mel frequency scale," in Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 8, 1983, pp. 93-96.
Dalal, N., and Triggs, B. "Histograms of oriented gradients for human detection," in Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 1, 2005, pp. 886-893.
Vincent, P., Larochelle, H., Lajoie, I., Bengio Y., and Manzagol. P. A. "Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion," Journal of Machine Learning Research, vol. 11, pp. 3371-3408, 2010.
Hinton, G. E., Osindero, S., and Teh, Y. W. "A fast learning algorithm for deep belief nets," Neural computation, vol. 18, no. 7, pp. 1527-1554, 2006.

상세보기
Lecun, Y., Bottou, L., Bengio, Y., and Haffner, P. "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, 1998.

상세보기
Mikolov, T., Kombrink, S., Burget, L., Cernocky, J., and Khudanpur, S. "Extensions of recurrent neural network language model," in Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 5528-5531.
Dong, C., Loy, C., He, K., and Tang, X. "Image super-resolution using deep convolutional networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 2, pp. 295-307, 2016.

상세보기
Long, J., Shelhamer, E., and Darrell, T. "Fully convolutional networks for semantic segmentation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3431-3440.
Krizhevsky, A., Sutskever, I., and Hinton, G. E. "Imagenet classification with deep convolutional neural networks," In Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
Lin, M., Chen, Q., and Yan, S. "Network in network," arXiv preprint, arXiv: 1312.4400, 2013.
Simonyan, K., and Zisserman, A. "Very deep convolutional networks for large-scale image recognition," arXiv preprint, arXiv: 1409.1556, 2014.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., and Rebinovich, A. "Going deeper with convolutions," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. pp. 1-9.
He, K., Zhang, X., Ren, S., and Sun, J. "Deep residual learning for image recognition," arXiv preprint, arXiv: 1512.03385, 2015.
Gers, F. A., Schmidhuber, J., and Cummins, F. "Learning to forget: Continual prediction with LSTM," Neural Computation, vol. 12, no. 10, pp. 2451-2471, 2000.

상세보기
Chung, J., Gulcehre, C., Cho, K., and Bengio, Y. "Gated feedback recurrent neural networks," in Proceedings of the 32nd International Conference on Machine Learning, 2015, pp. 2067-2075.
Graves, A., Jaitly, N., and Mohamed, A. R. "Hybrid speech recognition with deep bidirectional LSTM," in Automatic Speech Recognition and Understanding, 2013, pp. 273-278.
Kumar, A., Irsoy, O., Ondruska, P., Iyyer, M., Bradbury, J., Gulrajani, I., Zhong, V., Paulus, R., and Socher, R. "Ask me anything: Dynamic memory networks for natural language processing," arXiv preprint, arXiv: 1506.07285.
Pan, S. J., and Yang, Q. "A survey on transfer learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, pp. 1345-1359, 2010.

상세보기
Alemi, A.(2016, Aug 31). "Improving inception and image classification in Tensor Flow," Google Research Blog (https://research.googleblog.com/2016/08/improving-inception-and-image.html)
Silver, D. et al. "Mastering the game of Go with deep neural network and tree search," Nature, vol. 529, no. 7287, pp. 484-489.

상세보기
Oord, A. et al. "Wavenet: A generative model for raw audio," arXiv preprint, arXiv: 1609.03499.
Vinyals, O., Toshev, A., Bengio, S., and Erhan, D. "Show and tell: A neural image caption generator," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3156-3164.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증