[논문]딥러닝 기반 분류 모델의 준 지도 학습 기법 분석

박재현; 조성인

doi:10.5909/jbe.2021.26.1.79

딥러닝 기반 분류 모델의 준 지도 학습 기법 분석
The Analysis of Semi-supervised Learning Technique of Deep Learning-based Classification Model 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.26 no.1, 2021년, pp.79 - 87

박재현 (동국대학교 멀티미디어공학과) , 조성인 (동국대학교 멀티미디어공학과)

초록
AI-Helper

본 논문에서는 소량의 레이블 데이터로 딥러닝 기반 분류 모델을 훈련할 때 적용되는 준 지도 학습 기법 (semi-supervised learning: SSL)에 대해서 분석한다. 기존의 준 지도 학습 기법은 크게 일관성 정규화 (consistency regularization), 엔트로피 기반 (entropybased), 의사 레이블링 (pseudo labeling)으로 구분할 수 있다. 우선, 각 준 지도 학습 기법의 알고리즘에 대해서 서술한다. 실험에서는 준 지도학습 기법을 레이블 데이터의 수를 변화시키면서 훈련 후 분류 정확도를 평가한다. 최종적으로 실험 결과를 바탕으로 기존 준 지도 학습 기법의 한계에 대해서 서술하고, 분류 성능을 향상하기 위한 연구 방향을 제시한다.

Abstract ▼ AI-Helper

In this paper, we analysis the semi-supervised learning (SSL), which is adopted in order to train a deep learning-based classification model using the small number of labeled data. The conventional SSL techniques can be categorized into consistency regularization, entropy-based, and pseudo labeling. First, we describe the algorithm of each SSL technique. In the experimental results, we evaluate the classification accuracy of each SSL technique varying the number of labeled data. Finally, based on the experimental results, we describe the limitations of SSL technique, and suggest the research direction to improve the classification performance of SSL.

주제어

표/그림 (6)

그림 그림 1. 두 가지 클래스 분류 문제에서의 지도 학습과 준 지도 학습의 비교 (decision boundary) Fig. 1. The comparison of supervised learning and semi-supervised learning on two classes
그림 그림 2. 실험에 사용된 데이터 세트 예시 영상 (a) CIFAR-10, (b) SVHN Fig. 2. The example images of dataset used for experiment (a) CIFAR-10, (b) SVHN
표 표 1. 하이퍼 파라미터 Table 1. Hyperparameters
표 표 2. Wide-ResNet-28-2에서 비교 방법 분류 정확도 Table 2. The classification accuracy of benchmark method (Backbone network: Wide-ResNet-28-2)
표 표 3. DNN 모델 구조^[7] Table 3. The architecture of DNN
표 표 4. DNN에서 비교 방법 분류 정확도 Table 4. The classification accuracy of benchmark method (Backbone network: DNN)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

결과적으로, 준지도학습기법은레이블이있는데이터와레이블이없는데이터의출력의차이를감소시키는방향으로 훈련하므로, 레이블이 있는데 이 터에 대한 분류모델의 경향성이가장큰비중을차지하게된다. 따라서, 레이블이있는데이터에대한다양한변형및증대기법을적용하여 가용정보를늘려주는것이효과적일것으로보인다. 또한, 백본신경망에따라서준지도학습기법의분류정확도는 달라질수 있으며, 데이터 세트에 따라서 분류정확도의 변화를 보였으며, 분류모델의 성능이 하이퍼 파라미터에 따라 민감하게변화하는것을확인할 수 있었다.
본논문에서는제한된수의레이블이있는데이터와많은수의레이블이없는데이터를훈련에사용하는준지도 학습기법에대해서서술하고, 대표적인기법에대해서전통적인데이터세트로훈련하여분류정확도를비교해보았 다. 준지도학습기법에서는레이블이없는데이터에대해서로다른섭동을적용하여분류모델의출력에차이를발 생시키고, 이러한차이를최소화하면분류정확도를향상시킬수있다는사실을활용하여분류정확도향상을유도 하였다.

가설 설정

일관성정규화기법은고차원의데이터를축소하여저차원 에서효과적으로표현할수있는매니폴드의존재성에대 한매니폴드가설(manifold hypothesis)을기반으로한다. 다시말해, 동일한클래스의레이블이있는데이터와레이블이없는데이터는동일한매니폴드군집에위치한다는 가정을기반으로분류모델을학습한다. 이는동일한클래스의데이터는매니폴드에서같은군집에속해야한다는사전 지식(prior knowledge)이적용된것이다.

제안 방법

레이블이있는데이터의수는 1, 000개, 5,000개를사용했을때를비교하며, 나머지훈련 영상은 레이블이 없는데 이 터로사용한다. 게다가[12]에서는엔트로피최소화기법의분류정확도를다른준지도 학습기법들과비교하지않았으나, 본논문에서는다양한준지도학습기법의분류성능을확인하기위해서실험 결과를추가했다. 표 1에서 All 은 분류모델을 훈련할 때 훈련영상전부를사용한것이고, labeled only는 레이블이 있는데 이 터만 훈련에 사용한것이다.
예를들어, 분류모델의초기화(initialization), 입력의변형(transformation), 노이즈, 드롭아웃등과같은요소들을다르게하여동일입력에대해서로다른출력 결과를도출하도록함으로써모델의분류작업을방해한다. 이후, 분류모델이서로다른출력에대한예측일관성을유지하도록함으로써준지도학습기법이동작하도록기 여한다. 이러한접근법을일관성정규화라고한다.

대상 데이터

실험에서는 훈련 영상 50, 000장중45,000장은훈련에사용하고, 5, 000 장은평가(validation) 영상으로사용했다. SVHNe1부터 10까지숫자영상으로구성된32×32 크기의 컬러영상 데이터 세트로 총훈련 영상 73, 257 장, 테스트영상26, 032장으로 구성되어있다. 총훈련영상중65, 931장은 훈련에 사용하고, 나머지7, 326은평가에사용했다.
총훈련영상중65, 931장은 훈련에 사용하고, 나머지7, 326은평가에사용했다. 두데이터세트에서레이블이있는데이터는훈련영상에서클래스별 로동일한분포로추출된1,000장과5, 000장에 대해서 실험하고, 추출된 영상을 제외한 나머지훈련 영상은 전부레이블이없는데이터로사용했다. 추론(inference)에는 테스트 영상 전부를사용했다.
본 실험에는 드롭아웃은 적용되지 않았다. 레이블이있는데이터의수는 1, 000개, 5,000개를사용했을때를비교하며, 나머지훈련 영상은 레이블이 없는데 이 터로사용한다. 게다가[12]에서는엔트로피최소화기법의분류정확도를다른준지도 학습기법들과비교하지않았으나, 본논문에서는다양한준지도학습기법의분류성능을확인하기위해서실험 결과를추가했다.
Wide-ResNete딥러닝기반의분류모델로신경망깊이(depth)가깊어짐에따라학습의 난이도가어려워지자이를잔차블록(residual block)^[16]의채널을늘리면서분류성능을향상시킨신경망이다. 실험에 적용된 Wide-ResNet-28-2 신경망의깊이는28이고, 빌딩 블록 내의 컨볼루션층의 수는 2이다. 본 실험에는 드롭아웃은 적용되지 않았다.
Ⅲ. 실험결과

실험에사용된데이터세트는CIFAR-10^[13]과SVHN^[14] 이다. CIFAR-10 은총 10개의 클래스를 가진 분류데이터세트로훈련영상50, 000장, 테스트영상10, 000장으로 32×32 크기의컬러영상으로구성되어있다.
CIFAR-10 은총 10개의 클래스를 가진 분류데이터세트로훈련영상50, 000장, 테스트영상10, 000장으로 32×32 크기의컬러영상으로구성되어있다. 실험에서는 훈련 영상 50, 000장중45,000장은훈련에사용하고, 5, 000 장은평가(validation) 영상으로사용했다. SVHNe1부터 10까지숫자영상으로구성된32×32 크기의 컬러영상 데이터 세트로 총훈련 영상 73, 257 장, 테스트영상26, 032장으로 구성되어있다.
이는분류모델의복잡도 (complexity)가다른백본신경망에서준지도학습기법을 비교할경우정확한분류성능비교를하기어렵기때문이 다. 이에따라서[12]에서제안한백본신경망인WideResNet-28-2^[15]를사용하고, 하이퍼 파라미터도 동일하게 적용하여 실험을진행했다. Wide-ResNete딥러닝기반의분류모델로신경망깊이(depth)가깊어짐에따라학습의 난이도가어려워지자이를잔차블록(residual block)^[16]의채널을늘리면서분류성능을향상시킨신경망이다.
SVHNe1부터 10까지숫자영상으로구성된32×32 크기의 컬러영상 데이터 세트로 총훈련 영상 73, 257 장, 테스트영상26, 032장으로 구성되어있다. 총훈련영상중65, 931장은 훈련에 사용하고, 나머지7, 326은평가에사용했다. 두데이터세트에서레이블이있는데이터는훈련영상에서클래스별 로동일한분포로추출된1,000장과5, 000장에 대해서 실험하고, 추출된 영상을 제외한 나머지훈련 영상은 전부레이블이없는데이터로사용했다.

이론/모형

준지도학습기법은크게일관성정규화(consistency re- gularization)^[7-9], 엔트로피기반(entropy-based)^[10], 의사 레이블링(pseudo labeling)^[11] 기반방법으로분류할 수 있다. 일관성정규화기법은고차원의데이터를축소하여저차원 에서효과적으로표현할수있는매니폴드의존재성에대 한매니폴드가설(manifold hypothesis)을기반으로한다. 다시말해, 동일한클래스의레이블이있는데이터와레이블이없는데이터는동일한매니폴드군집에위치한다는 가정을기반으로분류모델을학습한다.

성능/효과

표4에서볼수있듯이, CIFAR-10 데이터세트에서는VAT 기법이 가장 우수한 분류정확도를 제공하고, SVHN 데이터세트에서는PL 기법이 가장 우수한 분류정확도를 제공한다. 또한, 준지도학습기법의분류정확도는이전Wide-ResNet-28-2를백본 신경망으로실험했을때와전반적으로동일한양상을보여 주지만분류정확도는감소된것을확인할 수 있다.
따라서, 레이블이있는데이터에대한다양한변형및증대기법을적용하여 가용정보를늘려주는것이효과적일것으로보인다. 또한, 백본신경망에따라서준지도학습기법의분류정확도는 달라질수 있으며, 데이터 세트에 따라서 분류정확도의 변화를 보였으며, 분류모델의 성능이 하이퍼 파라미터에 따라 민감하게변화하는것을확인할 수 있었다. 따라서, 준지도학습기법은하이퍼파라미터의최적화작업이필수 적으로이루어져야한다.
준지도학습기법에서는레이블이없는데이터에대해서로다른섭동을적용하여분류모델의출력에차이를발 생시키고, 이러한차이를최소화하면분류정확도를향상시킬수있다는사실을활용하여분류정확도향상을유도 하였다. 준 지도학습기법의 효과는 실험적으로 분류모델의 성능향상에유의미하다는것을확인할 수 있었다. 결과적으로, 준지도학습기법은레이블이있는데이터와레이블이없는데이터의출력의차이를감소시키는방향으로 훈련하므로, 레이블이 있는데 이 터에 대한 분류모델의 경향성이가장큰비중을차지하게된다.
또한, 정규화(normalize)된 변화도와 상수 파라미터 을 통해서 적대적 노이즈 (adversarial noise) 성분인 r_adv를 생성한다. 최종적으로, VAT에서는 도출된 적대적 노이즈 성분이 추가된 __′와_의KL-divergence를준지도학습 의손실함수로써최소화한다. 따라서, 서로 다른 두 출력의 유사도를 감소시킴으로써, 신경망은레이블이없는데이터에대한분류를가장방해하는노이즈성분인r_adv를발생시 키게된다.
각준지도학습기법^[7-11]에서사용한하이퍼파라미터를동일하게적용했으나, 훈련의총반복횟수, 배치 크기 및 러닝레이트가 다소 다르므로 논문에서 제공하는실험결과와차이가있을수 있다. 표4에서볼수있듯이, CIFAR-10 데이터세트에서는VAT 기법이 가장 우수한 분류정확도를 제공하고, SVHN 데이터세트에서는PL 기법이 가장 우수한 분류정확도를 제공한다. 또한, 준지도학습기법의분류정확도는이전Wide-ResNet-28-2를백본 신경망으로실험했을때와전반적으로동일한양상을보여 주지만분류정확도는감소된것을확인할 수 있다.

참고문헌 (18)

A. Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet classification with deep convolutional neural networks," in Proc. Adv. Neural Inf. Process. Syst., pp. 1097-1105, 2012.
K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," in Proc. Int. Conf. Learn. Represent., pp. 1-14, 2015.
C. Szegedy et al., "Going deeper with convolutions," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 1-9, 2015.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 770-778, 2016.
P. Bachman, O. Alsharif, and D. Precup, "Learning with pseudo ensembles," in Proc. Advances Neural Inf. Process. Syst., pp. 3365-3373, 2014.
M. Sajjadi, M. Javanmardi, and T. Tasdizen, "Regularization with stochastic transformations and perturbations for deep semi-supervised learning," in Proc. 30th Int. Conf. Neural Inf. Process. Syst., pp. 1171 -1179, 2016.
S. Laine and T. Aila, "Temporal ensembling for semi-supervised learning," in Proc. Int. Conf. Learn. Represent., pp. 1-13, 2017.
A. Tarvainen and H. Valpola, "Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results," in Proc. Adv. Neural Inf. Process. Syst., pp. 1195-1204, 2017.
T. Miyato, S.-I. Maeda, M. Koyama, and S. Ishii, ''Virtual adversarial training: A regularization method for supervised and semi-supervised learning,'' IEEE Trans. Pattern Anal. Mach. Intell., Vol. 41, No. 8, pp. 1979-1993, Aug 2019.

상세보기
Y. Grandvalet and Y. Bengio, "Semi-supervised learning by entropy minimization," in Proc. Adv. Neural Inf. Process. Syst., pp. 529-536, 2004.
D.-H. Lee, "Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks," in Proc. Workshop Challenges Represent. Learn. (ICML), pp. 2-7, 2013.
A. Oliver, A. Odena, C. Raffel, E. Cubuk, and I. Goodfellow, "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms," in Adv. in Neural Inf. Process. Syst., pp. 3235-3246, 2018.
A. Krizhevsky and G. Hinton, "Learning Multiple Layers of Features from Tiny Images," technical report, Univ. of Toronto, 2009.
Y. Netzer, T. Wang, A. Coates, A. Bissacco, B. Wu, and A. Y. Ng, "Reading digits in natural images with unsupervised feature learning," In NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.
S. Zagoruyko and N. Komodakis, "Wide residual networks," in Proc. Brit. Mach. Vis. Conf., pp. 87.1-87.12, 2016.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition." In Proc. IEEE Conf. Comput. Vis. Pattern Rcognit., pp. 770-778, 2016.
S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep net- work training by reducing internal covariate shift," in Proc. Int. Conf. Mach. Learn., pp. 448-456, 2015.
A. L. Maas, A. Y. Hannun, and A. Y. Ng, "Rectifier nonlinearities improve neural network acoustic models," in Proc. ICML, Vol. 30, No. 1, p. 3, Jun. 2013.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증