자율주행 시스템에서, 카메라에 포착된 영상을 통하여 보행자를 분류하는 기능은 보행자 안전을 위하여 매우 중요하다. 기존에는 HOG(Histogram of Oriented Gradients)나 SIFT(Scale-Invariant Feature Transform) 등으로 보행자의 특징을 추출한 후 SVM(Support Vector Machine)으로 분류하는 기술을 사용했었으나, 보행자 특징을 위와 같이 수동(handcrafted)으로 추출하는 것은 많은 한계점을 가지고 있다. 따라서 본 논문에서는 CNN(Convolutional Neural Network)의 깊은 특징(deep features)과 전이학습(transfer learning)을 사용하여 보행자를 안정적이고 효과적으로 분류하는 방법을 제시한다. 본 논문은 2가지 대표적인 전이학습 기법인 고정특징추출(fixed feature extractor) 기법과 미세조정(fine-tuning) 기법을 모두 사용하여 실험하였고, 특히 미세조정 기법에서는 3가지 다른 크기로 레이어를 전이구간과 비전이구간으로 구분한 후, 비전이구간에 속한 레이어들에 대해서만 가중치를 조정하는 설정(M-Fine: Modified Fine-tuning)을 새롭게 추가하였다. 5가지 CNN모델(VGGNet, DenseNet, Inception V3, Xception, MobileNet)과 INRIA Person데이터 세트로 실험한 결과, HOG나 SIFT 같은 수동적인 특징보다 CNN의 깊은 특징이 더 좋은 성능을 보여주었고, Xception의 정확도(임계치 = 0.5)가 99.61%로 가장 높았다. Xception과 유사한 성능을 내면서도 80% 적은 파라메터를 학습한 MobileNet이 효율성 측면에서는 가장 뛰어났다. 그리고 3가지 전이학습 기법중 미세조정 기법의 성능이 가장 우수하였고, M-Fine 기법의 성능은 미세조정 기법과 대등하거나 조금 낮았지만 고정특징추출 기법보다는 높았다.
자율주행 시스템에서, 카메라에 포착된 영상을 통하여 보행자를 분류하는 기능은 보행자 안전을 위하여 매우 중요하다. 기존에는 HOG(Histogram of Oriented Gradients)나 SIFT(Scale-Invariant Feature Transform) 등으로 보행자의 특징을 추출한 후 SVM(Support Vector Machine)으로 분류하는 기술을 사용했었으나, 보행자 특징을 위와 같이 수동(handcrafted)으로 추출하는 것은 많은 한계점을 가지고 있다. 따라서 본 논문에서는 CNN(Convolutional Neural Network)의 깊은 특징(deep features)과 전이학습(transfer learning)을 사용하여 보행자를 안정적이고 효과적으로 분류하는 방법을 제시한다. 본 논문은 2가지 대표적인 전이학습 기법인 고정특징추출(fixed feature extractor) 기법과 미세조정(fine-tuning) 기법을 모두 사용하여 실험하였고, 특히 미세조정 기법에서는 3가지 다른 크기로 레이어를 전이구간과 비전이구간으로 구분한 후, 비전이구간에 속한 레이어들에 대해서만 가중치를 조정하는 설정(M-Fine: Modified Fine-tuning)을 새롭게 추가하였다. 5가지 CNN모델(VGGNet, DenseNet, Inception V3, Xception, MobileNet)과 INRIA Person데이터 세트로 실험한 결과, HOG나 SIFT 같은 수동적인 특징보다 CNN의 깊은 특징이 더 좋은 성능을 보여주었고, Xception의 정확도(임계치 = 0.5)가 99.61%로 가장 높았다. Xception과 유사한 성능을 내면서도 80% 적은 파라메터를 학습한 MobileNet이 효율성 측면에서는 가장 뛰어났다. 그리고 3가지 전이학습 기법중 미세조정 기법의 성능이 가장 우수하였고, M-Fine 기법의 성능은 미세조정 기법과 대등하거나 조금 낮았지만 고정특징추출 기법보다는 높았다.
In autonomous driving systems, the ability to classify pedestrians in images captured by cameras is very important for pedestrian safety. In the past, after extracting features of pedestrians with HOG(Histogram of Oriented Gradients) or SIFT(Scale-Invariant Feature Transform), people classified them...
In autonomous driving systems, the ability to classify pedestrians in images captured by cameras is very important for pedestrian safety. In the past, after extracting features of pedestrians with HOG(Histogram of Oriented Gradients) or SIFT(Scale-Invariant Feature Transform), people classified them using SVM(Support Vector Machine). However, extracting pedestrian characteristics in such a handcrafted manner has many limitations. Therefore, this paper proposes a method to classify pedestrians reliably and effectively using CNN's(Convolutional Neural Network) deep features and transfer learning. We have experimented with both the fixed feature extractor and the fine-tuning methods, which are two representative transfer learning techniques. Particularly, in the fine-tuning method, we have added a new scheme, called M-Fine(Modified Fine-tuning), which divideslayers into transferred parts and non-transferred parts in three different sizes, and adjusts weights only for layers belonging to non-transferred parts. Experiments on INRIA Person data set with five CNN models(VGGNet, DenseNet, Inception V3, Xception, and MobileNet) showed that CNN's deep features perform better than handcrafted features such as HOG and SIFT, and that the accuracy of Xception (threshold = 0.5) isthe highest at 99.61%. MobileNet, which achieved similar performance to Xception and learned 80% fewer parameters, was the best in terms of efficiency. Among the three transfer learning schemes tested above, the performance of the fine-tuning method was the best. The performance of the M-Fine method was comparable to or slightly lower than that of the fine-tuningmethod, but higher than that of the fixed feature extractor method.
In autonomous driving systems, the ability to classify pedestrians in images captured by cameras is very important for pedestrian safety. In the past, after extracting features of pedestrians with HOG(Histogram of Oriented Gradients) or SIFT(Scale-Invariant Feature Transform), people classified them using SVM(Support Vector Machine). However, extracting pedestrian characteristics in such a handcrafted manner has many limitations. Therefore, this paper proposes a method to classify pedestrians reliably and effectively using CNN's(Convolutional Neural Network) deep features and transfer learning. We have experimented with both the fixed feature extractor and the fine-tuning methods, which are two representative transfer learning techniques. Particularly, in the fine-tuning method, we have added a new scheme, called M-Fine(Modified Fine-tuning), which divideslayers into transferred parts and non-transferred parts in three different sizes, and adjusts weights only for layers belonging to non-transferred parts. Experiments on INRIA Person data set with five CNN models(VGGNet, DenseNet, Inception V3, Xception, and MobileNet) showed that CNN's deep features perform better than handcrafted features such as HOG and SIFT, and that the accuracy of Xception (threshold = 0.5) isthe highest at 99.61%. MobileNet, which achieved similar performance to Xception and learned 80% fewer parameters, was the best in terms of efficiency. Among the three transfer learning schemes tested above, the performance of the fine-tuning method was the best. The performance of the M-Fine method was comparable to or slightly lower than that of the fine-tuningmethod, but higher than that of the fixed feature extractor method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
보행자 분류를 위한 고품질의 보행자 특징을 사람이 수동으로 정확하게 디자인하고 추출하는 것은 현실적으로 매우 까다로운 문제이다. 따라서 본 논문에서는 CNN에 전이학습을 적용해서 추출한 깊은 특징(deep features)을 HOG 또는 SIFT 같은 수동 특징(handcrafted features)에 대한 대안으로 제시하고, 깊은 특징과 수동 특징간의 보행자 분류 성능을 비교하고 분석하고자 한다. 전이학습을 위해서는 두가지 대표적인 방법인 고정특징추출(fixed feature extractor) 기법과 미세조정(fine-tuning) 기법을 모두 사용한다.
끝으로, M-Fine 기법은 미세조정 기법보다 학습할 파라메터의 양이 적어 학습시간이 적게 걸리는 장점이 있다. 따라서 학습에 소요되는 시간과 정확도 간의 trade-off 관계를 보다 면밀히 살피고자 한다.
본 논문에서는 INRIA Person 데이터 세트의 양이 많지 않은 관계로, 3 절에서 언급한 것처럼 ImageNet으로 사전학습된 CNN을 기반으로한 전이학습을 이용하여 보행자 분류의 성능을 평가한다. 전이학습을 위하여 5가지 CNN 모델에 대하여 공통적으로, 각 모델의 마지막 FC 레이어를 제거한 위치에 입력 영상을 2개의 클래스(보행자 or 배경)로 분류하는 FC 레이어를 새롭게 구성하여 부착하고 softmax 함수를 적용하였다.
본 논문은 기존에 사람이 디자인한 수동 특징 대신에, 전이학습을 통하여 CNN으로부터 자동으로 추출한 깊은 특징으로 보행자를 안정적이고 강건하게 분류할 수 있음을 실험을 통하여 제시하였다. 전이학습 방법으로 많이 사용하는 고정특징 추출 기법과 미세조정 기법 외에, 본 논문에서는 미세조정 기법을 조금 변형한 기법(M-Fine)을 추가하여 실험하였다.
4.0 GHz CPU(Intel® Core™ i7-6700K)와 32GB RAM,NVIDIA TITAN X PASCAL GPU가 장착된 PC에서 실험을 진행하였고, 딥러닝 오픈소스 도구인 Tensorflow[27]와 Keras[28]를 이용하여 프로그램을 구현하고 학습하였다.
HOG는 8x8 셀로 나누고 그레디언트를 9개 방향으로 계산하여 히스토그램을 생성하였고, 분류기로는 비선형 SVM(패널티 파라메터 = 1.0, 커널 = 가우시안)을 연결하여 훈련하였다. SIFT의 경우, 특징을 분류기 입력으로 사용하기 위해서는 영상내에 존재하는 특징점의 개수를 맞춰주는 작업이 필요하다.
SIFT의 경우, 특징을 분류기 입력으로 사용하기 위해서는 영상내에 존재하는 특징점의 개수를 맞춰주는 작업이 필요하다. K-means clustering 방법을 사용하여 각 영상의 SIFT 특징을 총 100개로 클러스터링하여 BoF(Bag of Feature)를 만들었고, 해당 BoF의 분류를 위하여 HOG에서 처럼 SVM을 사용하였다. SVM의 파라메타는 HOG을 분류할 때와 동일한 값을 사용하였다.
가중치를 어느레이어까지 동결하여 전이할지를 결정하는 전이구간은 모델의 구조적 특성에 맞게 선정하였다. 전이구간을 선정할 때 특별히 두 가지 요소를 고려하였는데, 첫째는 기본 블록구조에서 출력되는 가중치를 침해하지 않기위해 블록구조가 중간에서 나뉘지 않도록 선정하였고, 둘째는 각 모델별로 레이어의 수가 다르기 때문에 정확히 3등분은 하지 않았지만 전체레이어를 전반부, 중반부, 후반부 레이어로 나누어 총 3가지 크기의 전이구간을 선정하였다.
Xception은 성능의 향상에 초점이 맞춰져 있었으나,MobileNet은 연산량을 줄여 속도를 빠르게하고, 다양한 분야에 효율적으로 적용할 수 있도록 하는것에 초점이 맞춰져 있다. 그래서 네트워크 경량화를 위하여 DSC로 파라메터 수를 대폭 감소시키면서도 비슷한 성능을 내도록 설계되었다. MobileNet의 DSC는 그림 7과 같다.
ImageNet에도 사람 영상이나 배경이 될만한 영상들이 포함되어있기 때문에 전이학습에 유리하다. 그러나 보행자 클래스는 없기때문에, 본 연구에서는 보행자를 (1)서있는 사람, (2)자전거를 타고있는 사람, 이 두 가지로 규정하고 보행자를 분류하는 실험을 수행한다. 즉, 앉아있는 사람은 보행자로 포함시키지 않으며, 사람이 타지않은 자전거는 보행자가 아닌배경으로 처리한다.
전이학습을 위하여 5가지 CNN 모델에 대하여 공통적으로, 각 모델의 마지막 FC 레이어를 제거한 위치에 입력 영상을 2개의 클래스(보행자 or 배경)로 분류하는 FC 레이어를 새롭게 구성하여 부착하고 softmax 함수를 적용하였다. 그리고 각 모델마다 그림8에서 제시한1)고정특징추출 기법(FC 레이어의 가중치만 학습하고 그외 레이어의 가중치는 동결), 2)미세조정기법(FC 레이어를 포함한 모든 레이어의 가중치를 학습),3)변형 미세조정 기법(비전이구간에 속하는 레이어와 FC레이어의 가중치만 학습하고, 전이구간에 속하는 레이어의 가중치는 동결)을 적용하여 전이학습을 실시하였다. 최적화 알고리즘으로 Adam(Adaptive Moment)을 사용하였고, 학습률은 10-6으로 설정하였다.
첫째, 현재는 FC 레이어가 전이구간의 말단에 연결되어 있지만, FC 레이어를 비전이구간의 말단으로 이동하여 연결시키고, FC 레이어의 가중치만를 학습해서 전이학습의 효과를 측정한다. 둘째, 전이구간과 비전이구간 구분을 3개 이상으로 확대하여 전이학습의 효과를 측정한다. 끝으로, M-Fine 기법은 미세조정 기법보다 학습할 파라메터의 양이 적어 학습시간이 적게 걸리는 장점이 있다.
MobileNet의 DSC는 그림 7과 같다. 또한 MobileNet을 조정할 수 있는 두 가지 파라메터(width multiplier, resolution multiplier)가 있는데, width multiplier는 각 레이어의 입력 채널과 결과 채널 수를 조절하여 네트워크의 전체적인 너비를 결정하고, resolution multiplier는 입력의 해상도를 조정한다. 이 두가지 파라메타를 적절하게 조정하며 성능과 계산량 사이의 균형을 맞출 수 있다.
이를 적용한 Inception 모듈이 그림 4이다. 마찬가지로 계산량을 줄이면서 컨볼루션 연산을 수행하기 위해 그림 5에서 처럼 비대칭 컨볼루션 필터로 분해하는 기법이 제안되었다. 이 경우 계산량은 33% 줄어든다.
즉, 사전 학습된 CNN의 앞단 레이어에는 영상의 일반적인 특징들이 학습되어 있기 때문에, 서로 다른 데이터 세트를 이용하여 다시 학습한다고 해도, 앞단 레이어의 가중치 변동이 거의 없을 것으로 추측할 수 있다. 본 논문에서는 이런 특성을 활용하여 미세조정 기법을 조금 변형한 새로운 설정을 추가하여 전이학습을 실시하였다. 미세조정 기법은 기본적으로 모든레이어의 가중치를 변경하지만, 새로운 설정은 특정구간에 속하는 레이어들만 가중치를 변경한다.
가중치를 어느레이어까지 동결하여 전이할지를 결정하는 전이구간은 모델의 구조적 특성에 맞게 선정하였다. 전이구간을 선정할 때 특별히 두 가지 요소를 고려하였는데, 첫째는 기본 블록구조에서 출력되는 가중치를 침해하지 않기위해 블록구조가 중간에서 나뉘지 않도록 선정하였고, 둘째는 각 모델별로 레이어의 수가 다르기 때문에 정확히 3등분은 하지 않았지만 전체레이어를 전반부, 중반부, 후반부 레이어로 나누어 총 3가지 크기의 전이구간을 선정하였다. 그림 9는 위 두가지 사항을 고려하여 Inception V3에서 전이구간을 선정한 예이다.
본 논문은 기존에 사람이 디자인한 수동 특징 대신에, 전이학습을 통하여 CNN으로부터 자동으로 추출한 깊은 특징으로 보행자를 안정적이고 강건하게 분류할 수 있음을 실험을 통하여 제시하였다. 전이학습 방법으로 많이 사용하는 고정특징 추출 기법과 미세조정 기법 외에, 본 논문에서는 미세조정 기법을 조금 변형한 기법(M-Fine)을 추가하여 실험하였다. M-Fine 기법에서는 3가지 다른 크기로 레이어를 전이구간과 비전이구간으로 구분한 후,전이구간에 속한 레이어의 가중치는 동결하고 비전이구간에 속한 레이어에 대해서만 가중치를 변경하였다.
본 논문에서는 INRIA Person 데이터 세트의 양이 많지 않은 관계로, 3 절에서 언급한 것처럼 ImageNet으로 사전학습된 CNN을 기반으로한 전이학습을 이용하여 보행자 분류의 성능을 평가한다. 전이학습을 위하여 5가지 CNN 모델에 대하여 공통적으로, 각 모델의 마지막 FC 레이어를 제거한 위치에 입력 영상을 2개의 클래스(보행자 or 배경)로 분류하는 FC 레이어를 새롭게 구성하여 부착하고 softmax 함수를 적용하였다. 그리고 각 모델마다 그림8에서 제시한1)고정특징추출 기법(FC 레이어의 가중치만 학습하고 그외 레이어의 가중치는 동결), 2)미세조정기법(FC 레이어를 포함한 모든 레이어의 가중치를 학습),3)변형 미세조정 기법(비전이구간에 속하는 레이어와 FC레이어의 가중치만 학습하고, 전이구간에 속하는 레이어의 가중치는 동결)을 적용하여 전이학습을 실시하였다.
미세조정 기법은 기본적으로 모든레이어의 가중치를 변경하지만, 새로운 설정은 특정구간에 속하는 레이어들만 가중치를 변경한다. 즉 3가지 다른 크기로, 전체 네트워크를 전이구간(transferred parts; 전단 레이어)과 비전이구간(non-transferred parts; 후단 레이어)으로 구분한 후, 전이구간에 속한 레이어의 가중치는 동결하고 비전이구간에 속한 레이어에 대해서만 가중치를 변경하는 설정을 새롭게 도입하여 사용하였다(그림8, 표 1 참조).
전이학습 측면에서 미세조정 기법과 동등한 성능을 보여준 M-Fine 기법에 대한 추가 연구도 아래와 같이 진행할 계획이다. 첫째, 현재는 FC 레이어가 전이구간의 말단에 연결되어 있지만, FC 레이어를 비전이구간의 말단으로 이동하여 연결시키고, FC 레이어의 가중치만를 학습해서 전이학습의 효과를 측정한다. 둘째, 전이구간과 비전이구간 구분을 3개 이상으로 확대하여 전이학습의 효과를 측정한다.
대상 데이터
VGGNet[14]은 컨볼루션 레이어, 풀링(pooling) 레이어, 완전연결(FC: fully connected) 레이어로 구성된 초기 CNN 중의 하나 이다. VGGNet에서 사용한 컨볼루션 필터는 5x5 레이어를 대신하여 3x3 레이어를 두개 사용하였다. 이는 5x5 필터를 사용할 때와 같은 효과를 유지하면서, 계산해야 할 파라메터의 수를 28% 감소시켜 학습을 좀 더 효율적으로 진행하였다.
영상에 있는 사람들은 모두 서있거나 자전거를 타고있는 상태이며 96x160 픽셀 크기로 제공된다(그림 10). 배경 영상은 사람이 있을만한 도로나 공원 등이 원본 크기로 제공되는데, 본 논문에서는 사람 영상과 같은 크기인 96x160로 편집하여 사용하였다(그림 11). 편집한 방식은 원본 배경 영상의 중심부에서 각각 2개 영역을 겹치지 않도록 96x160 크기로 잘라내었는데, 영역 선정시 사람이 있을만한 지역을 우선적으로 고려하였다.
본 연구에서는 훈련 집합 총 4852장 중 70%인 3396장을 학습 및 훈련에 사용하였고, 30%인 1456장을 모델 검증에 사용하였다. 보행자 분류 성능은 테스트 집합으로 제공된 2032장 영상 전체를 사용하여 실시하였다.
INRIA Person 데이터 세트는 훈련 집합과 테스트 집합으로 나누어 제공된다. 본 연구에서는 훈련 집합 총 4852장 중 70%인 3396장을 학습 및 훈련에 사용하였고, 30%인 1456장을 모델 검증에 사용하였다. 보행자 분류 성능은 테스트 집합으로 제공된 2032장 영상 전체를 사용하여 실시하였다.
실험에 사용한 INRIA Person 데이터 세트[4]는 사람 영상과 사람이 없는 배경 영상으로 각각 구분되어 있다. 영상에 있는 사람들은 모두 서있거나 자전거를 타고있는 상태이며 96x160 픽셀 크기로 제공된다(그림 10).
0 GHz CPU(Intel® Core™ i7-6700K)와 32GB RAM,NVIDIA TITAN X PASCAL GPU가 장착된 PC에서 실험을 진행하였고, 딥러닝 오픈소스 도구인 Tensorflow[27]와 Keras[28]를 이용하여 프로그램을 구현하고 학습하였다. 전이학습에 사용한 CNN 모델은 VGG-16, DenseNet-121, Inception V3, Xception, MobileNet 총 5가지이다.
데이터처리
그림 14는 사람이 디자인한 기존의 수동 특징들과 전이학습을 통해 CNN으로부터 자동으로 추출한 깊은 특징들간의 보행자 분류 성능을 보여준다. 수동 특징으로는HOG와 SIFT를 사용하였고, 이들의 성능을 5개 CNN의 가장 우수한 전이학습 결과과 비교하였다. 그림에서 알 수 있듯이 HOG는 SIFT보다 성능이 좋았지만, 둘다 모두 CNN의 깊은 특징보다 훨씬 저조한 성능을 보여주었다.
이론/모형
그리고 각 모델마다 그림8에서 제시한1)고정특징추출 기법(FC 레이어의 가중치만 학습하고 그외 레이어의 가중치는 동결), 2)미세조정기법(FC 레이어를 포함한 모든 레이어의 가중치를 학습),3)변형 미세조정 기법(비전이구간에 속하는 레이어와 FC레이어의 가중치만 학습하고, 전이구간에 속하는 레이어의 가중치는 동결)을 적용하여 전이학습을 실시하였다. 최적화 알고리즘으로 Adam(Adaptive Moment)을 사용하였고, 학습률은 10-6으로 설정하였다. 100번의 에폭(epoch)동안 학습하였고, 배치 사이즈는 32로 설정하였다.
성능/효과
M-Fine 기법에서는 3가지 다른 크기로 레이어를 전이구간과 비전이구간으로 구분한 후,전이구간에 속한 레이어의 가중치는 동결하고 비전이구간에 속한 레이어에 대해서만 가중치를 변경하였다. 5가지 CNN 모델(VGG-16, DenseNet-121, Inception V3, Xception, MobileNet)과 INRIA Person 데이터 세트로 실험한 결과, Xception의 보행자 분류 정확도가 99.61%(임계치 = 0.5)로 가장 높았지만, 효율성 측면에서는 Xception보다 80% 적은 비용이 소요되는 MobileNet이 가장 우수하였다. 그리고 전이학습 효과면에서는 대체적으로 미세조정 기법, M-Fine 기법, 고정특징추출 기법순으로 우수하였다.
12%로 가장 높았다. DenseNet-121는 전이없이 미세조정 기법으로 학습했을 때 정확도가 99.12%로 가장 높았고, Inception V3도 전이없이 미세조정 기법으로 학습했을 때 정확도가 97.75%로 가장 좋았다. Xception과 MobileNet에서도 전이없이 미세조정 기법으로 학습했을 때 각각 99.
M-Fine 기법에서는 전이구간도 같이 표기하였다. VGG-16는 M-Fine 기법을 사용하여 전이구간을 1~3 레이어까지 설정했을 경우, 테스트 정확도가 99.12%로 가장 높았다. DenseNet-121는 전이없이 미세조정 기법으로 학습했을 때 정확도가 99.
범례의 M-Fine에서 Unit 1~3는 1번째~3번째 전이구간을 각각 나타낸다. 곡선의 위치와 AUC(Area Under the Curve)값으로 판단하였을 때, 미세조정 기법의 전이학습 성능이 가장 우수하였다. 본 논문에서 제시한 M-Fine 기법의 성능은 미세조정 기법과 대등하거나 조금 낮았지만 고정특징추출 기법보다는 높았다.
표 3은 각 모델이 학습해야하는 파라메터의 개수와 가장 좋은 결과를 낸 정확도를 함께 보여준다. 굵은 글씨로 표시한 Xception과 MobileNet의 정확도가 각각 99.61%와 99.41%라는 근소한 차이로 1위와 2위를 기록하였지만, 학습해야하는 파라메터의 개수를 보면 MobileNet이 Xception보다 80% 정도 더 적다. 이런 면에서, 정확도에서 1위와 비슷한 성능을 보여주면서도, 학습에 소요되는 비용은 현저하게 적은 MobileNet이 효율성 측면에서는 가장 우수하였다.
물론 기존의 Inception 모듈도 1x1 필터 컨볼루션으로 같은 역할을 하지만, Xception은 그 효과를 강화하기 위해 전체 영상에서 1x1 필터로 결과 채널(output channel)을 만든 뒤, 3x3 필터 컨볼루션을 훨씬 여러번 수행한다. 그 결과 Xception은 Inception V3 모델과 비교하여 파라메타 및 용량의 증가없이 성능이 크게 향상되었다.
새로운 목적의 훈련 데이터와 사전에 학습된 훈련 데이터의 특성이 다르고, 분류하고자 하는 클래스의 수가 같지 않음으로 인해 미세조정 기법이 가장 좋은 결과를 낸다는 것은 어쩌면 당연한 결과일 수 있다. 그러나 VGG-16과 같이 모델의 특성에 따라 일부 구간을 동결하고, 나머지 구간을 미세조정했을 때 좋은 결과가 나올 수 있다는 가능성을 확인할 수 있었다.
또한 M-Fine 기법의 경우에는 Unit 1에서 Unit 2, Unit 3로 전이구간이 길어질수록 전이학습의 성능이 대체적으로 저하되는 경향을 보여주었다. 그러나 거의 모든 CNN 모델에서 전이학습 기법에 상관없이 AUC 값이 1 에 수렴할 정도로 CNN의 깊은 특징들이 좋은 결과를 보여주었다.
5)로 가장 높았지만, 효율성 측면에서는 Xception보다 80% 적은 비용이 소요되는 MobileNet이 가장 우수하였다. 그리고 전이학습 효과면에서는 대체적으로 미세조정 기법, M-Fine 기법, 고정특징추출 기법순으로 우수하였다. 또한 HOG나 SIFT 같은 수동 특징과 전이학습을 통하여 CNN에서 추출한 깊은 특징간의 성능을 비교하는 ROC 그래프로부터, CNN의 깊은 특징이 수동 특징보다 두드러진 분별력을 가지고 있음을 확인하였다.
수동 특징으로는HOG와 SIFT를 사용하였고, 이들의 성능을 5개 CNN의 가장 우수한 전이학습 결과과 비교하였다. 그림에서 알 수 있듯이 HOG는 SIFT보다 성능이 좋았지만, 둘다 모두 CNN의 깊은 특징보다 훨씬 저조한 성능을 보여주었다.
그리고 전이학습 효과면에서는 대체적으로 미세조정 기법, M-Fine 기법, 고정특징추출 기법순으로 우수하였다. 또한 HOG나 SIFT 같은 수동 특징과 전이학습을 통하여 CNN에서 추출한 깊은 특징간의 성능을 비교하는 ROC 그래프로부터, CNN의 깊은 특징이 수동 특징보다 두드러진 분별력을 가지고 있음을 확인하였다.
곡선의 위치와 AUC(Area Under the Curve)값으로 판단하였을 때, 미세조정 기법의 전이학습 성능이 가장 우수하였다. 본 논문에서 제시한 M-Fine 기법의 성능은 미세조정 기법과 대등하거나 조금 낮았지만 고정특징추출 기법보다는 높았다. 또한 M-Fine 기법의 경우에는 Unit 1에서 Unit 2, Unit 3로 전이구간이 길어질수록 전이학습의 성능이 대체적으로 저하되는 경향을 보여주었다.
성능을 정확도의 결과만으로 평가하였을 때, Xception이 미세한 차이지만 가장 우수하였다. 그러나 대부분의 모델들이 정확도가 99%가 넘는 좋은 성능을 보여주었다.
VGGNet에서 사용한 컨볼루션 필터는 5x5 레이어를 대신하여 3x3 레이어를 두개 사용하였다. 이는 5x5 필터를 사용할 때와 같은 효과를 유지하면서, 계산해야 할 파라메터의 수를 28% 감소시켜 학습을 좀 더 효율적으로 진행하였다. 게다가 3x3을 두번 적용함으로써 비선형 연산인 ReLU 함수가 더 많이 들어가게 되어 판단함수가 잘 학습되는 효과도 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
SVM의 성능 개선을 위한 방법으로 무엇이 소개되고 있습니까?
그러나 SVM은 추출된 영상 특징의 품질에 따라 성능에 큰 차이를 보이는 한계를 가지고 있다. 따라서 SVM의 성능 개선을 위해서는 새로운 고품질 영상 특징을 개발하거나, 특징 추출과 관련된 다양한 파라메타를 튜닝하는 등 여러가지 방법을 시도해야하는 번거로움이 있다.
본 논문에서 2가지 대표적인 전이학습 기법은 무엇을 말하는가?
따라서 본 논문에서는 CNN(Convolutional Neural Network)의 깊은 특징(deep features)과 전이학습(transfer learning)을 사용하여 보행자를 안정적이고 효과적으로 분류하는 방법을 제시한다. 본 논문은 2가지 대표적인 전이학습 기법인 고정특징추출(fixed feature extractor) 기법과 미세조정(fine-tuning) 기법을 모두 사용하여 실험하였고, 특히 미세조정 기법에서는 3가지 다른 크기로 레이어를 전이구간과 비전이구간으로 구분한 후, 비전이구간에 속한 레이어들에 대해서만 가중치를 조정하는 설정(M-Fine: Modified Fine-tuning)을 새롭게 추가하였다. 5가지 CNN모델(VGGNet, DenseNet, Inception V3, Xception, MobileNet)과 INRIA Person데이터 세트로 실험한 결과, HOG나 SIFT 같은 수동적인 특징보다 CNN의 깊은 특징이 더 좋은 성능을 보여주었고, Xception의 정확도(임계치 = 0.
충분한 데이터를 모으는 다른 방법으로 무엇이 소개되고 있습니까?
많은 경우 충분한 훈련데이터를 새로 수집하여 딥러닝 모델을 처음부터 학습시키는 과정은 비용이 많이 들기 때문에 현실적으로 매우 어렵다. 이런 비용을 줄이는 대안으로, 학습이 완료된딥러닝 모델의 가중치를 이용하여 새로운 모델을 학습시키는 전이학습(transfer learning)[20, 21]이 최근 크게 주목받고 있다. 전이학습은 비용 절감뿐만 아니라, 사전에 습득된 정보를 이용하여 새로운 목적에 적합한 정보를 용이하게 생성할 수 있다는 점에서, 딥러닝을 현실의 다양한 분야에응용하고 적용할 수 있게 하는 촉매 역할을 하고 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.