최근 데이터의 지능적 처리 및 정확도 향상을 위해 딥러닝 기술이 응용되고 있다. 이 기술은 다층의 데이터 처리 레이어들로 구성된 계산 모델을 통해 이루어지는데, 이 모델은 여러 수준의 추상화를 거쳐 데이터의 표현을 학습한다. 딥러닝의 한 부류인 컨볼루션 신경망은 인간 행동 추정, 얼굴 인식, 이미지 분류, 음성 인식 같은 연구 분야에서 많이 활용되고 있다. 이미지 분류에 좋은 성능을 보여주는 컨볼루션 신경망은 깊은 학습망과 많은 부류를 이용하면 효과적으로 분류율을 높일수 있지만, 적은 부류의 데이터를 사용할 경우, 과적합 문제가 발생할 확률이 높아진다. 따라서 본 논문에서는 컨볼루션 신경망기반의 소부류의 분류을 위한 학습망을 제작하여 자체적으로 구축한 이미지 DB를 학습시키고, 객체를 분류하는 연구를 실험 하였으며, 1000개의 부류를 분류하기 위해 제작된 기존 공개된 망들과 비교 실험을 통해 기존 망보다 평균 7.06%이상의 상승된 분류율을 보여주었다.
최근 데이터의 지능적 처리 및 정확도 향상을 위해 딥러닝 기술이 응용되고 있다. 이 기술은 다층의 데이터 처리 레이어들로 구성된 계산 모델을 통해 이루어지는데, 이 모델은 여러 수준의 추상화를 거쳐 데이터의 표현을 학습한다. 딥러닝의 한 부류인 컨볼루션 신경망은 인간 행동 추정, 얼굴 인식, 이미지 분류, 음성 인식 같은 연구 분야에서 많이 활용되고 있다. 이미지 분류에 좋은 성능을 보여주는 컨볼루션 신경망은 깊은 학습망과 많은 부류를 이용하면 효과적으로 분류율을 높일수 있지만, 적은 부류의 데이터를 사용할 경우, 과적합 문제가 발생할 확률이 높아진다. 따라서 본 논문에서는 컨볼루션 신경망기반의 소부류의 분류을 위한 학습망을 제작하여 자체적으로 구축한 이미지 DB를 학습시키고, 객체를 분류하는 연구를 실험 하였으며, 1000개의 부류를 분류하기 위해 제작된 기존 공개된 망들과 비교 실험을 통해 기존 망보다 평균 7.06%이상의 상승된 분류율을 보여주었다.
Recently, deep learning is used for intelligent processing and accuracy improvement of data. It is formed calculation model composed of multi data processing layer that train the data representation through an abstraction of the various levels. A category of deep learning, convolution neural network...
Recently, deep learning is used for intelligent processing and accuracy improvement of data. It is formed calculation model composed of multi data processing layer that train the data representation through an abstraction of the various levels. A category of deep learning, convolution neural network is utilized in various research fields, which are human pose estimation, face recognition, image classification, speech recognition. When using the deep layer and lots of class, CNN that show a good performance on image classification obtain higher classification rate but occur the overfitting problem, when using a few data. So, we design the training network based on convolution neural network and trained our image data set for object classification in few class problem. The experiment show the higher classification rate of 7.06% in average than the previous networks designed to classify the object in 1000 class problem.
Recently, deep learning is used for intelligent processing and accuracy improvement of data. It is formed calculation model composed of multi data processing layer that train the data representation through an abstraction of the various levels. A category of deep learning, convolution neural network is utilized in various research fields, which are human pose estimation, face recognition, image classification, speech recognition. When using the deep layer and lots of class, CNN that show a good performance on image classification obtain higher classification rate but occur the overfitting problem, when using a few data. So, we design the training network based on convolution neural network and trained our image data set for object classification in few class problem. The experiment show the higher classification rate of 7.06% in average than the previous networks designed to classify the object in 1000 class problem.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 기존 침입자를 판별하기 위해 침입탐지 시스템의 판별 성능을 높여주기 위하여 딥 러닝(Deep Learning)의 부류인 컨볼루션 신경망(CNN)을 기반으로 사람, 개, 고양이의 소 부류 이미지 데이터 DB를 자체적으로 구축한 후, 해당 부류를 효과적으로 분류하기 위해 최적의 하이퍼 파라미터(hyper parameter)를 찾아 모델링한 Network를 제작한 후 학습을 통해, 분류에 최적의 성능을 보여주는 네트워크를 제안한다.
본 논문에서는 흔히 주변에서 볼 수 있는 사람, 개, 고양이를 영상에서 분류하기 위한 목적으로 3가지 부류를 training 데이터로 구축하였다.
본 논문에서는 CNN을 이용해 소 부류를 분류하기 위한 네트워크를 제안하였으며, 실험을 통해 소분류에 최적의 네트워크와 파라미터 값을 찾았고, 기존 공개된 네트워크와 비교하여 더 효과적인 성능을 보여주었다. 제안된 네트워크를 통해 학습된 결과물은 추후 감시시 스템에서 움직이는 객체중 사람 객체만 분류하여 추적할 목적으로 사용이 가능하다.
제안 방법
두 학습망의 차이점은 다음과 같다. 우승팀인 GoogleNet의 경우 기존 AlexNet과 달리 인셉션이라는 모듈을 이용해서 네트워크를 제작하였다. 하지만 GoogleNet의 구조는 깊고 복잡하다.
본 논문에서 제안하는 신경망은 VGGNet을 기반으로 설계하였다. 아직까지 분류 결과에 좋은 영향을 주는 최적의 하이퍼 파라미터 값은 정립되어 있지 않기 때문에 최적의 네트워크 설계를 위하여 레이어들의 순서, 컨볼루션 레이어의 커널 개수, 사이즈 그리고 스트라이드 값을 변경하며 반복 학습을 통해 가장 좋은 결과를 보여주는 네트워크를 제작하였다.
본 논문에서 제안하는 신경망은 VGGNet을 기반으로 설계하였다. 아직까지 분류 결과에 좋은 영향을 주는 최적의 하이퍼 파라미터 값은 정립되어 있지 않기 때문에 최적의 네트워크 설계를 위하여 레이어들의 순서, 컨볼루션 레이어의 커널 개수, 사이즈 그리고 스트라이드 값을 변경하며 반복 학습을 통해 가장 좋은 결과를 보여주는 네트워크를 제작하였다. 제안한 소부류의 데이터를 분류하기 위한 최적의 네트워크의 구성은 그림 2와 같이, 6개의 컨볼루션 레이어와 3개의 풀리 커넥티드 레이어로 구성되어있다.
출력된 특징 맵은 112×112사이즈로 아직 해상도가 높기 때문에, 풀링 레이어에서 서브 샘플링을 통해 사이즈를 줄여야 하는데, 최소값 풀링, 평균 풀링, 최대값 풀링중 맥스 풀링을 사용하였고, 2×2사이즈의 커널을 이용해 최대값을 가진 특징을 추출하고 이미지의 사이즈를 절반으로 줄여준다.
최초 학습 집합은 부류별 1만장씩 총 3만장으로 구축 하였다. 실험에 사용한 학습 집합은 천만 장 이상의 이미지를 각 부류별로 모아놓은 ImageNet을 이용해서 구축하였으며, 사람 이미지는 자체적으로 촬영해서 획득한 데이터와 결합해서 구축하였다. 검증 집합은 부류별 2500장씩 총 7500장을 사용해서 구축하였으며, 학습 집합과 중복되지 않도록 선별하였다.
따라서, 분류율을 올리고 오버피팅을 줄여주기 위해 학습 집합을 세분화하였다. 다시 구축한 학습 집합은 총 30개의 클래스로 0~9번 클래스는 사람, 10~19번 클래스는 개, 20~29번 클래스는 고양이로 놔눠 주었다.
3개 부류(사람, 개, 고양이)를 분류하기 위해 제안한 네트워크를 이용해 학습을 진행하였다. 전체 학습은 60,000을 반복하였으며, 10시간의 시간이 소요되었다.
5,000번의 학습 횟수마다 스냅샷을 통해 분류 결과를 획득하였다. 제안한 네트워크의 분류률을 평가하기 위해 사람, 개, 고양이 클래스별 500장씩, 총 1,500장의 테스트 이미지를 구축하였다.
제안한 네트워크와 기존의 공개된 네트워크와 비교를 위해 같은 학습 집합, 검증 집합, 테스트 집합을 이용해 실험을 진행 하였고, 표 2는 분류 결과를 보여준다.
두 번째 컨볼루션 레이어 Conv1_2는 3×3사이즈의 커널을 이용해서 이미지의 크기 변동없이 특징을 추출하여 96개의 특징 맵을 출력하고, 뒤이어 ReLU활성 함수를 사용하였으며, 첫 번째 컨볼루션 레이어와 마찬가지로 LRN을 사용하였다.
학습 집합이 부족한 경우 이미지를 증감시켜주기 위해서 5º, 10º, 350º, 355º 로 어파인 변환을 시켜주었고, 각 이미지에 가우시안 잡음 추가 및 명암, 채도를 변경시켜 학습 집합을 구축하였다.
대상 데이터
아직까지 분류 결과에 좋은 영향을 주는 최적의 하이퍼 파라미터 값은 정립되어 있지 않기 때문에 최적의 네트워크 설계를 위하여 레이어들의 순서, 컨볼루션 레이어의 커널 개수, 사이즈 그리고 스트라이드 값을 변경하며 반복 학습을 통해 가장 좋은 결과를 보여주는 네트워크를 제작하였다. 제안한 소부류의 데이터를 분류하기 위한 최적의 네트워크의 구성은 그림 2와 같이, 6개의 컨볼루션 레이어와 3개의 풀리 커넥티드 레이어로 구성되어있다. 이미지는 다층의 컨볼루션 레이어를 거치며 cross-correlation 연산이 적용되고, 가중치 공유 특성을 통해, 같은 형태의 특징맵, 가중치 벡터, 바이어스(bias)를 공유한다.
최초 학습 집합은 부류별 1만장씩 총 3만장으로 구축 하였다. 실험에 사용한 학습 집합은 천만 장 이상의 이미지를 각 부류별로 모아놓은 ImageNet을 이용해서 구축하였으며, 사람 이미지는 자체적으로 촬영해서 획득한 데이터와 결합해서 구축하였다.
실험에 사용한 학습 집합은 천만 장 이상의 이미지를 각 부류별로 모아놓은 ImageNet을 이용해서 구축하였으며, 사람 이미지는 자체적으로 촬영해서 획득한 데이터와 결합해서 구축하였다. 검증 집합은 부류별 2500장씩 총 7500장을 사용해서 구축하였으며, 학습 집합과 중복되지 않도록 선별하였다. 하지만 학습 결과물을 이용해 테스트를 한 결과 오버피팅이 발생하였고, 분류율은 30%미만으로 출력되었다.
학습 집합이 부족한 경우 이미지를 증감시켜주기 위해서 5º, 10º, 350º, 355º 로 어파인 변환을 시켜주었고, 각 이미지에 가우시안 잡음 추가 및 명암, 채도를 변경시켜 학습 집합을 구축하였다. 각 클래스의 학습 집합은 2,000 장씩 총 60,000장으로 구축 하였고, 검증 집합은 500장씩 총 15,000장으로 구축 하였다.
배치사이즈를 줄여 학습을 진행하게 될 경우, 사용되는 메모리는 적지만 과적합 상태에 빠질 수 있다. 따라서 사용된 그래픽 카드는 12GB의 용량을 가진 Titan X를 사용하였다. 사용된 딥러닝 프레임 워크는 공개된 소스인 caffe[10]를 사용하였다.
따라서 사용된 그래픽 카드는 12GB의 용량을 가진 Titan X를 사용하였다. 사용된 딥러닝 프레임 워크는 공개된 소스인 caffe[10]를 사용하였다.
5,000번의 학습 횟수마다 스냅샷을 통해 분류 결과를 획득하였다. 제안한 네트워크의 분류률을 평가하기 위해 사람, 개, 고양이 클래스별 500장씩, 총 1,500장의 테스트 이미지를 구축하였다.
이론/모형
뒤이어 ReLU 와 학습과정에서 오버피팅(over fitting)을 줄이기 위해 일부의 뉴런을 생략하며 학습을 진행하는 Dropout 레이어를 포함한다. 최종단의 레이어는 30개의 클래스에서 결과를 낼 수 있도록 Softmax함수를 사용하였다.
첫 번째 컨볼루션 레이어 Conv1_1은 입력되는 이미지가 크기 때문에 커널사이즈: 7×7, stride : 4, pad : 3의 값을 적용하여 사이즈가 절반으로 줄어든 96개의 특징 맵을 출력한다. 이어서 Rectified Linear Unit(ReLU)활성 함수를 사용하였으며, 뒤이어 출력된 특징 맵에서 약한 특징이 연산에 적용되지 않고 강한 특징이 전달될 수 있도록 LRN(local respond normalization)[4]을 사용하였다. 두 번째 컨볼루션 레이어 Conv1_2는 3×3사이즈의 커널을 이용해서 이미지의 크기 변동없이 특징을 추출하여 96개의 특징 맵을 출력하고, 뒤이어 ReLU활성 함수를 사용하였으며, 첫 번째 컨볼루션 레이어와 마찬가지로 LRN을 사용하였다.
성능/효과
검증 집합은 부류별 2500장씩 총 7500장을 사용해서 구축하였으며, 학습 집합과 중복되지 않도록 선별하였다. 하지만 학습 결과물을 이용해 테스트를 한 결과 오버피팅이 발생하였고, 분류율은 30%미만으로 출력되었다.
제안한 네트워크는 iteration 40,000번째에서 Google Net보다 약 3.4%상승한 96.8%의 사람 분류율을 보여주었으며, 개, 고양이 분류율에서는 각각 6.2%, 11.6%의상승된 분류율을 보여주었다.
후속연구
본 논문에서는 CNN을 이용해 소 부류를 분류하기 위한 네트워크를 제안하였으며, 실험을 통해 소분류에 최적의 네트워크와 파라미터 값을 찾았고, 기존 공개된 네트워크와 비교하여 더 효과적인 성능을 보여주었다. 제안된 네트워크를 통해 학습된 결과물은 추후 감시시 스템에서 움직이는 객체중 사람 객체만 분류하여 추적할 목적으로 사용이 가능하다. 또한 기존 학습 집합에 다양한 이미지를 추가함으로써, 다양한 분야에 적용 가능할 것이다.
제안된 네트워크를 통해 학습된 결과물은 추후 감시시 스템에서 움직이는 객체중 사람 객체만 분류하여 추적할 목적으로 사용이 가능하다. 또한 기존 학습 집합에 다양한 이미지를 추가함으로써, 다양한 분야에 적용 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
과적합의 원인은?
과적합(overfitting)은 신경망 학습에 사용된 데이터는 잘 분류하지만 새로운 패턴의 데이터는 잘 분류해내지 못하는 현상을 의미한다. 원인으로는 지나친 학습 (overtraining)이나 튜닝, 학습 데이터 부족 또는 데이터셋 클래스 범주의 잘못된 설정 등이 있다. 특히, 데이터셋 클래스 범주 설정 문제는 상기에서 기술한 네트워크들을 특수한 분류 문제에 적용시킬 때 많이 발생한다.
컨볼루션 신경망이란 무엇인가?
컨볼루션 신경망(Convolutional Neural Networks)은딥 러닝을 위한 심층 신경망(Deep Neural Networks) 모델의 한 종류이다. 얼굴 인식(face recognition), 이미지 분류(image classification), 음성 인식(voice recognition)과 같은 연구 분야에서 많이 활용되며[2], 최근에는 1000개의 부류를 분류하며 성능을 검증하는 대회인 ILSVRC(ImageNet Large Scale visual Recognition Challege)[3]를 통해 높은 성능의 분류 및 탐지 능력가진 네트워크들이 소개되고 있다.
과적합은 어떤 현상을 의미하는가?
과적합(overfitting)은 신경망 학습에 사용된 데이터는 잘 분류하지만 새로운 패턴의 데이터는 잘 분류해내지 못하는 현상을 의미한다. 원인으로는 지나친 학습 (overtraining)이나 튜닝, 학습 데이터 부족 또는 데이터셋 클래스 범주의 잘못된 설정 등이 있다.
참고문헌 (10)
Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, vol. 521, no.7553, pp. 436-444, May 2015.
M. D. Zeiler, and R. Fergus, "Visualizing and understanding convolutional networks," in Proceedings of the 13th European Conference on Computer Vision, Zurich: CH, pp. 818-833, 2014.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, and A.C. Berg, "ImageNet large scale visual recognition challenge," International Journal of Computer Vision, vol. 115, no. 3, pp. 211-252, Dec. 2015.
K. Alex, S. Ilya, and H. Geoffrey, "ImageNet classification with deep convolutional neural networks," in Proceedings of Advances in Neural Information Processing System, Nevada: NV, pp. 1097-1105, 2012.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "Going deeper with convolutions," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston: MA, pp. 1-9, 2015.
S. Karen and Z. Andrew, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
J.A.K. Suykens, and J. Vandewalle, "Least squares support vector machine classifiers," Neural processing letters 9, no.3, pp.293-300, 1999.
R. Gunnar, T. Onoda, and K. Muller, "Soft margins for adaBoost," Machine learning, vol. 42, no. 3, pp.287-320. 2001.
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," in Proceedings of the Institute of Electrical and Electronics Engineers, vol. 86, no.11, pp.2278-2324, 1998.
Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, "Caffe: An open source convolutional architecture for fast feature embedding," in Proceedings of the 22nd ACM international conference on Multimedia, pp.675-678, 2014.
이 논문을 인용한 문헌
저자의 다른 논문 :
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.