[논문]계층적 CNN을 이용한 방송 매체 내의 객체 인식 시스템 성능향상 방안

권명규; 양효식

doi:10.14400/jdc.2017.15.3.201

초록
AI-Helper

본 논문은 계층적 Convolutional Nerual Network(CNN)을 이용한 스마트폰용 객체 인식 시스템이다. 전체적인 구성은 스마트폰과 서버를 연결하여 서버에서 컨볼루셔널 뉴럴 네트워크로 객체 인식을 하고 수집된 데이터를 매칭시켜 스마트폰으로 객체의 상세정보를 전달하는 방법이다. 또한 계층적 컨볼루셔널 뉴럴 네트워크와 단편적 컨볼루셔널 뉴럴 네트워크와 비교하였다. 계층적 컨볼루셔널 뉴럴 네트워크는 88%, 단편적 컨볼루셔널 뉴럴 네트워크는 73%의 정확도를 가지며 15%p의 성능 향상을 보였다. 이를 기반으로 스마트폰과 방송매체와 연동한 T-Commerce 시장 확장의 가능성을 보여준다. 아울러 방송영상을 시청하면서 Information Retrieval, AR/VR 서비스도 제공 가능하다.

Abstract ▼ AI-Helper

This paper is a smartphone object recognition system using hierarchical convolutional neural network. The overall configuration is a method of communicating object information to the smartphone by matching the collected data by connecting the smartphone and the server and recognizing the object to t...

This paper is a smartphone object recognition system using hierarchical convolutional neural network. The overall configuration is a method of communicating object information to the smartphone by matching the collected data by connecting the smartphone and the server and recognizing the object to the convergence neural network in the server. It is also compared to a hierarchical convolutional neural network and a fractional convolutional neural network. Hierarchical convolutional neural networks have 88% accuracy, fractional convolutional neural networks have 73% accuracy and 15%p performance improvement. Based on this, it shows possibility of expansion of T-Commerce market connected with smartphone and broadcasting media.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

논문에서는 방송 매체에 나오는 객체를 이용한 객체 인식을 목표로 한다. 그렇기 때문에 대부분의 학습 이미지는 방송 매체에서 수집하였다.
본 논문은 스마트폰을 이용한 방송 매체 내의 객체의 인식을 향상 시키는 방법이다. 스마트폰에서는 CNN을 계산하기 위한 하드웨어의 성능이 낮기 때문에 CNN 계산을 스마트폰에서 하게 되면 실시간으로 적용하기 힘들다.
하지만 이 방법은 알고리즘의 특성상 단일 CNN으로는 정확도가 매우 떨어짐을 기존의 Image Large Scale Visual RecognitionChallenge(ILSVRC)을 보면 알 수 있다[3]. 이러한 문제를 해결하기 위해 학습 모델을 계층적으로 구성한 계층적 CNN모델을 제안한다.
첫 번째는 단일 CNN 모델의 Layer별 성능 비교, 두 번째는 단일 CNN 모델과 계층적 CNN 모델의 성능 평가 및 비교이다. 최종적으로 성능이 더 뛰어난 CNN 모델을 적용한 CNN 서버와 스마트폰를 연동하여 실시간으로 사용이 가능할 수 있는지 평가를 한다. CNN 성능평가는 테스트 이미지를 넣어 결과로 추정되는 값 3개를 추출하여 그 중에 있으면 정답으로 인정한다.

제안 방법

전체적인 시스템의 속도는 약 3초미만으로 실시간으로 활용이 가능하다. 본 논문의 실험은 두 개의 서버를 이용한 시스템을 기반으로 한다. 하나는 CNN을 이용한 객체 인식 서버이고, 다른 하나는 데이터 정보를 가지고 있는 데이터베이스 서버이다.
하나는 CNN을 이용한 객체 인식 서버이고, 다른 하나는 데이터 정보를 가지고 있는 데이터베이스 서버이다. 스마트폰을 이용하여 각 서버와 통신을 통해서 결과를 받게 되는데 본 실험에서는 동일한 시스템에서 CNN 서버의 구조만을 변경하여 실험을 진행하였다.
우선 방송 매체 내의 객체를 스마트폰 카메라를 이용하여 촬영을 한다. 촬영된 이미지를 CNN 서버로 전송한다.
그렇기 때문에 상세하게 구별하는 것이 매우 어렵다. 이러한 복잡성을 해결하기 위해 계층적 CNN 모델을 제안한다. 계층적 CNN 모델은 첫 번째 CNN 모델로 객체의 종류를 분류하고, 두 번째 CNN 모델로 세부 종류를 구분한다.
촬영된 이미지를 CNN 서버로 전송한다. 전송된 이미지를 CNN을 통해 객체를 인식하고 인식된 결과를 이용하여 객체 데이터베이스를 통해 스마트폰으로 사용자에게 필요한 정보를 제공한다.
본 논문에서는 총 2가지의 실험을 진행한다. 첫 번째는 단일 CNN 모델의 Layer별 성능 비교, 두 번째는 단일 CNN 모델과 계층적 CNN 모델의 성능 평가 및 비교이다. 최종적으로 성능이 더 뛰어난 CNN 모델을 적용한 CNN 서버와 스마트폰를 연동하여 실시간으로 사용이 가능할 수 있는지 평가를 한다.
컨볼루셔널 뉴럴 네트워크는 컨볼루션과 풀링 기법이 사용되고 마지막엔 완전 연결 Layer(fully connected layer)가 있어서 계산이 된다. 컨볼루션과 풀링 기법을 사용하여 이미지의 특징을 추출하고 마지막에 이를 모두 연결하여 백프로퍼게이션(back-propagation)을 하여 학습을 진행한다[11] [12]

대상 데이터

CNN 성능평가는 테스트 이미지를 넣어 결과로 추정되는 값 3개를 추출하여 그 중에 있으면 정답으로 인정한다. CNN 모델은 Ubuntu 14.04 LTS 64bit의 OS에서 Theano 기반의 Keras로 코드를 구성하였다. GPU는 980ti 6GB를 사용하였다.
CNN을 학습하고 학습된 네트워크와 가중치를 저장한 후 예측하기 위한 계산에도 높은 하드웨어 성능이 필요하기 때문에 CNN 서버를 별도로 구성한다. 방송 매체는 IPTV의 홈쇼핑 채널을 대상으로 하다.
10]을 보면 A부터 T까지 총 20개의 객체 종류가 있고 내부적으로 각각 5개의 세부 종류가 들어가 있다. 본 실험에서 사용할 데이터는 각 10장씩 구성된 세부 종류의 이미지로 전체 100개의 객체이다. 이렇게 총 1,000장의 데이터를 이용해 학습과 테스트를 진행한다.
단일 CNN 모델은 일반적으로 사용하는 가장 기초적인 CNN 구조이다. 본 실험에서는 기본적으로 컨볼루셔널 Layer의 수를 4개, 5개, 6개로 나눠서 실험을 한다. 다양한 Layer를 통한 모델을 구성한 이유는 바로 적합성을 판단하기 위해서다.
본 실험에서 사용할 데이터는 각 10장씩 구성된 세부 종류의 이미지로 전체 100개의 객체이다. 이렇게 총 1,000장의 데이터를 이용해 학습과 테스트를 진행한다.
그렇기 때문에 대부분의 학습 이미지는 방송 매체에서 수집하였다. 총 20개의 객체 종류와 각 종류 별 세부 제품을 각 5개씩 구성하고 제품 별 10장의 이미지를 데이터셋으로 구성한다[17]. [Fig.
Layer의 개수에 따라 4L, 5L, 6L로 명시한다. 학습에 사용되는 입력 이미지의 크기는 256x256의 컬러 이미지를 사용하고 컨볼루션과 풀링을 반복하는 구조로 구성한다. 컨볼루션 필터의 사이즈는 4L, 5L, 6L의 모델이 서로 다 다르다.

이론/모형

계층적 CNN 모델은 단일 CNN 모델과 달리 두 개의 서로 다른 종류의 CNN 모델을 사용한다[10]. 방송매체의 객체는 매우 종류가 다양하다.
계층적 CNN 모델은 단일 CNN 모델을 연결하여 사용한다. 100개 중 하나를 추출하는 방법은 이미 증명되어있지만 방송 매체에 나오는 객체의 특성상 같은 종류의 객체지만 제조사, 기능 등 세부적인 특징이 다른 것이 있기 때문에 정확도가 일반 객체 인식과 비교하여 많이 떨어진다.

성능/효과

하지만 단일 CNN 모델에서는 6L보다는 5L이 더 효율적으로 볼 수 있다. 6L과 5L의 정확도는 약 2% 정도를 보이지만 학습에 소요되는 시간은 5L보다 6L가 약 1.5배 정도 더 오래 걸린다는 것을 실험을 통해 알 수 있었다. 결과적으로는 계층적 CNN 모델이 단일 CNN 모델보다 더 효율적이며 더 향상된 성능을 보인다.
5배 정도 더 오래 걸린다는 것을 실험을 통해 알 수 있었다. 결과적으로는 계층적 CNN 모델이 단일 CNN 모델보다 더 효율적이며 더 향상된 성능을 보인다. 또한 CNN 서버에서 객체인식하는 시간도 약 2초이며 전송 시간을 포함하여 약 2초 내외가 소요 되므로 실시간으로 사용하는 것도 문제가 없을 것으로 보인다.
이런 방법으로 단일 CNN 모델은 73%의 정확도를, 계층적 CNN 모델은 88%의 정확도를 보였다. 기존의 방법보다 15%p 향상되었으며, 동작 속도에는 많은 차이를 보이지 않는다. 즉 단일 CNN 모델의 성능이 떨어지는 단점이 있다.
단일 CNN 모델은 6L의 73%가 가장 높은 성능을 보였고, 계층적 CNN 모델은 최종 88%의 성능을 보였다. 하지만 단일 CNN 모델에서는 6L보다는 5L이 더 효율적으로 볼 수 있다.
본 연구에서는 ILSVRC에서처럼 상위 3개에 정답이 나오면 맞춘 것으로 간주한다. 이런 방법으로 단일 CNN 모델은 73%의 정확도를, 계층적 CNN 모델은 88%의 정확도를 보였다. 기존의 방법보다 15%p 향상되었으며, 동작 속도에는 많은 차이를 보이지 않는다.
즉 단일 CNN 모델의 성능이 떨어지는 단점이 있다. 전체적인 시스템의 속도는 약 3초미만으로 실시간으로 활용이 가능하다. 본 논문의 실험은 두 개의 서버를 이용한 시스템을 기반으로 한다.

후속연구

등록되어있는 일부의 상품만을 해야 하는 이유는 모든 상품에 대한 정보를 자동으로 인식할 수 없기 때문이다. 만약 등록되어있지 않은 상품정보를 알 수 있다면 더욱 확장된 시장이 형성될 것이다.
다양한 Layer를 통한 모델을 구성한 이유는 바로 적합성을 판단하기 위해서다. 본 논문의 시스템은 실시간 동작이 필요하기 때문에 모델을 통한 객체를 예측하는 속도를 최대한으로 줄이는 것이 필요하다.
하지만 VGGNet이나 GoogleNet, ResNet 등 더욱 복잡한 CNN 모델이 있다. 이렇게 복잡한 모델을 사용할 수 있는 하드웨어가 뒷받침이 되어준다면 정확도가 향상 될 수 있을 것이다. 복잡한 모델을 사용하더라도 학습 시간은 오래 걸리지만 객체를 예측하여 분류하는 것은 큰 차이가 없다.
추후에는 계층적 CNN 모델 내부의 CNN 모델의 구조를 최신 CNN 모델처럼 복잡하게 구성하고 이미지 데이터셋을 확장하여 스마트폰을 이용한 방송 매체 내의 객체인식 성능을 향상시킬 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	학습 모델을 계층적으로 구성한 계층적 CNN모델을 제안하는 것은 어떤 문제를 해결하기 위함인가?	특히 이미지에 특화된 딥 러닝 알고리즘 중 하나인 컨볼루셔널 뉴럴 네트워크(Convolutional Neural Network, CNN)은 이미지 객체 인식에 특화된 알고리즘이다[7, 8, 9]. 하지만 이 방법은 알고리즘의 특성상 단일 CNN으로는 정확도가 매우 떨어짐을 기존의 Image Large Scale Visual RecognitionChallenge(ILSVRC)을 보면 알 수 있다[3]. 이러한 문제를 해결하기 위해 학습 모델을 계층적으로 구성한 계층적 CNN모델을 제안한다.
	딥 러닝 알고리즘이란 무엇인가?	최근 GPU와 인터넷의 발전으로 딥 러닝 알고리즘이 크게 발전되고 있다[2, 3]. 딥 러닝 알고리즘은 컴퓨터를 학습시키는 방법으로 이미지, 자연어, 음성 등 다양한 분야에서 응용되고 있다. 특히 이미지 분류 및 인식은 2012년에 mean average precision이 0.
	계층적 CNN 모델은 무엇을 사용하는가?	계층적 CNN 모델은 단일 CNN 모델과 달리 두 개의 서로 다른 종류의 CNN 모델을 사용한다[10]. 방송매체의 객체는 매우 종류가 다양하다.

참고문헌 (17)

DIGIECO, Trend Spectrum, "India is the only hope for global smartphone market", http://www.digieco.co.kr/KTFront/dataroom/dataroom_weekly_view.action?board_seq10980, KT, June, 6, 2016
Wang, Sun-Chong. "Artificial neural network." Interdisciplinary Computing in Java Programming. Springer US, 2003. 81-100.
Y. LeCun, Y. Bengio, & G. Hinton, "Deep learning." Nature 521.7553, pp. 436-444, 2015.

상세보기
DOI : http://image-net.org/LSVRC/2012/.
R. Girshick, J. Donahue, T. Darrell & J. Malik, "Region-based convolutional networks for accurate object detection and segmentation." IEEE transactions on pattern analysis and machine intelligence, Vol. 38, No. 1 pp. 142-158, 2016.

상세보기
J. Justin, A. Karpathy, and L. Fei-Fei. "Densecap: Fully convolutional localization networks for dense captioning." arXiv preprint arXiv:1511.07571. 2015.
A. Krizhevsky, I. Sutskever, and G. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. pp. 1097-1105, 2012.
A.. Karpathy, G. Toderici, S. Shetty, T. Leung, R., Sukthankar, & L. Fei-Fei, "Large-scale video classification with convolutional neural networks." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. pp. 1725-1732, 2014.
D. Cire？an, U. Meier, J. Masci, L. Gambardella, & J. Schmidhuber, "High-performance neural networks for visual object classification." arXiv preprint arXiv:1102.0183, 2011.
Chan-hee Jeong, ""Head Pose Estimation and Facial Feature Point Alignment based on Deep Learning", Master Thesis, Sejong University, 2016.
Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, & L. Jackel, "Backpropagation applied to handwritten zip code recognition." Neural computation, Vol. 1, No. 4, pp. 541-551, 1989.

상세보기
Y. LeCun, L. Bottou, Y. Bengio, & P. Haffner, "Gradient-based learning applied to document recognition." Proceedings of the IEEE, Vol. 86, No. 11, pp. 2278-2324., 1998

상세보기
J. Matthews, "An introduction to edge detection: The sobel edge detector; 2002." Dostupny na URL: http://www.generation5.org/content/2002/im01.asp (kveten 2007), 2014.
A. Giusti, D. Cire？an, J. Masci, L. Gambardella, & J. Schmidhuber, "Fast image scanning with deep max-pooling convolutional neural networks." arXiv preprint arXiv:1302.1700 , 2013.
L. Bottou, "Large-scale machine learning with stochastic gradient descent." Proceedings of COMPSTAT'2010. Physica-Verlag HD, pp. 177-186, 2010.
N. Srivastava, G. Hinton, A. Krizhevsky, , I. Sutskever, & R. Salakhutdinov, , "Dropout: a simple way to prevent neural networks from overfitting." Journal of Machine Learning Research, Vol. 15, No. 1, pp. 1929-1958, 2014.
J. Deng, W. Dong, R. Socher, L. Li, K. Li, & L. Fei-Fei, Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, CVPR 2009. IEEE Conference on., pp. 248-255, June, 2009.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

계층적 CNN을 이용한 방송 매체 내의 객체 인식 시스템 성능향상 방안
Performance Improvement of Object Recognition System in Broadcast Media Using Hierarchical CNN 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

계층적 CNN을 이용한 방송 매체 내의 객체 인식 시스템 성능향상 방안 Performance Improvement of Object Recognition System in Broadcast Media Using Hierarchical CNN 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

권명규 (1) 양효식 (6)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

계층적 CNN을 이용한 방송 매체 내의 객체 인식 시스템 성능향상 방안
Performance Improvement of Object Recognition System in Broadcast Media Using Hierarchical CNN 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper