최근 시각장애인 및 교통약자의 자유로운 보행을 보장하기 위한 많은 기술들이 연구되고 있다. 자유로운 보행을 위한 장치로는 영상카메라, 초음파센서 및 가속도 센서 등을 이용하는 스마트 지팡이와 스마트 안경 관련 기술이 있다. 대표적인 기술로는 물체를 식별하여 장애물을 검출하고 보행 가능 영역을 추출하는 기술, 랜드마크 심볼 정보를 인식하여 주위 환경 정보를 주는 기술 등 여러 가지 기술이 개발되고 있다. 본 논문에서는 시각장애인에게 필요한 시설의 대표 심볼을 선정하여 착용한 영상 장치의 정보로부터 심볼을 인식하는 알고리즘을 딥러닝 기술을 이용하여 연구하였다. 그 결과로 딥러닝영상처리 분야에서 사용되는 CNN(Convolutional Neural Network)기법을 사용하여 서로 다른 딥러닝 구조를 실험을 통하여 비교하고 분석하였다.
최근 시각장애인 및 교통약자의 자유로운 보행을 보장하기 위한 많은 기술들이 연구되고 있다. 자유로운 보행을 위한 장치로는 영상카메라, 초음파센서 및 가속도 센서 등을 이용하는 스마트 지팡이와 스마트 안경 관련 기술이 있다. 대표적인 기술로는 물체를 식별하여 장애물을 검출하고 보행 가능 영역을 추출하는 기술, 랜드마크 심볼 정보를 인식하여 주위 환경 정보를 주는 기술 등 여러 가지 기술이 개발되고 있다. 본 논문에서는 시각장애인에게 필요한 시설의 대표 심볼을 선정하여 착용한 영상 장치의 정보로부터 심볼을 인식하는 알고리즘을 딥러닝 기술을 이용하여 연구하였다. 그 결과로 딥러닝 영상처리 분야에서 사용되는 CNN(Convolutional Neural Network)기법을 사용하여 서로 다른 딥러닝 구조를 실험을 통하여 비교하고 분석하였다.
Recently, a number of techniques to ensure the free walking for the visually impaired and transportation vulnerable have been studied. As a device for free walking, there are such as a smart cane and smart glasses to use the computer vision, ultrasonic sensor, acceleration sensor technology. In a ty...
Recently, a number of techniques to ensure the free walking for the visually impaired and transportation vulnerable have been studied. As a device for free walking, there are such as a smart cane and smart glasses to use the computer vision, ultrasonic sensor, acceleration sensor technology. In a typical technique, such as techniques for finds object and detect obstacles and walking area and recognizes the symbol information for notice environment information. In this paper, we studied recognization algorithm of the selected symbols that are required to visually impaired, with the deep learning algorithm. As a results, Use CNN(Convolutional Nueral Network) technique used in the field of deep-learning image processing, and analyzed by comparing through experimentation with various deep learning architectures.
Recently, a number of techniques to ensure the free walking for the visually impaired and transportation vulnerable have been studied. As a device for free walking, there are such as a smart cane and smart glasses to use the computer vision, ultrasonic sensor, acceleration sensor technology. In a typical technique, such as techniques for finds object and detect obstacles and walking area and recognizes the symbol information for notice environment information. In this paper, we studied recognization algorithm of the selected symbols that are required to visually impaired, with the deep learning algorithm. As a results, Use CNN(Convolutional Nueral Network) technique used in the field of deep-learning image processing, and analyzed by comparing through experimentation with various deep learning architectures.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 교통약자에게 보행편의를 제공하기 위해 영상에서 교통약자에게 필요한 시설의 심볼을 가리키는 인식하는 기술을 연구하였다. 최근 이슈가 되고 있는 웨어러블 디바이스에 탑재가 되며 교통약자를 위해서 쓰이는 기술로서 궁극적으로 교통약자의 보행편의에 큰 도움을 줄 수 있는 기술을 연구했다.
본 연구에서는 시각장애인을 위한 랜드마크 심볼을 비전시스템을 이용하여 얻은 영상으로부터 인공신경망을 이용하여 시각장애인에게 정보를 전달하기 위한 인식 방법을 설명하고자 한다.
본 논문에서는 교통약자에게 보행편의를 제공하기 위해 영상에서 교통약자에게 필요한 시설의 심볼을 가리키는 인식하는 기술을 연구하였다. 최근 이슈가 되고 있는 웨어러블 디바이스에 탑재가 되며 교통약자를 위해서 쓰이는 기술로서 궁극적으로 교통약자의 보행편의에 큰 도움을 줄 수 있는 기술을 연구했다. 생성된 데이터베이스는 교통약자의 보행안내를 위한 교통 인프라를 갖추는 데 이용될 수 있다.
제안 방법
시각장애인을 위한 랜드마크 심볼 인식을 위하여 심층 인공 신경망 알고리즘을 사용하였다. 3가지의 심층 인공 신경망을 이용하여 취득한 랜드마크 심볼 DB를 이용하여 학습하여 사용하였다. 랜드마크 인식의 순서는 다음과 같다.
Convolutional layer를 거친 뒤 더 차원이 낮은 feature map을 얻기 위해 subsampling을 거쳐 feature map을 줄여준다. 이 과정을 거치면 강한 신호만 전달하고 나머지 약한 신호는 무시할 수 있게 된다.
39%만큼 성능 향상을 보였다. 또한 학습과 테스트 속도를 측정 하였는데, 데이터베이스를 학습한 뒤 10,000장의 테스트 셋을 이용해 학습과 테스트하였을 때 소요되는 시간을 측정하였다. 그 결과는 표8과 표9와 같다.
랜드마크 인식에 사용한 인공 신경망 구조는 9개의 레이어로 구성된 DNN이며 표1, 표2, 표3과 같은 세 가지의 신경망 구조의 심층 인공 신경망을 구축하였다. 표1과 표2의 차이는 Dropout 알고리즘의 ratio 수치이며 표3은 Dropout 알고리즘을 사용하지 않을 때이다.
실험1은 표지판 DB인 GTSRB DB에서 5개의 클래스와 랜드마크 심볼DB의 1개 클래스를 합쳐 총 클래스를 합쳐 총 6개의 결과를 출력하도록 학습하여 실험 하였고,실험 2는 GTSDB DB 배경 영상 1개 클래스와 랜드마크 심볼DB의 1개 클래스를 합쳐 총 2개의 클래스를 이루며 2개의 결과를 출력하도록 실험하였다. 마지막으로 실험 3은 모든 랜드마크 심볼DB를 이용해 실험을 진행하였다. 표5는 3개의 실험에서 사용한 데이터베이스를 클래스 별로 예를 들어 정리하여 나타낸 것이다.
실험 구성은 표4와 같다. 실험1은 표지판 DB인 GTSRB DB에서 5개의 클래스와 랜드마크 심볼DB의 1개 클래스를 합쳐 총 클래스를 합쳐 총 6개의 결과를 출력하도록 학습하여 실험 하였고,실험 2는 GTSDB DB 배경 영상 1개 클래스와 랜드마크 심볼DB의 1개 클래스를 합쳐 총 2개의 클래스를 이루며 2개의 결과를 출력하도록 실험하였다. 마지막으로 실험 3은 모든 랜드마크 심볼DB를 이용해 실험을 진행하였다.
Layer 1, Layer 3, Layer 5는 인공 신경망에서 convolution 연산을 수행 해 feature map을 형성하는 단계이며 map의 개수는 곧 Convolutional layer의 필터 개수를 뜻한다. 필터 개수는 Convolutional layer를 거칠수록 점점 증가하도록 설계하여 최종적으로 Fully-Connected Layer에서 심볼 클래스의 총 개수 N개 만큼 출력되도록 설계하였다. Convolutionallayer의 뉴런 개수는 X= Input layer의 neuron 크기,Y= Convolutional layer의 filter 크기, Z=neuron의 크기 일 때, Z= X-Y+1로 정해 진다.
대상 데이터
마지막으로 영상의 크기롤 48 x 48로 크기 조절하여 정사각형이 되게 하였다. 그리고 크기조절 된 영상을 학습용 및 실험용 영상으로 사용하였다. 본 실험에 사용한 랜드마크 데이터베이스는 총 10,368 장이고, 학습용 영상은 총 8,525 장,실험용 영상은 총 1,843 장으로 구성하였다.
그리고 크기조절 된 영상을 학습용 및 실험용 영상으로 사용하였다. 본 실험에 사용한 랜드마크 데이터베이스는 총 10,368 장이고, 학습용 영상은 총 8,525 장,실험용 영상은 총 1,843 장으로 구성하였다. 그림 6은 영상 크로핑의 예를 보여준다.
영상 크로핑을 하는 목적은 그래픽 처리 장치(GPU)의 제한된 메모리 양을 고려함과 동시에 연산량의 감소시키기 위함이다. 원본 영상은 랜드마크를 담고 있는 영상이고, 여기에 배경을 제외한 랜드마크 부분을 크로핑 하여 크로핑 된 영상을 얻는다. 마지막으로 영상의 크기롤 48 x 48로 크기 조절하여 정사각형이 되게 하였다.
이론/모형
교통 표지판 및 랜드마크 인식 연구에서 과적합 문제를 피하기 위해 Dropout 알고리즘[7]이 사용 되었다. Dropout 알고리즘은 모든 layer에 대해 학습을 수행하는 것이 아니라 망에 있는 입력 layer나 hidden layer의 일부 뉴런을 생략하고 줄어든 신경망을 통해 학습을 수행한다.
실험 환경은 표6과 같다. 그래픽 처리 장치를 이용해 연산을 수행하기 위해 GTX Titan X 그래픽 처리 장치를 사용 하였으며, 사용한 인공 신경망 툴은 Caffe framework[8]이다. Caffe는 Windows 7 64 bit에서 Visual Studio 2013을 사용해 구동하였다.
시각장애인을 위한 랜드마크 심볼 인식을 위하여 심층 인공 신경망 알고리즘을 사용하였다. 3가지의 심층 인공 신경망을 이용하여 취득한 랜드마크 심볼 DB를 이용하여 학습하여 사용하였다.
성능/효과
실험DB에 따라 실험을 3개로 나누고, 인공 신경망 구조에 따라 신경망 구조를 3개로 나누어 실험 한 결과는 표7과 같다. 인식 실험 결과, Dropout을 사용 한(신경망 구조1, 신경망 구조2) 경우가 사용하지 않은(신경망 구조 3) 보다 실험 1은 0.52 %, 실험 2는 0.16 %만큼 실험 3은 0.39%만큼 성능 향상을 보였다. 또한 학습과 테스트 속도를 측정 하였는데, 데이터베이스를 학습한 뒤 10,000장의 테스트 셋을 이용해 학습과 테스트하였을 때 소요되는 시간을 측정하였다.
그 결과는 표8과 표9와 같다. 결과적으로 Dropout을 이용한 신경망 구조가 인식결과 더 좋은 성능을 내고 학습 시간도 더 줄여주는 효과를 내는 것을 보여주었다.
후속연구
하지만 반사가 심한 물체, 역광 또는 날씨 등 외부요건들로 인해 영상 취득이 용이하지 못한 상황일 경우 랜드마크 심볼 인식에 문제가 생길 수 있다. 따라서, 향후에는 외부 환경적인 요소에 의한 시스템 민감도를 최소화 할 수 있는 최적화에 대한 연구 개발이 지속적으로 이루어져야 한다고 판단된다.
따라서 보행상세정보 데이터베이스 생성을 위한 랜드마크를 검출 및 인식 기술 개발에 대한 필요성이 대두되고 있다. 안내보행을 위한 보행상세정보 데이터베이스 생성은 기존의 영상 기반 객체 검출 및 인식알고리즘으로부터 응용할 수 있는 많은 분야 중 하나로 판단할 수 있으며, 시각장애인이나 노인의 보행을 보조할 수 있는 시각보조 장치를 연구할 필요성이 있다. 비전 정보를 활용한 랜드마크 검출 및 인식 기술은 교통약자를 위한 보행환경에 변화와 개선을 가져올 것이고, 이는 궁극적으로 교통약자가 비 교통약자인 일반인과 동일한 공평하고 편리한 교통권을 영위하는데 일익을 담당할 것이다.
현재 스마트폰 이후 많은 분야에서 웨어러블디바이스에 대한 연구가 진행되고 있다. 이전 기술의 발전방향은 단순한 액세서리형, 직물/의류 일체형, 신체부착형, 생체 이식형으로 일반인을 위한 기술 정립 단계였다면 앞으로의 발전방향은 시각장애인, 청각장애인, 신체장애인, 어린이, 노약자를 대상으로 한 제품 연구가 크게 증진될 전망이다. 교통약자의 보행 보조를 위한 기술로는 스마트폰 케이스, 스마트 지팡이와 스마트 안경 관련 기술이 대표적이고, 본 장치들을 이용해 물체를 식별하고 위치를 검출하는 기술 개발이 진행되고 있으며, 초음파 및 가속도 센서를 이용한 방법, 시각장애인들이 보다 안전하고 편리한 보행이 가능하도록 사물 지능통신(M2M : Machine-to-Machine)기반의 지능형 보행보조 시스템 등도 개발되고 있다[1,2].
질의응답
핵심어
질문
논문에서 추출한 답변
SIFT의 특징은?
또 다른 심볼 인식 방법으로는 특징 매칭을 이용한 인식 기술이 있다. 기본적인 특징 매칭 방법으로는 SIFT가 많이 사용되었는데 가장 일반적인 방법이지만 많은 계산량을 필요로 한다. 또한 Hu,Tchebichef, Zernike 등의 불변 모멘트방식에 비해 좋은 인식률을 보여준 CPT(Central Projected Transformation) 기반의 도형 특징을 추출하여 식별하는 방식이 있다.
인공 신경망이란?
인식 기술의 대표적인 방법인 인공 신경망을 이용한 인식 방법은 기계학습의 대표적인 기술로 사전에 검출한 표지판DB 및 랜드마크DB 영상을 신경망을 통해 특징 벡터를 추출하고 신경망의 계층 구조를 통해 학습 및 분류 시키고 인식하는 방법이다. 인공 신경망은 생물학적 시신경 원리에 착안하여 구조를 이루는데 다층 구조를 이루어, 각 층을 거침으로써 최종적으로 변화에 강인한 특징을 추출하여 영상을 인식 및 분류하는 시스템이다. 인공 신경망 중에서 영상처리 분야에서 많이 쓰이는 회선 신경망(CNN; Convolutional Neural Network)의 일반적인 다층 구조는 그림 1에 묘사되어 있다[3].
시각장애인 및 교통약자의 자유로운 보행을 위해 개발된 대표적인 기술은?
자유로운 보행을 위한 장치로는 영상카메라, 초음파센서 및 가속도 센서 등을 이용하는 스마트 지팡이와 스마트 안경 관련 기술이 있다. 대표적인 기술로는 물체를 식별하여 장애물을 검출하고 보행 가능 영역을 추출하는 기술, 랜드마크 심볼 정보를 인식하여 주위 환경 정보를 주는 기술 등 여러 가지 기술이 개발되고 있다. 본 논문에서는 시각장애인에게 필요한 시설의 대표 심볼을 선정하여 착용한 영상 장치의 정보로부터 심볼을 인식하는 알고리즘을 딥러닝 기술을 이용하여 연구하였다.
참고문헌 (8)
J. Choi, G. Jeong, "Development of Walking Assist Smartphone Case for Blind People", The Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol.8, No.3, pp.239-242, 2015.
C. Kang, H. Jo, B. Kim, "A Machine-to-machine based Intelligent Walking Assistance System for Visually Impaired Person", The Journal of The Korean Institute of Communication Sciences, Vol.36, No.3, pp.287-296, 2011.
P. Sermanet, K. Kavukcuoglu, S. Chintala and Y. LeCun, "Pedestrian detection with unsupervised multi-stage feature learning", Proc. IEEE Conference on Computer Vision Pattern Recognition (CVPR), pp.3626-3633, 2013.
D. Dajun and C. Lee, "Fast algorithm for Traffic Sign Recognition", Journal of IKEEE, Vol.16, No.4, pp.356-363, December 2012.
A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106-1114, 2012.
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever and R. Salakhutdinov, "Dropout: A simple way to prevent neural networks from overfitting", The Journal of Machine Learning Research, Vol.15, Issue.1, pp.1929-1958, 2014.
Y. Jia, et al. "Caffe: Convolutional architecture for fast feature embedding", Proceedings of the 22nd ACM International Conference on Multimedia, pp. 675-678, 2014.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.