인간의 눈과 같이 이미지에서 유용한 정보를 추출하는 기능은 인공지능 컴퓨터 구현에 필수적인 인터페이스 기술이다. 이미지에서 건물을 인식하여 추론하는 기술은 다양한 형태의 건물 외관, 계절에 따른 주변 잡음 이미지의 변화, 각도 및 거리에 따른 왜곡 등으로 다른 이미지 인식 기술 보다 인식률이 떨어진다. 지금까지 제시된 컴퓨터 비전(Computer Vision) 기반의 건물 인식 알고리즘들은 건물 특성을 수작업으로 정의하기 때문에 분별력과 확장성에 한계가 있다. 본 논문은 최근 이미지 인식에 유용한 딥러닝의 CNN(Convolutional Neural Network) 모델을 활용하는데 건물 외관에 나타나는 변화, 즉 계절, 조도, 각도 및 원근에 의해 떨어지는 인식률을 향상시키는 새로운 방법을 제안한다. 건물 전체 이미지와 함께 건물의 특징을 나타내는 부분 이미지들, 즉 창문이나 벽재 이미지의 데이터 세트를 함께 학습시키고 건물 인식에 활용함으로써 일반 CNN 모델 보다 건물 인식률을 약 14% 향상됨을 실험으로 증명하였다.
인간의 눈과 같이 이미지에서 유용한 정보를 추출하는 기능은 인공지능 컴퓨터 구현에 필수적인 인터페이스 기술이다. 이미지에서 건물을 인식하여 추론하는 기술은 다양한 형태의 건물 외관, 계절에 따른 주변 잡음 이미지의 변화, 각도 및 거리에 따른 왜곡 등으로 다른 이미지 인식 기술 보다 인식률이 떨어진다. 지금까지 제시된 컴퓨터 비전(Computer Vision) 기반의 건물 인식 알고리즘들은 건물 특성을 수작업으로 정의하기 때문에 분별력과 확장성에 한계가 있다. 본 논문은 최근 이미지 인식에 유용한 딥러닝의 CNN(Convolutional Neural Network) 모델을 활용하는데 건물 외관에 나타나는 변화, 즉 계절, 조도, 각도 및 원근에 의해 떨어지는 인식률을 향상시키는 새로운 방법을 제안한다. 건물 전체 이미지와 함께 건물의 특징을 나타내는 부분 이미지들, 즉 창문이나 벽재 이미지의 데이터 세트를 함께 학습시키고 건물 인식에 활용함으로써 일반 CNN 모델 보다 건물 인식률을 약 14% 향상됨을 실험으로 증명하였다.
The ability to extract useful information from an image, such as the human eye, is an interface technology essential for AI computer implementation. The building recognition technology has a lower recognition rate than other image recognition technologies due to the various building shapes, the ambi...
The ability to extract useful information from an image, such as the human eye, is an interface technology essential for AI computer implementation. The building recognition technology has a lower recognition rate than other image recognition technologies due to the various building shapes, the ambient noise images according to the season, and the distortion by angle and distance. The computer vision based building recognition algorithms presented so far has limitations in discernment and expandability due to manual definition of building characteristics. This paper introduces the deep learning CNN (Convolutional Neural Network) model, and proposes new method to improve the recognition rate even by changes of building images caused by season, illumination, angle and perspective. This paper introduces the partial images that characterize the building, such as windows or wall images, and executes the training with whole building images. Experimental results show that the building recognition rate is improved by about 14% compared to the general CNN model.
The ability to extract useful information from an image, such as the human eye, is an interface technology essential for AI computer implementation. The building recognition technology has a lower recognition rate than other image recognition technologies due to the various building shapes, the ambient noise images according to the season, and the distortion by angle and distance. The computer vision based building recognition algorithms presented so far has limitations in discernment and expandability due to manual definition of building characteristics. This paper introduces the deep learning CNN (Convolutional Neural Network) model, and proposes new method to improve the recognition rate even by changes of building images caused by season, illumination, angle and perspective. This paper introduces the partial images that characterize the building, such as windows or wall images, and executes the training with whole building images. Experimental results show that the building recognition rate is improved by about 14% compared to the general CNN model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
특히 시간이나 계절에 따라 건물 주변의 환경이 변화되면 알고리즘이 의도대로 정확하게 동작하지 않는 단점이 존재하기 때문에 실제 상황에 적용이 어렵다. 따라서 본 논문은 이러한 문제점을 해결하기 위해 딥러닝(Deep Learning)을 이용한 건물 인식 방법에 대해 연구하였으며, 특히 영상 인식에 특화된 지도학습 모델 중 하나인 CNN을 활용해서 대학 캠퍼스 내의 건물들을 학습하고 정확하게 구분하는 새로운 방법에 대해 연구하였다.
딥러닝은 학습 데이터를 CNN 알고리즘에 입력하여 건물의 특징점을 자동 추론하므로 전통적인 영상처리 알고리즘의 한계를 극복했지만, 건물 이미지는 시간과 계절에 따라 외부 환경 요인이 변화되므로 학습 데이터가 모든 경우를 반영할 수 없다. 따라서 본 논문은 환경 변화에 강인한 건물의 특징 이미지를 데이터 세트로 구성하여 딥러닝 CNN 알고리즘으로 학습시키고 인식된 특징점들의 조합으로 건물을 인식하는 방법을 제안한다.
본 논문에서는 건물의 특징을 나타내는 부분 이미지를 수작업으로 건물 이미지에서 추출하였는데 건물의 반복적인 패턴 이미지나 건물 자체의 공통적인 벽재 이미지를 자동으로 추출하는 프로그램의 개발을 개발하여 자동화하는 것이 가능하여 효율성을 높일 수 있다.
본 논문은 딥러닝 CNN 모델을 건물 인식에 적용하였는데 건물 외관에 나타나는 변화, 즉 계절, 조도, 각도 및 원근에 의해 떨어지는 인식률을 향상시키는 새로운 방법을 제안하였다. 건물 전체 이미지와 함께 건물의 특징을 나타내는 부분 이미지들, 즉 창문이나 벽재 이미지를 함께 학습시키고 건물 인식에 활용함으로써 이미지 잡음에 더욱 강인한 건물 인식 방법을 제안하였다.
본 연구에서는 건물 이미지의 특징점을 별도의 이미지로 추출하여 학습하므로 매우 많은 양의 이미지를 빠르게 처리할 수 있도록 R-CNN 알고리즘 보다 속도가 개선된 YOLO 알고리즘을 선택하였다.
제안 방법
제안하였다. 건물 전체 이미지와 함께 건물의 특징을 나타내는 부분 이미지들, 즉 창문이나 벽재 이미지를 함께 학습시키고 건물 인식에 활용함으로써 이미지 잡음에 더욱 강인한 건물 인식 방법을 제안하였다. 건물 전체 이미지로 학습된 경우 주변 환경의 변화에 의해 인식률이 낮아진다는 것을 실험을 통해 증명하였고, 이를 극복하기 위하여 건물의 특징을 나타내는 반복적인 이미지 패턴으로 학습시키는 본 논문의 방법이 건물 인식률을 약 14% 향상시킴을 실험으로 증명하였다.
구축하여 학습을 진행하였다. 건물의 전체 이미지로 학습하지 않고 건물의 조각난 이미지 중에 창문이나 벽 재와 같이 건물들을 구분하는 특징적인 이미지로 학습한다. 이러한 이미지 세트는 건물 간의 차별성을 강조하므로 인식률을 향상시킨다.
본 논문은 CNN 알고리즘을 이용하여 학습과 건물 인식의 2단계 프로세스를 구축하였다. 학습의 첫 단계는 건물 전체 이미지를 그림 7과 같이 NxN의 부분 이미지들로 나눈 후, 건물의 창문이나 벽재 같이 건물에 특화된 부분 이미지들로 데이터 세트를 구축한다.
실험은 본 논문이 제안한 방법을 일반적인 CNN 방법과 비교하였는데 학습용 건물 이미지 세트로 CNN 모델을 학습하였고, 본 논문의 인식 모델은 건물 이미지에서 부분 이미지 세트를 추출하여 추가한 후 학습하고 동일한 실제 이미지들로 각각의 인식률을 평가하였다. 학습데이터 세트 25,000장과 검증 데이터 세트 15, 000장으로 총 40, 000장의 이미지를 45,000번 학습하였다.
외부 장애물로 인해 건물 인식률이 저하되는 문제를 해결하기 위해 그림 7과 같이 이미지를 잘라 데이터 세트를 구축하여 학습을 진행하였다. 건물의 전체 이미지로 학습하지 않고 건물의 조각난 이미지 중에 창문이나 벽 재와 같이 건물들을 구분하는 특징적인 이미지로 학습한다.
이러한 특징점을 활용한 매칭 알고리즘으로 SIFT (Scale Invariant Feature Transform), BoW(Bag of Words) 의 영상 처리 분야의 알고리즘과 SVM(Support Vector machine)과 같이 기계 학습의 분야 중 하나로 패턴인식을 위한 지도 학습 모델을 결합하여 제안하였다 [9-10]. 이 알고리즘의 경우도 사람이 직접 건물의 특성을 파악하고 특징점 패턴의 규칙을 찾아내어야 하는 단점이 있다.
그림 2와 같이 콘볼루션 계층(Convolutional Layer), 풀링 계층(Pooling Layer), 분류 계층(Classification Layer) 으로 구성된다. 이미지의 특성을 고려하면서 특징을 추출하기 위한 콘볼루션을 수행하며, 영상에서 이동과 변형에 무관한 학습 결과를 보이기 위해 풀링을 반복한다. 이 과정을 수행하면서 지역적인 특징으로부터 전역적인 특징을 얻게 된다.
동영상 촬영을 진행하였다. 주변 환경의 변화가 고려된 실제 테스트를 위하여 촬영 시간과 각도, 계절을 달리하여 동영상을 촬영하였다. 건물 전체 이미지로 학습된 CNN으로 추론을 진행한 결과 그림 6의 왼쪽 그림과 같이 외부 장애물 요소가 없을 때는 정상적으로 체육관을 인식하지만, 오른쪽 그림과 같이 가로등이나 나무가 건물을 많이 가리는 경우에는 체육관을 인식하지 못하는 경우가 다수 존재하였다.
대상 데이터
학습을 진행하였다. 2, 500장의 건물 이미지는 학습데이터 세트(Training Data Set)로 활용하고, 나머지는 검증 데이터 세트(Validation Data Set)로 학습하였다. 특히 본 논문의 방법은 기존의 건물 이미지에서 특징점을 포함한 부분 이미지를 별도의 이미지로 추출하여 학습하기 때문에 기존의 방법 보다 약 10배의 이미지를 더 많이 처리한다.
대학 캠퍼스 내 10개 건물을 대상으로 각 건물당 400 장의 학습 데이터를 수집하여 총 4, 000장의 이미지 데이터를 수집하였고 GPU 고속 연산을 이용하여 총 45, 000 번의 학습을 진행하였다. 2, 500장의 건물 이미지는 학습데이터 세트(Training Data Set)로 활용하고, 나머지는 검증 데이터 세트(Validation Data Set)로 학습하였다.
실제 상황에서의 인식률 평가를 위하여 대학교 캠퍼스 내 10개 건물을 대상으로 건물 이미지를 수집하였다. 이것들은 학습 데이터 세트와는 다른 실제 건물인식용 이미지들이다.
이것들은 학습 데이터 세트와는 다른 실제 건물인식용 이미지들이다. 인식률 성능 평가는 다양한 상황을 반영하기 위하여 다른 계절, 다양한 조도와 거리와 각도에서 각 건물의 동영상을 촬영하였고, 동영상 파일에서 건물당 200개씩, 총 2,000장의 사진을 추출하여 실험을 진행하였다.
학습과 검증 데이터를 수집하기 위해 체육관 건물을 대상으로 동영상 촬영을 진행하였다. 주변 환경의 변화가 고려된 실제 테스트를 위하여 촬영 시간과 각도, 계절을 달리하여 동영상을 촬영하였다.
학습데이터 세트 25,000장과 검증 데이터 세트 15, 000장으로 총 40, 000장의 이미지를 45,000번 학습하였다. GPU 내장 PC에서 약 50시간이 소요되었다.
현재 연구에서는 대학 내 10개 건물에만 적용하였는데 복잡한 대도시에 적용할 경우는 GPS 데이터를 활용함으로써 인식할 건물의 후보군을 제한할 수 있다. 또한 학습에는 많은 시간이 소요되지만 실제 건물 인식에는 최종 학습 된 파라미터 데이터만이 사용되므로 인터넷 통신에 의한 서버와 클라이언트 개념으로 동작한다면 장소에 제약 없이 실시간 동작으로 구현하는 것도 가능하다.
성능/효과
건물 전체 이미지와 함께 건물의 특징을 나타내는 부분 이미지들, 즉 창문이나 벽재 이미지를 함께 학습시키고 건물 인식에 활용함으로써 이미지 잡음에 더욱 강인한 건물 인식 방법을 제안하였다. 건물 전체 이미지로 학습된 경우 주변 환경의 변화에 의해 인식률이 낮아진다는 것을 실험을 통해 증명하였고, 이를 극복하기 위하여 건물의 특징을 나타내는 반복적인 이미지 패턴으로 학습시키는 본 논문의 방법이 건물 인식률을 약 14% 향상시킴을 실험으로 증명하였다.
GPU 내장 PC에서 약 50시간이 소요되었다. 오류 역방향 전파 알고리즘, Softmax 함수를 이용하여 CNN 파라미터들을 수정하면서 반복적으로 학습을 진행한 결과 학습이 반복적으로 진행될수록 검증 데이터에 대한 오답률이 0%에 수렴하였다(그림 10).
일반 CNN 모델을 적용한 평균 인식률은 70.9% 인 데 반하여 본 논문의 부분 이미지 기반 건물 인식 방법은 평균 인식률 84.6%로 건물 외부의 환경 변화에 더욱 강인함을 증명하였다.
2, 500장의 건물 이미지는 학습데이터 세트(Training Data Set)로 활용하고, 나머지는 검증 데이터 세트(Validation Data Set)로 학습하였다. 특히 본 논문의 방법은 기존의 건물 이미지에서 특징점을 포함한 부분 이미지를 별도의 이미지로 추출하여 학습하기 때문에 기존의 방법 보다 약 10배의 이미지를 더 많이 처리한다.
후속연구
Farfan-Escobed가 2017년 저술한 ‘Towards Accurate Building Recognition using Convolutional Neural Networks’ 논문 [11]에서는 전통적인 영상처리 알고리즘에 SVM 알고리즘과 이와 유사한 RF(Random Forest) [12] 기계학습이 결합한 방법들을 적용하고 비교하여 딥러닝 CNN 모델인 Inception-V3 [13]로 건물 인식률을 비교하는 실험을 통해 딥러닝이 건물인식에서 더 우수함을 표 1과 같이 증명하였다. 이 논문에 사용된 건물 이미지들은 대부분 배경에 영향을 받지 않는 이미지들, 즉 잡음 요소가 없기 때문에 실제 환경에서 적용한다면 인식률이 더욱 낮아질 것이다.
참고문헌 (15)
D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. 91-110, Jan. 2004.
H. Bay, T. Tuytelaars, and L. V. Gool, "Speeded Up Robust Features (SURF)," Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346-359, Jun. 2008.
E. Karami, S. Prasad, and M. Shehata, "Image Matching Using SIFT, SURF, BRIEF and ORB: Performance Comparison for Distorted Images," in Proceedings of the 2015 Newfoundland Electrical and Computer Engineering Conference, St. johns, Canada, 2015.
T. Surasak, I. Takahiro, C. Cheng, C. Wang, and P. Sheng, "Histogram of oriented gradients for human detection in video," in Proceeding of the 5th International Conference on Business and Industrial Research, Bangkok, Thailand, 2018.
J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, L. Wang, G. Wang, J. Cai, and T. Chen, "Recent advances in convolutional neural networks," Pattern Recognition, vol. 77, pp. 354-377, May. 2018.
Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradientbased learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, 1998.
J. Li, and N. Allinson, "Building Recognition Using Local Oriented Features," IEEE Transactions on Industrial Informatics, vol. 9, no. 3, pp. 1697-1704, Aug. 2013.
N. Hascoet, and T. Zaharia, "Building recognition with adaptive interest point selection," in 2017 IEEE International Conference on Consumer Electronics (ICCE), Las Vegas, USA, Jan. 2017.
Csurka, G., Dance, C.R., Fan, L., Willamowski, J., Bray, C., Maupertuis, D. "Visual Categorization with Bags of Keypoints," In Workshop on Statistical Learning in Computer Vision, ECCV, Prague, 2004.
C.-C. Chang, and C.-J. Lin, "LIBSVM," ACM Transactions on Intelligent Systems and Technology, vol. 2, no. 3, pp. 1-27, Apr. 2011.
J. D. Farfan-Escobedo, L. Enciso-Rodas, and J. E. VargasMuaoz, "Towards accurate building recognition using convolutional neural networks," in 2017 IEEE XXIV International Conference on Electronics, Electrical Engineering and Computing (INTERCON), Cusco, Peru, 2017.
Gerard Biau, "Analysis of a Random Forests Model," Journal of Machine Learning Research, vol. 13, no. 38, pp. 1063-1095, 2012.
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, "Rethinking the Inception Architecture for Computer Vision," in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016.
S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149, Jun. 2017.
J. Redmon, and A. Farhadi, "YOLO9000: Better, Faster, Stronger," in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.