최근 BIM (Building Information Modeling)이 건설 산업계에서 폭넓게 활용되고 있다. 하지만 과거에 시공이 된 구조물에 경우 대부분 BIM이 구축되어 있지 않다. BIM이 구축되지 않은 구조물의 경우, 카메라로부터 얻은 2D 이미지에 SfM (Structure from Motion) 기법을 활용하면 3D 모델의 점군 데이터(Point cloud)를 생성하고 BIM을 구축할 수 있다. 하지만 이렇게 생성된 점군 데이터는 의미론적 정보가 포함되어 있지 않기 때문에, 수작업으로 구조물의 어떤 요소인지 분류해 주어야 한다. 따라서 본 연구에서는 구조물 구성요소를 분류하는 과정을 자동화하기 위하여 딥러닝을 적용하였다. 딥러닝 네트워크 구축에는 CNN (Convolutional Neural Network) 구조의 Inception-ResNet-v2를 사용하였고, 전이학습을 통하여 교량 구조물의 구성요소를 학습하였다. 개발된 시스템을 검증하기 위하여 수집한 데이터를 이용하여 구성요소를 분류한 결과, 교량의 구성요소를 96.13 %의 정확도로 분류할 수 있었다.
최근 BIM (Building Information Modeling)이 건설 산업계에서 폭넓게 활용되고 있다. 하지만 과거에 시공이 된 구조물에 경우 대부분 BIM이 구축되어 있지 않다. BIM이 구축되지 않은 구조물의 경우, 카메라로부터 얻은 2D 이미지에 SfM (Structure from Motion) 기법을 활용하면 3D 모델의 점군 데이터(Point cloud)를 생성하고 BIM을 구축할 수 있다. 하지만 이렇게 생성된 점군 데이터는 의미론적 정보가 포함되어 있지 않기 때문에, 수작업으로 구조물의 어떤 요소인지 분류해 주어야 한다. 따라서 본 연구에서는 구조물 구성요소를 분류하는 과정을 자동화하기 위하여 딥러닝을 적용하였다. 딥러닝 네트워크 구축에는 CNN (Convolutional Neural Network) 구조의 Inception-ResNet-v2를 사용하였고, 전이학습을 통하여 교량 구조물의 구성요소를 학습하였다. 개발된 시스템을 검증하기 위하여 수집한 데이터를 이용하여 구성요소를 분류한 결과, 교량의 구성요소를 96.13 %의 정확도로 분류할 수 있었다.
Recently, BIM (Building Information Modeling) are widely being utilized in Construction industry. However, most structures that have been constructed in the past do not have BIM. For structures without BIM, the use of SfM (Structure from Motion) techniques in the 2D image obtained from the camera al...
Recently, BIM (Building Information Modeling) are widely being utilized in Construction industry. However, most structures that have been constructed in the past do not have BIM. For structures without BIM, the use of SfM (Structure from Motion) techniques in the 2D image obtained from the camera allows the generation of 3D model point cloud data and BIM to be established. However, since these generated point cloud data do not contain semantic information, it is necessary to manually classify what elements of the structure. Therefore, in this study, deep learning was applied to automate the process of classifying structural components. In the establishment of deep learning network, Inception-ResNet-v2 of CNN (Convolutional Neural Network) structure was used, and the components of bridge structure were learned through transfer learning. As a result of classifying components using the data collected to verify the developed system, the components of the bridge were classified with an accuracy of 96.13 %.
Recently, BIM (Building Information Modeling) are widely being utilized in Construction industry. However, most structures that have been constructed in the past do not have BIM. For structures without BIM, the use of SfM (Structure from Motion) techniques in the 2D image obtained from the camera allows the generation of 3D model point cloud data and BIM to be established. However, since these generated point cloud data do not contain semantic information, it is necessary to manually classify what elements of the structure. Therefore, in this study, deep learning was applied to automate the process of classifying structural components. In the establishment of deep learning network, Inception-ResNet-v2 of CNN (Convolutional Neural Network) structure was used, and the components of bridge structure were learned through transfer learning. As a result of classifying components using the data collected to verify the developed system, the components of the bridge were classified with an accuracy of 96.13 %.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
2D 이미지에서 각 요소정보를 얻는다면, 이를 기반으로 생성한 점군 데이터에서도 특정한 형상이 구조물의 어떠한 구성요소인지 알 수 있게 된다. 따라서 본 연구에서는 교량 구성요소를 자동으로 분류하는 딥러닝 기반 네트워크를 구축하고자 한다.
하지만 딥러닝을 사용하여 교량의 BIM을 구축하는 연구는 미비한 편이다. 따라서 본 연구에서는 딥러닝을 기반으로 2D 이미지로부터 교량의 구성요소를 자동으로 분류하여 BIM을 구축하는데 도움이 되는 방법을 제안하였다.
제안 방법
분류 계층에서는 본 연구의 목적인 교량 구성요소 기준으로 클래스를 변경하였다. 교량 구성요소 클래스는 교대(Abutment), 강 박스 거더(Steel Box girder), 슬래브(Slab), 코핑(Copping), 기둥(Pier)으로 나누었다.
완전 연결 계층에서 입출력 이미지의 크기는 사전 학습된 딥러닝 모델의 기본값으로 설정하였다. 또한 과적합 현상을 방지하기 위하여 이미지를 무작위로 뒤집거나 평행 이동을 하여 학습데이터를 늘리는 이미지 증대 구성을 사용하였다.
본 연구에서 AlexNet, GoogLeNet, ResNet-101, InceptionResNet-v2을 기반으로 전이학습을 수행하여 Fig. 8과 같이 교량 구성요소의 정확도를 나타내는 시스템을 완성하였다. 완성된 시스템의 비교 방법으로는 네트워크가 예측한 교량 구성요소의 정확도를 사용하였다.
본 연구에서는 CNN 구조의 딥러닝 모델인 AlexNet, GoogLeNet, ResNet-101, Inception-ResNet-v2에 각각 전이학습을 하여 시스템을 구축하였다. 그중 Inception-ResNet-v2를 이용하여 구축한 시스템의 Top-1 정확도는 96.
본 연구에서는 객체 인식 기반 기법을 활용했기 때문에, 전체 이미지 영역을 하나의 클래스로 라벨링(Labeling)하였다. Fig.
본 연구에서는 전이학습(Transfer Learning)을 사용하여 네트워크를 구축하였다. 전이학습은 사전 학습된 딥러닝 모델을 이용하여 새로운 목적의 네트워크를 구축하는 기법이다.
학습이 완료된 네트워크는 스마트폰 영상 장치에 연결되어 실시간으로 구성요소를 자동 인식하는 방식을 사용하였다. 스마트폰으로 촬영을 하면 네트워크는 입력 이미지와 학습한 클래스를 비교하여 네트워크가 예측한 클래스 중 정확도가 높은 Top-1 클래스의 정확도 수치와 정확도가 높은 5개의 클래스인 Top-5의 정확도 그래프를 보여주도록 구성하여 시스템을 구축하였다.
8과 같이 교량 구성요소의 정확도를 나타내는 시스템을 완성하였다. 완성된 시스템의 비교 방법으로는 네트워크가 예측한 교량 구성요소의 정확도를 사용하였다. 검증 방법으로는 혼동 행렬(Confusion Matrix)을 사용하였고, 네트워크의 신뢰도를 확인하기 위하여 Fig.
전이학습을 이용하면 성능이 우수한 기존의 딥러닝 모델을 사용할 수 있기 때문에, 높은 정확도를 얻을 수 있다. 전이학습의 과정에서는 Fig. 3과 같이 마지막 완전 연결 계층(Fully Connected Layer)의 입출력 이미지의 크기 학습 가중치를 수정하였고, 분류 계층(Classification Layer)의 클래스 개수를 변경하였다.
학습연산에 사용한 GPU는 NVIDIA GeForce RTX 2080 Ti 이다. 정확도의 기준으로는 네트워크가 예측한 확률이 가장 높은 클래스 한 개만으로 정확도를 측정하는 Top-1의 정확도를 채택하였다.
학습 과정에서 한 번의 계산으로 최적화된 값을 찾기 힘들기 때문에 100회 반복하여 학습하였고, 학습 연산에는 GPU (Graphics Processing Unit)를 사용하였다. 학습이 완료된 네트워크는 스마트폰 영상 장치에 연결되어 실시간으로 구성요소를 자동 인식하는 방식을 사용하였다.
라벨링 한 데이터의 수는 각각 교대 192개, 코핑 264개, 슬래브 108개, 강 박스 거더 152개, 기둥 188개이며 합계는 904개이다. 학습데이터는 Fig. 6과 같이 각각 폴더에 저장하는 방식으로 클래스를 구분하고 네트워크에서 불러오는 방식을 사용하였다. Fig.
학습 과정에서 한 번의 계산으로 최적화된 값을 찾기 힘들기 때문에 100회 반복하여 학습하였고, 학습 연산에는 GPU (Graphics Processing Unit)를 사용하였다. 학습이 완료된 네트워크는 스마트폰 영상 장치에 연결되어 실시간으로 구성요소를 자동 인식하는 방식을 사용하였다. 스마트폰으로 촬영을 하면 네트워크는 입력 이미지와 학습한 클래스를 비교하여 네트워크가 예측한 클래스 중 정확도가 높은 Top-1 클래스의 정확도 수치와 정확도가 높은 5개의 클래스인 Top-5의 정확도 그래프를 보여주도록 구성하여 시스템을 구축하였다.
대상 데이터
(b))에서 데이터를 수집하였다. 데이터 수집을 위해 사용한 장비는 Samsung Galaxy S10 5G 카메라이며, 수집한 이미지 데이터의 해상도는 960*960 픽셀이다.
5와 같이 코핑처럼 다양한 요소가 포함된 이미지는 사용하지 않고, 교량 구성요소가 명확하게 나타난 이미지만 라벨링에 사용하였다. 라벨링 한 데이터의 수는 각각 교대 192개, 코핑 264개, 슬래브 108개, 강 박스 거더 152개, 기둥 188개이며 합계는 904개이다. 학습데이터는 Fig.
본 연구에서 학습에 필요한 데이터는 충청북도 청주시 서원구 남이면 가마리에 있는 강 박스 거더교(Fig. 4.
9와 같이 데이터를 네 부분으로 나누어 학습데이터와 테스트데이터를 4번 번갈아 가면서 사용한 후 평균을 구하는 4겹 교차검증(4-Fold cross validation)을 사용하였다. 학습연산에 사용한 GPU는 NVIDIA GeForce RTX 2080 Ti 이다. 정확도의 기준으로는 네트워크가 예측한 확률이 가장 높은 클래스 한 개만으로 정확도를 측정하는 Top-1의 정확도를 채택하였다.
데이터처리
완성된 시스템의 비교 방법으로는 네트워크가 예측한 교량 구성요소의 정확도를 사용하였다. 검증 방법으로는 혼동 행렬(Confusion Matrix)을 사용하였고, 네트워크의 신뢰도를 확인하기 위하여 Fig. 9와 같이 데이터를 네 부분으로 나누어 학습데이터와 테스트데이터를 4번 번갈아 가면서 사용한 후 평균을 구하는 4겹 교차검증(4-Fold cross validation)을 사용하였다. 학습연산에 사용한 GPU는 NVIDIA GeForce RTX 2080 Ti 이다.
이론/모형
본 연구에서는 사전 학습된 딥러닝 모델인 AlexNet, GoogLeNet, ResNet-101, Inception-ResNet-v2을 사용하였다. 위 모델들은 CNN으로 이루어진 모델들이다.
또한 계층이 늘어나면 연산이 복잡해져 학습시간이 증가하게 된다. 이러한 문제를 해결하기 위하여 Inception 모듈이라는 방법을 사용하였다. GoogLeNet (Inception v1)은 Inception 모듈을 최초로 제안한 딥러닝 모델이다.
카메라를 사용하여 얻은 데이터에 이미지 정합을 하는 SfM 기법으로 구조물의 3D 모델을 생성할 수 있다. 하지만 SfM 기법으로 구축한 3D 모델의 점군 데이터(Point cloud)는 형상 정보와 색상 정보만 있을 뿐, 구조물의 어떤 요소에 해당하는지 등에 대한 의미론적 정보는 전혀 포함되어 있지 않다.
성능/효과
58 %의 정확도를 나타냈다. GoogLeNet은 AlexNet 보다 높은 평균 정확도를 기록했지만, 코핑 클래스의 정확도는 AlexNet 보다 낮은 결과를 보였다. ResNet-101을 기반으로 전이학습을 하였을 때는 Table 3에 나타난 것처럼, 총 904개의 데이터 중 863개를 정확히 분류하였고, 평균 95.
02 %의 정확도를 나타냈다. GoogLeNet을 기반으로 전이학습을 하였을 때는 Table 2에 나타난 것처럼, 총 904개의 데이터 중 858개를 정확히 분류하였고, 평균 94.58 %의 정확도를 나타냈다. GoogLeNet은 AlexNet 보다 높은 평균 정확도를 기록했지만, 코핑 클래스의 정확도는 AlexNet 보다 낮은 결과를 보였다.
하지만 슬래브 클래스에 경우 다른 네트워크보다 낮은 결과를 보였다. Inception-ResNet-v2를 기반으로 전이학습을 하였을 때는 Table 4에 나타난 것처럼, 총 904개의 데이터 중 869개를 구분하였고, 평균 96.13 %의 정확도를 나타냈다. 정확도는 가장 높았지만 코핑 클래스의 정확도는 가장 낮았다.
GoogLeNet은 AlexNet 보다 높은 평균 정확도를 기록했지만, 코핑 클래스의 정확도는 AlexNet 보다 낮은 결과를 보였다. ResNet-101을 기반으로 전이학습을 하였을 때는 Table 3에 나타난 것처럼, 총 904개의 데이터 중 863개를 정확히 분류하였고, 평균 95.46 %의 정확도를 나타냈다. ResNet101에서는 한 클래스가 다른 여러 가지 클래스로 분류되는 현상이 감소하였다.
정확도는 가장 높았지만 코핑 클래스의 정확도는 가장 낮았다. 거더 클래스이 정확도는 99.34 %의 상당히 완성도 높은 결과를 보였다. Table 5는 실험에 사용된 딥러닝 모델을 비교한 결과이다.
11 % 높은 정확도를 나타냈지만, 학습시간 부분에서는 AlexNet 보다 약 29배 정도 증가하였다. 결과로 보아 네트워크 계층의 개수가 증가할수록 정확도가 상승하지만, 학습시간이 증가하는 경향이 나타났다. Fig.
본 연구에서는 CNN 구조의 딥러닝 모델인 AlexNet, GoogLeNet, ResNet-101, Inception-ResNet-v2에 각각 전이학습을 하여 시스템을 구축하였다. 그중 Inception-ResNet-v2를 이용하여 구축한 시스템의 Top-1 정확도는 96.13 %로 가장 높은 정확도를 나타냈다. 이 시스템은 2D 이미지상 교량의 구성요소를 자동 분류하고 요소정보를 얻을 수 있었다.
전반적인 결과로 교대나 거더 같은 독립적인 구성요소는 상대적으로 높은 정확도를 나타냈다. 하지만 코핑의 경우 상대적으로 낮은 정확도를 나타냈다.
먼저, AlexNet 기반으로 전이학습을 하여 구축한 시스템으로 분류한 결과, Table 1처럼 나타났다. 총 904개의 데이터 중에 850개를 정확히 구분하였고, 평균 94.02 %의 정확도를 나타냈다. GoogLeNet을 기반으로 전이학습을 하였을 때는 Table 2에 나타난 것처럼, 총 904개의 데이터 중 858개를 정확히 분류하였고, 평균 94.
Table 5는 실험에 사용된 딥러닝 모델을 비교한 결과이다. 평균 정확도 부분에서 AlexNet 보다 Inception-ResNet-v2가 2.11 % 높은 정확도를 나타냈지만, 학습시간 부분에서는 AlexNet 보다 약 29배 정도 증가하였다. 결과로 보아 네트워크 계층의 개수가 증가할수록 정확도가 상승하지만, 학습시간이 증가하는 경향이 나타났다.
후속연구
이 시스템은 2D 이미지상 교량의 구성요소를 자동 분류하고 요소정보를 얻을 수 있었다. 따라서 이를 활용하면 BIM 구축을 위하여 교량의 3D 모델을 제작하는데 소요되는 시간과 비용을 절감할 수 있을 것으로 기대된다. 현재 본 연구는 강 박스 거더교를 대상으로 하였으나, 향후 다양한 형태의 교량 구성요소를 자동 분류하는데 활용될 수 있을 것으로 기대된다.
따라서 학습시간이 오래 소요되지만, 정확도가 높은 InceptionResNet-v2를 사용하는 것이 바람직할 것으로 생각된다. 또한 현재 카메라를 사용하여 얻은 2D 이미지를 기반으로 딥러닝 네트워크를 구축하였지만, 향후 레이저 스캔 등을 통해 얻은 3D 점군데이터를 학습하여 딥러닝 네트워크를 구축할 계획이다. 점군데이터의 공간 정보를 활용하면 수치, 결함 등 더욱 다양한 파라미터를 추출할 수 있기 때문에 2D 이미지를 활용하여 얻은 3D 모델보다 완성도 높은 3D 모델을 제작할 수 있을 것으로 예상된다.
82), 보수비용은 현재보다 70 % 상승한 1,100억 원이 소요될 것으로 예상된다(Lee, 2015a). 이러한 추세로 볼 때, 추후 노후화에 따른 유지관리가 필요하고 상당한 유지관리 비용 상승이 예측된다.
또한 현재 카메라를 사용하여 얻은 2D 이미지를 기반으로 딥러닝 네트워크를 구축하였지만, 향후 레이저 스캔 등을 통해 얻은 3D 점군데이터를 학습하여 딥러닝 네트워크를 구축할 계획이다. 점군데이터의 공간 정보를 활용하면 수치, 결함 등 더욱 다양한 파라미터를 추출할 수 있기 때문에 2D 이미지를 활용하여 얻은 3D 모델보다 완성도 높은 3D 모델을 제작할 수 있을 것으로 예상된다.
두 번째 네트워크 구축에 사용한 두 교량은 같은 유형에 강 박스 거더교지만, 코핑의 형태가 다른 교량을 사용하였기 때문에 정확도가 상대적으로 낮아진 것으로 보인다. 추후 클래스를 구분할 때 코핑의 형태별로 클래스를 나누어 설정하면 정확도가 상승할 것으로 예상한다.
향후 연구에서는 다른 형태의 거더교, 아치교, 사장교, 현수교 등 다양한 형태의 교량 데이터를 추가하여 클래스를 확장할 계획이다. 현재 딥러닝 모델별 정확도의 차이가 크지 않았으나, 다양한 교량의 클래스를 추가하면 평균 정확도가 하락할 것으로 예상된다.
따라서 이를 활용하면 BIM 구축을 위하여 교량의 3D 모델을 제작하는데 소요되는 시간과 비용을 절감할 수 있을 것으로 기대된다. 현재 본 연구는 강 박스 거더교를 대상으로 하였으나, 향후 다양한 형태의 교량 구성요소를 자동 분류하는데 활용될 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
3D 모델을 구축하는 방법으로 어떤 것이 있는가?
기존의 구조물의 BIM을 구축하기 위해서는 일반적으로 영상장비를 이용하여 구조물의 3D 모델을 구축하는 방법을 사용한다. 3D 모델을 구축하는 방법으로는 LiDAR (Light Detection And Ranging, 광 검출 및 거리측정), 또는 디지털 카메라를 이용하여 데이터를 수집하는 방법이 있다. LiDAR 활용하는 방법은 정밀도가 높지만, 고가의 장비를 필요로 한다.
SfM 기법의 장점은?
LiDAR 활용하는 방법은 정밀도가 높지만, 고가의 장비를 필요로 한다. 이에 비하여 2D 이미지를 활용하여 3D 모델을 생성하는 SfM (Structure from Motion)기법은 일반 상용 카메라를 사용하여 보다 간단하게 데이터를 수집할 수 있다(Hartley and Zisserman, 2003).
LiDAR 활용하는 방법의 장단점은?
3D 모델을 구축하는 방법으로는 LiDAR (Light Detection And Ranging, 광 검출 및 거리측정), 또는 디지털 카메라를 이용하여 데이터를 수집하는 방법이 있다. LiDAR 활용하는 방법은 정밀도가 높지만, 고가의 장비를 필요로 한다. 이에 비하여 2D 이미지를 활용하여 3D 모델을 생성하는 SfM (Structure from Motion)기법은 일반 상용 카메라를 사용하여 보다 간단하게 데이터를 수집할 수 있다(Hartley and Zisserman, 2003).
참고문헌 (15)
Bay, H., Tuytelaars, T. and Van Gool, L. (2006). "Surf: Speeded up robust features." In European conference on computer vision, Springer, Berlin, Heidelberg, pp. 404-417.
Dalal, N. and Triggs, B. (2005). "Histograms of oriented gradients for human detection." 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA.
Hartley, R. and Zisserman, A. (2003). Multiple view geometry in computer vision, Cambridge university press, Cambridge, UK.
He, K., Zhang, X., Ren, S. and Sun, J. (2016). "Deep residual learning for image recognition." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR, San Juan, Puerto Rico, USA, pp. 770-778.
Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012). "Imagenet classification with deep convolutional neural networks." In Advances in neural information processing systems, Lake Tahoe, Nevada, USA, pp. 1097-1105.
Lee, I. (2015a). Bridge maintenance strategies for service life 100years, Korea Expressway Corporation, 2015-36-534, 9607 (in Korean).
Lee, S. (2019). "Lessons from the collapse of the morandi bridge in Italy." Magazine of the Korea Institute for Structural Maintenance and Inspection, Vol. 23, No. 2, pp. 51-57 (in Korean).
Lee, T. (2015b). Maintenance status and prospect of deteriorated bridges, Ssangyong Construction Technology Research Institute, v.71, pp. 48-55 (in Korean).
Lee, Y. I., Kim, B. H. and Cho, S. J. (2018). "Image-based spalling detection of concrete structures using deep learning." Journal of the Korea Concrete Institute, Vol. 30, No. 1, pp. 91-99.
Moon, H., Won, J. and Shin, J. (2018). BIM roadmap and activation strategies for public SOC projects, Korea Institute of Construction Technology, 2018-029 (in Korean).
Simonyan, K. and Zisserman, A. (2014). "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv: 1409.1556, International Conference on Learning Representations, ICLR, San Diego, CA.
Szegedy, C., Ioffe, S., Vanhoucke, V. and Alemi, A. A. (2017). "Inception-v4, inception-resnet and the impact of residual connections on learning." In Thirty-First AAAI Conference on Artificial Intelligence, San Francisco, California USA.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke V. and Rabinovich A. (2015). "Going deeper with convolutions." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR, San Juan, Puerto Rico, USA, pp. 1-9.
Viola, P. and Jones, M. (2001). "Rapid object detection using a boosted cascade of simple features." In Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Kauai, HI, USA, CVPR 2001, Vol. 1, pp. I-I.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.