의미론적 분할 형태로 합성곱 신경망을 구성하여 도로노면의 파손을 탐지하는 연구가 진행되고 있다. 이러한 합성곱 신경망 형태의 모델을 생성하기 위해서는 입력 이미지와 이에 상응한 레이블된 이미지 데이터셋으로 수집해야 하고, 이러한 과정에서는 굉장히 많은 시간과 비용이 발생하게 된다. 본 논문에서는 이러한 작업을 완화하기 위하여 수도 레이블링을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하고자 한다. 레이블된 데이터셋과 레이블되지 않은 데이터셋을 적절하게 혼합하여 도로노면 파손을 탐지하는 모델을 업데이트하고, 이를 레이블된 데이터셋만을 활용한 기존 모델과 성능을 비교한다. 주관적인 성능결과, 민감도 부분에서는 조금 저하된 성능을 보였지만, 정밀도 부분에서는 대폭 성능 향상이 있었으며, 최종적으로 $F_1-score$ 또한 높은 수치로 평가되었다.
의미론적 분할 형태로 합성곱 신경망을 구성하여 도로노면의 파손을 탐지하는 연구가 진행되고 있다. 이러한 합성곱 신경망 형태의 모델을 생성하기 위해서는 입력 이미지와 이에 상응한 레이블된 이미지 데이터셋으로 수집해야 하고, 이러한 과정에서는 굉장히 많은 시간과 비용이 발생하게 된다. 본 논문에서는 이러한 작업을 완화하기 위하여 수도 레이블링을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하고자 한다. 레이블된 데이터셋과 레이블되지 않은 데이터셋을 적절하게 혼합하여 도로노면 파손을 탐지하는 모델을 업데이트하고, 이를 레이블된 데이터셋만을 활용한 기존 모델과 성능을 비교한다. 주관적인 성능결과, 민감도 부분에서는 조금 저하된 성능을 보였지만, 정밀도 부분에서는 대폭 성능 향상이 있었으며, 최종적으로 $F_1-score$ 또한 높은 수치로 평가되었다.
By using convolutional neural networks (CNNs) based on semantic segmentation, road surface damage detection has being studied. In order to generate the CNN model, it is essential to collect the input and the corresponding labeled images. Unfortunately, such collecting pairs of the dataset requires a...
By using convolutional neural networks (CNNs) based on semantic segmentation, road surface damage detection has being studied. In order to generate the CNN model, it is essential to collect the input and the corresponding labeled images. Unfortunately, such collecting pairs of the dataset requires a great deal of time and costs. In this paper, we proposed a road surface damage detection technique based on semi-supervised learning using pseudo labels to mitigate such problem. The model is updated by properly mixing labeled and unlabeled datasets, and compares the performance against existing model using only labeled dataset. As a subjective result, it was confirmed that the recall was slightly degraded, but the precision was considerably improved. In addition, the $F_1-score$ was also evaluated as a high value.
By using convolutional neural networks (CNNs) based on semantic segmentation, road surface damage detection has being studied. In order to generate the CNN model, it is essential to collect the input and the corresponding labeled images. Unfortunately, such collecting pairs of the dataset requires a great deal of time and costs. In this paper, we proposed a road surface damage detection technique based on semi-supervised learning using pseudo labels to mitigate such problem. The model is updated by properly mixing labeled and unlabeled datasets, and compares the performance against existing model using only labeled dataset. As a subjective result, it was confirmed that the recall was slightly degraded, but the precision was considerably improved. In addition, the $F_1-score$ was also evaluated as a high value.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 이러한 지도 학습의 데이터셋을 모으는 어려움을 완화하고, 도로노면 파손 탐지 기술의 성능을 개선하고자 수도 레이블링(pseudo labeling)을 활용한 준지도 학습(semi-supervised learning) 기반의 도로 노면 파손 탐지 기술을 제안하고자한다 (Cholaquidis et al., 2018). 준지도 학습이란 레이블된 데이터셋과 레이블 되지 않은 데이터셋을 적절하게 혼합하여 활용하는 방식으로 본 논문에서는 준지도 학습 기법 중에서 수도 레이블 이미지 데이터를 활용하여 도로노면 파손 탐지 기술의 성능을 개선하고자 한다.
반환율 혹은 재현율이라고도 불리며, Fn와 밀접한 관련이 있다. 본 논문의 경우에는 도로노면 파손 부분을 얼마만큼 도로노면 파손 부분이라고 잘 분할하였는가를 제시하는 수치이다. 정밀도의 경우에는 실제 예측한 positive의 수에서 얼마만큼의 Tp가 존재하는지를 나타내는 지표로, Fp와 관련성이 높다.
, 2018). 준지도 학습이란 레이블된 데이터셋과 레이블 되지 않은 데이터셋을 적절하게 혼합하여 활용하는 방식으로 본 논문에서는 준지도 학습 기법 중에서 수도 레이블 이미지 데이터를 활용하여 도로노면 파손 탐지 기술의 성능을 개선하고자 한다. 먼저, 레이블된 데이터를 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습한다.
지도 학습의 입력 및 레이블 데이터셋을 모으는 어려움을 완화하고자, 본 논문에서는 수도 레이블 데이터 셋을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하였다. 이를 위하여, 레이블된 데이터셋 만을 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습하였다.
제안 방법
본 논문의 경우에는 도로노면 파손이라고 분할해야 하는 곳을 정확하게 분할하였을 경우가 Tp에 해당된다. 각각의 전문가는 학습된 모델이 도로노면 파손이라고 탐지한 결과 이미지를 보고, Tp, Tn, Fp, Fn 중에서 하나의 경우로 평가하였다. 네 개의 지표를 통하여 최종적으로 민감도(recall), 정밀도(precision), 정확도(accuracy), F1-score로 도출할 수가 있다 (Goutte and Gaussier, 2005).
수도 레이블된 데이터셋 55,000장에 대해서 에러가 존재하는 데이터를 수작 업을 통하여 보정하면 더 좋은 성능을 보일 수 있지만, 이러한 작업은 레이블링하는 작업과 마찬가지로 시간과 노동력이 필요하므로 본 논문에서는 수도 레이블된 데이터셋을 그대로 활용하였다. 대신에 수도 레이블 데이터셋을 활용하여 새롭게 학습된 모델들이 기존 모델들과 성능을 비교하는 방법으로는 검증 데이터셋을 총 1,000장으로 고정하고 이에 대한 손실값(loss value) 및 정확도(accuracy)를 비교하여 성능이 좋아지는지 검증하였다. 만일, 손실값이 높아지거나 정확도가 떨어지는 방향으로 모델이 학습될 경우에는 5,000장의 수도 레이블된 데이터셋은 활용하지 않았다.
이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 기술의 성능을 개선한다. 또한, 동일한 데이터셋을 활용하여 레이블된 데이터셋만을 활용하여 학습한 신경망 모델과 수도 레이블된 데이터셋까지 활용하여 학습한 신경망 모델의 성능을 비교한다.
준지도 학습이란 레이블된 데이터셋과 레이블 되지 않은 데이터셋을 적절하게 혼합하여 활용하는 방식으로 본 논문에서는 준지도 학습 기법 중에서 수도 레이블 이미지 데이터를 활용하여 도로노면 파손 탐지 기술의 성능을 개선하고자 한다. 먼저, 레이블된 데이터를 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습한다. 여기서, 여러 개의 모델을 학습하여 앙상블을 형성하고, 레이블링 되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행한다.
2]는 도로노면 파손을 탐지하기 위하여 본 논문에서 제안하는 수도 레이블을 활용한 준지도 학습 방법에 대한 블록 다이어그램이다. 먼저, 레이블된 데이터를 활용하여 합성곱 신경망 기반의 도로노면의 파손 탐지를 수행할 수 있는 모델을 학습한다. 여기서의 학습 모델은 바이너리 의미론적 분할 형태로 학습하였고, 자세한 모델의 신경망 구조 및 학습 방법은 (Chun et al.
K개의 데이터셋 중에서 검증 데이터셋을 어떤 데이터셋으로 활용하는지에 따라서 총 K개의 모델이 생성 가능하다. 본 논문에서는 검증 데이터셋이 20%로 분배되도록 K를 5로 설정하였으며, 이에 따라 총 5개의 모델을 생성하였다. 이렇게 생성된 5개의 모델로 앙상블을 형성하였다.
여기서, 여러 개의 모델을 학습하여 앙상블을 형성하고, 레이블링 되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행하였다. 신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습하였고, 이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 모델을 계속하여 업데이트하였다. 학습된 모델의 성능을 주관적으로 평가하였을 때, 기존 모델에 비하여 정밀도 성능이 크게 향상되었고, 민감도 성능은 소폭 감소하였다.
신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습한다. 이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 기술의 성능을 개선한다.
앙상블이란 여러 개의 학습한 모델 중에서 최적의 성능을 보이는 단 하나의 모델만을 활용하는 것이 아니라, 여러 개의 다양한 모델로부터 얻은 결과를 조합해서 활용 하는 것을 가리킨다. 심층신경망 이외의 다양한 기계학습 방법들을 조화롭게 쓰는 것도 가능하지만, 본 논문 에서는 제시한 신경망 구조를 반복적으로 학습하여 얻어진 모델들만을 활용하여 앙상블을 형성하였다. 구체 적으로는 K-fold cross validation 기법을 통하여 앙상블을 형성하였고, 여기서의 K는 5로 설정하였다.
이를 위하여, 레이블된 데이터셋 만을 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습하였다. 여기서, 여러 개의 모델을 학습하여 앙상블을 형성하고, 레이블링 되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행하였다. 신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습하였고, 이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 모델을 계속하여 업데이트하였다.
먼저, 레이블된 데이터를 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습한다. 여기서, 여러 개의 모델을 학습하여 앙상블을 형성하고, 레이블링 되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행한다.
신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습한다. 이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 기술의 성능을 개선한다. 또한, 동일한 데이터셋을 활용하여 레이블된 데이터셋만을 활용하여 학습한 신경망 모델과 수도 레이블된 데이터셋까지 활용하여 학습한 신경망 모델의 성능을 비교한다.
총 5,000장의 레이블된 데이터셋을 활용하여 학습된 모델들의 결과로부터 또 다른 5,000장의 레이블되지 않은 이미지 데이터셋을 입력으로 넣어서 예측된 출력 이미지 데이터셋을 획득한다. 이렇게 획득한 신경망 모델이 수도 레이블한 이미지 데이터셋으로 간주하고, 총 10,000장의 이미지 데이터셋을 통하여 다시 한 번 신경망 모델을 학습한다. 마찬가지로 여기에서도 총 5개의 모델을 생성하고, 이에 대하여 앙상블을 형성하였다.
지도 학습의 입력 및 레이블 데이터셋을 모으는 어려움을 완화하고자, 본 논문에서는 수도 레이블 데이터 셋을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하였다. 이를 위하여, 레이블된 데이터셋 만을 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습하였다. 여기서, 여러 개의 모델을 학습하여 앙상블을 형성하고, 레이블링 되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행하였다.
수도 레이블 데이터셋까지 활용한 모델에서는 오탐 하는 부분이 존재하기는 하지만 기존 레이블 데이터셋 만을 활용한 모델에 비해서는 그 빈도수와 영역의 크기가 작은 것을 확인 가능 하다. 이에 대한 정성적인 성능을 비교하기 위하여 주관적인 성능평가를 수행하였다. (Chun et al.
본 논문에서의 도로노면 파손 부분이 사고로 이어질 수 있거나 보수가 충분히 필요하다고 볼 수 있는 정도를 도로노면 파손 정도로 정의하였고, 평가자 4명 모두 도로교통 쪽에 종사하고 있는 전문가이다. 일반적으로 이러한 성능 비교는 픽셀 단위에서의 객관적인 성능 비교로 이루어지지만, 본 논문에서는 이미지 단위에서의 4명의 평가자를 통하여 주관적인 성능 비교가 수행되었다. 이는 도로노면파손 부분을 정확하게 분할하는 것은 도로교통에 종사하고 있는 전문가라 할지라도 개인차가 크게 나타나며, 정확한 도로노면파손 부분을 분할하는 것보다 전반적인 정밀도나 민감도를 보는 것이 더 중요하다고 판단하였다.
, 2018)에서 제시한 구조와 동일하다. 입력층을 제외하고 총 6개의 합성곱층(convolutional layer)을 가지며, 이 중에서 3개는 스트라이드(strided) 합성곱층이며, 나머지 3개는 역합성곱층(deconvolutional layer)을 활용하였다. 최대 풀링(max pooling)을 사용하지 않고, 합성 곱층에 스트라이드를 [2 x 2]를 주는 형태로, 자기부호화기 형태가 나타나도록 구성하였으며, 여기서의 커널(kernel) 사이즈는 [5 x 5]로 활용하였다.
대상 데이터
, 2018). 기연구된 도로노면 파손 탐지의 경우에는 이러한 이미지 데이터를 총 5,000장을 수집하였으며, 여기에서 4,000장은 학습 데이터셋으로 활용하였고, 나머지 1,000장은 검증 데이터셋으로 활용하였다 (Chun et al., 2018). 이러한 데이터셋은 모델 학습을 위하여 하나하나 레이블링 작업을 해줘야하며, 단순 입력 데이터를 모으는 시간에 비하여 굉장히 많은 시간과 노력이 필요하게 된다.
대신에 수도 레이블 데이터셋을 활용하여 새롭게 학습된 모델들이 기존 모델들과 성능을 비교하는 방법으로는 검증 데이터셋을 총 1,000장으로 고정하고 이에 대한 손실값(loss value) 및 정확도(accuracy)를 비교하여 성능이 좋아지는지 검증하였다. 만일, 손실값이 높아지거나 정확도가 떨어지는 방향으로 모델이 학습될 경우에는 5,000장의 수도 레이블된 데이터셋은 활용하지 않았다.
, 2018)에서 수행한 방식과 동일한 방식으로 수행하였으며, 동일한 DB와 동일한 전문가가 성능평가를 수행하였다. 먼저, 도로노면을 촬영하는 도중에 ROI(Region of Interest) 안에 들어올 수 있는 이미지를 450장을 선정하였고, 여기서, 학습에 활용된 데이터셋과 겹치지 않는 이미지 데이터만을 활용하였다. [Fig.
이를 5,000장의 레이블 되지 않은 이미지 데이터셋으로 나눠서 반복적으로 수행하였고, 레이블된 데이터 셋을 5,000장 그리고 수도 레이블된 데이터셋을 55,000장을 활용하여 최종적으로는 총 60,000장의 데이터셋을 활용하여 모델을 생성하였다. 수도 레이블된 데이터셋 55,000장에 대해서 에러가 존재하는 데이터를 수작 업을 통하여 보정하면 더 좋은 성능을 보일 수 있지만, 이러한 작업은 레이블링하는 작업과 마찬가지로 시간과 노동력이 필요하므로 본 논문에서는 수도 레이블된 데이터셋을 그대로 활용하였다. 대신에 수도 레이블 데이터셋을 활용하여 새롭게 학습된 모델들이 기존 모델들과 성능을 비교하는 방법으로는 검증 데이터셋을 총 1,000장으로 고정하고 이에 대한 손실값(loss value) 및 정확도(accuracy)를 비교하여 성능이 좋아지는지 검증하였다.
활성화 함수로는 Rectified Linear Unit (ReLU)가 사용되었고 (Nair and Hinton, 2010), 합성곱층과 활성화 함수(activation function) 사이에는 배치 정규화(batch normalization)를 수행하였다 (Ioffe and Szegedy, 2015). 이렇게 신경망 구조를 구성하였고, 총 5,000장의 레이블된 데이터셋을 활용하여 모델을 학습한다. 여기서, 모델의 성능을 높이기 위해서 총 5개의 모델을 생성하고, 이에 대하여 앙상블 (ensemble)을 형성하였다 (Maclin and Opitz, 1999).
마찬가지로 여기에서도 총 5개의 모델을 생성하고, 이에 대하여 앙상블을 형성하였다. 이를 5,000장의 레이블 되지 않은 이미지 데이터셋으로 나눠서 반복적으로 수행하였고, 레이블된 데이터 셋을 5,000장 그리고 수도 레이블된 데이터셋을 55,000장을 활용하여 최종적으로는 총 60,000장의 데이터셋을 활용하여 모델을 생성하였다. 수도 레이블된 데이터셋 55,000장에 대해서 에러가 존재하는 데이터를 수작 업을 통하여 보정하면 더 좋은 성능을 보일 수 있지만, 이러한 작업은 레이블링하는 작업과 마찬가지로 시간과 노동력이 필요하므로 본 논문에서는 수도 레이블된 데이터셋을 그대로 활용하였다.
총 4명의 평가자가 주관적으로 450장의 이미지를 평가하였으며, 여기에서 450장의 이미지 순서는 임의적으로 나타나게 하였다. 한 장의 이미지를 보고 평가자는 [Table 1]에서 보이는 것처럼 가장 근접하다고 생각 되는 항목으로 평가하게 된다.
총 5,000장의 레이블된 데이터셋을 활용하여 학습된 모델들의 결과로부터 또 다른 5,000장의 레이블되지 않은 이미지 데이터셋을 입력으로 넣어서 예측된 출력 이미지 데이터셋을 획득한다. 이렇게 획득한 신경망 모델이 수도 레이블한 이미지 데이터셋으로 간주하고, 총 10,000장의 이미지 데이터셋을 통하여 다시 한 번 신경망 모델을 학습한다.
데이터처리
먼저, 서론에 이어서 2장에서는 수도 레이블을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술의 데이터셋 생성 방법과 신경망 구조 및 학습 방법에 대해서 기술한다. 그다음으로 3장에서는 제안된 준지도 학습 기반의 도로노면 파손 탐지 기술의 성능을 검증하였는데, 총 네 명의 전문가가 각각의 결과 이미지를 평가하여 성능을 비교하였다. 마지막으로 4장에서는 본 논문의 결론을 맺는다.
이론/모형
이에 대한 정성적인 성능을 비교하기 위하여 주관적인 성능평가를 수행하였다. (Chun et al., 2018)에서 수행한 방식과 동일한 방식으로 수행하였으며, 동일한 DB와 동일한 전문가가 성능평가를 수행하였다. 먼저, 도로노면을 촬영하는 도중에 ROI(Region of Interest) 안에 들어올 수 있는 이미지를 450장을 선정하였고, 여기서, 학습에 활용된 데이터셋과 겹치지 않는 이미지 데이터만을 활용하였다.
심층신경망 이외의 다양한 기계학습 방법들을 조화롭게 쓰는 것도 가능하지만, 본 논문 에서는 제시한 신경망 구조를 반복적으로 학습하여 얻어진 모델들만을 활용하여 앙상블을 형성하였다. 구체 적으로는 K-fold cross validation 기법을 통하여 앙상블을 형성하였고, 여기서의 K는 5로 설정하였다. K-fold cross validation 기법이란 [Fig.
다량의 레이블되지 않는 데이터셋에 수도 레이블 링을 하여 대량의 데이터셋을 확보하고, 이를 다시 학습할 경우에는 현재 모델이 가지는 한계에 대한 바이어 스를 그대로 나타낼 수 있으므로, 반복적인 수도 레이블링 작업과 데이터셋을 점차적으로 늘려가면서 학습을 수행하는 것이 일반적이다. 본 논문에서는 준지도 학습 중에서 수도 레이블한 데이터셋을 재활용하는 수도 레이블링 기법을 활용한다.
최대 풀링(max pooling)을 사용하지 않고, 합성 곱층에 스트라이드를 [2 x 2]를 주는 형태로, 자기부호화기 형태가 나타나도록 구성하였으며, 여기서의 커널(kernel) 사이즈는 [5 x 5]로 활용하였다. 손실 함수는 최소평균제곱오차(Minimum-Mean-Squared-Error, MMSE) 형태로 구성하였으며 (Han et al., 2016), 여기서의 최적화 기법은 adaptive moment estimation (ADAM)을 활용하였다 (Kingma and Ba, 2015). 활성화 함수로는 Rectified Linear Unit (ReLU)가 사용되었고 (Nair and Hinton, 2010), 합성곱층과 활성화 함수(activation function) 사이에는 배치 정규화(batch normalization)를 수행하였다 (Ioffe and Szegedy, 2015).
먼저, 레이블된 데이터를 활용하여 합성곱 신경망 기반의 도로노면의 파손 탐지를 수행할 수 있는 모델을 학습한다. 여기서의 학습 모델은 바이너리 의미론적 분할 형태로 학습하였고, 자세한 모델의 신경망 구조 및 학습 방법은 (Chun et al., 2018)에서 제시한 구조와 동일하다. 입력층을 제외하고 총 6개의 합성곱층(convolutional layer)을 가지며, 이 중에서 3개는 스트라이드(strided) 합성곱층이며, 나머지 3개는 역합성곱층(deconvolutional layer)을 활용하였다.
, 2016), 여기서의 최적화 기법은 adaptive moment estimation (ADAM)을 활용하였다 (Kingma and Ba, 2015). 활성화 함수로는 Rectified Linear Unit (ReLU)가 사용되었고 (Nair and Hinton, 2010), 합성곱층과 활성화 함수(activation function) 사이에는 배치 정규화(batch normalization)를 수행하였다 (Ioffe and Szegedy, 2015). 이렇게 신경망 구조를 구성하였고, 총 5,000장의 레이블된 데이터셋을 활용하여 모델을 학습한다.
성능/효과
이는 오탐에 대한 탐지 성능이 크게 개선되었다고 볼 수 있다. Fp의 수치를 보더라도 기존에는 총 193개의 Fp가 존재했지만, 제안된 모델에서는 50으로 감소된 것을 확인 가능하다. 반면에, 민감도 부분에서는 기존의 0.
9387로 향상된 것을 확인 가능하다. 또한, 기존 모델의 경우 정밀도의 수치가 0.7012였지만, 제안된 모델의 경우에는 0.9014로 크게 향상되었다. 이는 오탐에 대한 탐지 성능이 크게 개선되었다고 볼 수 있다.
이는 도로노면 파손에 대한 탐지가 민감도가 감소된 것으로 Fn가 밀접한 관련이 있다. 실질적으로 Fn 수치가 기존에는 총 36개 존재하였는데, 제안된 모델에서는 61개로 증가하였다. 최종적으로 F1-score를 비교해보면 0.
실질적으로 Fn 수치가 기존에는 총 36개 존재하였는데, 제안된 모델에서는 61개로 증가하였다. 최종적으로 F1-score를 비교해보면 0.7982에서 0.8917로 향상된 것을 확인 가능하다. 이는 민감도 부분에서는 성능이 저하되었지만, 정밀도 부분에서 성능이 크게 향상되었기 때문에 전반적으로 F1-score가 기존 모델에 비하여 높은 수치를 받은 것으로 판단할 수 있다.
정확도의 경우 전체 데이터셋에서 정확하게 예측한 비율을 가리키며, F1-score의 경우에는 정밀도와 민감도의 조화 평균으로 계산되며, 정밀도와 민감도를 통합한 하나의 측정지표라 할 수 있다. 표에서 나타나는 것처럼, 먼저 정확도 측면에서는 기존 모델의 0.8728에서 제안된 모델이 0.9387로 향상된 것을 확인 가능하다. 또한, 기존 모델의 경우 정밀도의 수치가 0.
신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습하였고, 이러한 과정을 반복적으로 수행하면서 많은 양의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 모델을 계속하여 업데이트하였다. 학습된 모델의 성능을 주관적으로 평가하였을 때, 기존 모델에 비하여 정밀도 성능이 크게 향상되었고, 민감도 성능은 소폭 감소하였다. 하지만, 최종적으로 F1-score는 기존 모델에 비하여 높은 수치를 획득하였다.
후속연구
이는 민감도 부분에서는 성능이 저하되었지만, 정밀도 부분에서 성능이 크게 향상되었기 때문에 전반적으로 F1-score 가 기존 모델에 비하여 높은 수치를 받은 것으로 판단할 수 있다. 향후, 다양한 학습 방법 및 양질의 데이터 셋을 확보하여 더욱 더 강건한 형태의 신경망 모델 학습이 필요하겠다.
이는 민감도 부분에서는 성능이 저하되었지만, 정밀도 부분에서 성능이 크게 향상되었기 때문에 전반적으로 F1-score가 기존 모델에 비하여 높은 수치를 받은 것으로 판단할 수 있다. 향후, 다양한 학습 방법 및 양질의 데이터셋을 확보하여 더욱 더 강건한 형태의 신경망 모델 학습이 필요하다고 볼 수 있겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
나머지 하나의 데이터셋을 검증(validation) 데이터 셋을 활용하는 이유는?
여기서, K-1개의 데이터셋을 학습 데이터셋으로 활용하고, 나머지 하나의 데이터셋을 검증(validation) 데이터 셋으로 활용한다. 검증 데이터셋은 에폭(epoch)에 따른 과적합(overfitting) 여부와 학습 종료시점 등을 제시할수 있는 지표로 활용 가능하다. K개의 데이터셋 중에서 검증 데이터셋을 어떤 데이터셋으로 활용하는지에 따라서 총 K개의 모델이 생성 가능하다. 본 논문에서는 검증 데이터셋이 20%로 분배되도록 K를 5로 설정하였으며, 이에 따라 총 5개의 모델을 생성하였다.
CNN 기반의 알고리즘이 어떤 문제 해결에 대해서 높은 성능을 보이고 있는 추세인가?
그 중에서도 심층신경망(Deep Neural Network, DNN)의 하나의 형태라고 할 수 있는 합성곱 신경망(Convolutional Neural Network, CNN) 기반의 모델은 다양한 분야에서 우수한 성능을 보이고 있다. 분류 문제를 다루는 ImageNet Large Scale Visual Recognition Competition(ILSVRC)에서도 CNN 기반의 알고리즘 모델들이 강세를 보이고 있으며 (Krizhevsky et al., 2012), 회귀(regression) 문제 (Eigen et al., 2014), 객체 탐지(object detection) (Ren et al., 2017), 의미론적 분할(semantic segmentation) (Badrinarayanan et al., 2016; Long et al., 2015) 등에서 기존의 고전적인 영상처리 알고리즘에 비하여 높은 성능을 보이고 있는 추세 이다. 이 중에서 의미론적 분할은 입력 이미지 정보에서 픽셀 단위 혹은 인스턴스 단위로 각각의 영역을 고유의 의미를 가지게끔 분할하는 신경망 구조를 가리키며, 합성곱 신경망만을 활용하여 자기부호화기(autoencoder) 형태로만 구성된 것이 특징이다 (Badrinarayanan et al.
의미론적 분할이란?
, 2015) 등에서 기존의 고전적인 영상처리 알고리즘에 비하여 높은 성능을 보이고 있는 추세 이다. 이 중에서 의미론적 분할은 입력 이미지 정보에서 픽셀 단위 혹은 인스턴스 단위로 각각의 영역을 고유의 의미를 가지게끔 분할하는 신경망 구조를 가리키며, 합성곱 신경망만을 활용하여 자기부호화기(autoencoder) 형태로만 구성된 것이 특징이다 (Badrinarayanan et al., 2016; Long et al.
참고문헌 (16)
10.1109/TPAMI.2016.2644615 Badrinarayanan V. , Kendall A. and Cipolla R. (2017), “SegNet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 39, no. 12, pp.2481-2495.
10.12815/kits.2018.17.5.55 Chun C. , Shim S. , Kang S. and Ryu S. -K. (2018), “Development and evaluation of automatic pothole detection using fully convolutional neural networks,” Journal of Korea Institute of Intelligent Transportation System , vol. 17, no. 5, pp.55-64.
Eigen D. , Puhrsch C. and Fergus R. (2014), “Depth map prediction from a single image using a multi-scale deep network,” in Proc. the 27 th International Conference on Neural Information Processing Systems (NIPS) , Montreal, Canada, pp.2366-2374.
Goodfellow I. , Bengio Y. and Courville A. (2016), Deep Learning , MIT Press, Cambridge, MA.
10.1007/978-3-540-31865-1_25 Goutte C. and Gaussier E. (2005), “A probabilistic interpretation of precision, recall and F-score, with implication for evaluation,” in Proc. the 27 th European Conference on Advances in Information Retrieval Research (ECIR) , Santiago de Compostela, Spain, pp.345-359.
10.1109/ICSP.2016.7878006 Han W. , Wu C. , Zhang X. , Sun M. and Min G. (2016), “Speech enhancement based on improved deep neural networks with MMSE pretreatment features,” in Proc. the IEEE 13 th International Conference on Signal Processing (ICSP) , Chengdu, China.
Ioffe S. and Szegedy C. (2015), “Batch normalization: accelerating deep network training by reducing internal covariate shift,” in Proc. the 32 nd International Conference on Machine Learning (ICML) , Lille, France, pp.448-456.
Kim T. and Ryu S. K. (2014), “Review and analysis of pothole detection methods,” Journal of Emerging Trends in Computing and Information Sciences , vol. 5, no. 8, pp.603-608.
Kingma D. P. and Ba J. L. (2015), “ADAM: a method for stochastic optimization,” in Proc. 3 rd International Conference on Learning Representations (ICLR) , San Diego, CA, pp.1-15.
Krizhevsky A. , Sutskever I. and Hinton G. E. (2012), “Imagenet classification with deep convolutional neural networks,” in Proc. the 27 th International Conference on Neural Information Processing Systems (NIPS) , Lake Tahoe, NV, pp.1097-1105.
10.1109/CVPR.2015.7298965 Long J. , Shelhamer E. and Darrell T. (2015), “Fully convolutional networks for semantic segmentation,” in Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , Boston, MA, pp.3431-3440.
Maclin R. and Opitz D. (1999), “Popular ensemble methods: an empirical study,” Journal of Artificial Intelligence Research , vol. 11, no. 1, pp.169-198.
Nair V. and Hinton G. E. (2010), “Rectified linear units improve restricted boltzmann machines,” in Proc. the 27 th International Conference on Machine Learning (ICML) , Haifa, Israel, pp.807-814.
10.1109/TPAMI.2016.2577031 Ren S. , He K. , Girshick R. and Sun J. (2017), “Faster R-CNN: towards real-time object detection with region proposal networks,” IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 39, no. 6, pp.1137-1149.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.