자율주행시스템에서 다양한 센서를 기반으로 한 외부환경 인지는 주행안전성과 직접적인 관계가 있다. 최근 머신러닝/심층 신경망 기술의 발전으로 심층 신경망 기반의 인지 모델이 사용됨에 따라, 인지 알고리즘의 올바른 학습과 이를 위한 양질의 학습데이터가 필수적으로 요구된다. 그러나 자율주행에 발생할 수 있는 모든 상황을 데이터를 수집하는 것은 현실적인 어려움이 많다. 해외와 국내의 교통 환경의 차이로 인지 모델의 성능이 저하되기도 하며, 센서가 정상동작을 못하는 악천우에 대한 데이터는 수집이 어려우며 질적인 부분을 보장하지 못한다. 때문에, 실제 도로가 아닌 시뮬레이터 내 가상 도로 환경을 구축하여 합성 데이터를 수집하는 접근법이 필요하다. 본 논문에서는 국내 실정에 맞게 국내 도로 상황을 모사한 시뮬레이터 환경 안에 날씨와 조도, 차량의 종류와 대수, 센서의 위치를 다양화하여 학습데이터를 수집하였고, 보다 더 좋은 성능을 위해 적대적 생성 모델을 활용하여 이미지의 도메인을 보다 실사에 가깝게 바꾸고 다양화 하였다. 그리고 위 데이터로 학습한 인지 모델을 실제 도로 환경에서 수집한 시험 데이터에 성능 평가를 진행하여, 실제 환경 데이터만으로 학습한 모델과 비슷한 성능을 내는 것을 보였다.
자율주행시스템에서 다양한 센서를 기반으로 한 외부환경 인지는 주행안전성과 직접적인 관계가 있다. 최근 머신러닝/심층 신경망 기술의 발전으로 심층 신경망 기반의 인지 모델이 사용됨에 따라, 인지 알고리즘의 올바른 학습과 이를 위한 양질의 학습데이터가 필수적으로 요구된다. 그러나 자율주행에 발생할 수 있는 모든 상황을 데이터를 수집하는 것은 현실적인 어려움이 많다. 해외와 국내의 교통 환경의 차이로 인지 모델의 성능이 저하되기도 하며, 센서가 정상동작을 못하는 악천우에 대한 데이터는 수집이 어려우며 질적인 부분을 보장하지 못한다. 때문에, 실제 도로가 아닌 시뮬레이터 내 가상 도로 환경을 구축하여 합성 데이터를 수집하는 접근법이 필요하다. 본 논문에서는 국내 실정에 맞게 국내 도로 상황을 모사한 시뮬레이터 환경 안에 날씨와 조도, 차량의 종류와 대수, 센서의 위치를 다양화하여 학습데이터를 수집하였고, 보다 더 좋은 성능을 위해 적대적 생성 모델을 활용하여 이미지의 도메인을 보다 실사에 가깝게 바꾸고 다양화 하였다. 그리고 위 데이터로 학습한 인지 모델을 실제 도로 환경에서 수집한 시험 데이터에 성능 평가를 진행하여, 실제 환경 데이터만으로 학습한 모델과 비슷한 성능을 내는 것을 보였다.
The perception of traffic environment based on various sensors in autonomous driving system has a direct relationship with driving safety. Recently, as the perception model based on deep neural network is used due to the development of machine learning/in-depth neural network technology, a the perce...
The perception of traffic environment based on various sensors in autonomous driving system has a direct relationship with driving safety. Recently, as the perception model based on deep neural network is used due to the development of machine learning/in-depth neural network technology, a the perception model training and high quality of a training dataset are required. However, there are several realistic difficulties to collect data on all situations that may occur in self-driving. The performance of the perception model may be deteriorated due to the difference between the overseas and domestic traffic environments, and data on bad weather where the sensors can not operate normally can not guarantee the qualitative part. Therefore, it is necessary to build a virtual road environment in the simulator rather than the actual road to collect the traning data. In this paper, a training dataset collection process is suggested by diversifying the weather, illumination, sensor position, type and counts of vehicles in the simulator environment that simulates the domestic road situation according to the domestic situation. In order to achieve better performance, the authors changed the domain of image to be closer to due diligence and diversified. And the performance evaluation was conducted on the test data collected in the actual road environment, and the performance was similar to that of the model learned only by the actual environmental data.
The perception of traffic environment based on various sensors in autonomous driving system has a direct relationship with driving safety. Recently, as the perception model based on deep neural network is used due to the development of machine learning/in-depth neural network technology, a the perception model training and high quality of a training dataset are required. However, there are several realistic difficulties to collect data on all situations that may occur in self-driving. The performance of the perception model may be deteriorated due to the difference between the overseas and domestic traffic environments, and data on bad weather where the sensors can not operate normally can not guarantee the qualitative part. Therefore, it is necessary to build a virtual road environment in the simulator rather than the actual road to collect the traning data. In this paper, a training dataset collection process is suggested by diversifying the weather, illumination, sensor position, type and counts of vehicles in the simulator environment that simulates the domestic road situation according to the domestic situation. In order to achieve better performance, the authors changed the domain of image to be closer to due diligence and diversified. And the performance evaluation was conducted on the test data collected in the actual road environment, and the performance was similar to that of the model learned only by the actual environmental data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 자율주행이 필요한 객체 인지 모델을 학습하는데 국내 교통 환경을 잘 반영한 데이터의 필요성과 실제 데이터를 대량으로 수집하기 어려운 점을 설명하였고, 이를 간단한 절차로 대량 생성이 가능한 가상 환경 데이터셋으로 해결해보자 하는 방법을 제안하였다.
이에 본 연구에서는 실제 환경에 준하는 환경 구축, 나아가 센서 모델링 기술을 통해 구축된 가상환경에서의 데이터셋을 생성하는 시스템을 제시하고자 한다. 실제 환경에서의 안전한 자율주행을 이끄는 인지 성능 향상을 위해서 실제와 준하는 가상의 주행환경 생성 및 센서 모델링 기술의 적용으로 양질의 학습데이터 생성을 목표로 한다.
BDD100K는 주,야간 및 다양한 날씨를 포함하지만, 미국에서 수집되었기 때문에 이를 기반으로 한 모델이 국내의 도로 환경에도 동등한 성능을 낼 수 있을지 보장하지 못한다. 이를 보완하기 위해 MORAI SIM은 가상으로나마 악천후를 재현해서 객체 인지 모델 학습을 위한 데이터셋의 정보들을 보강하고자 한다.
특히 시뮬레이션 플랫폼에서는 국내 도로환경(실제 국내에 존재하는 도로, 국내 표지판, 구급차 등 특수차량) 및 악천우 등 제약없이 구현이 가능하며, 대량의 데이터셋 구축이 가능한 장점을 가진다. 이에 본 연구에서는 실제 환경에 준하는 환경 구축, 나아가 센서 모델링 기술을 통해 구축된 가상환경에서의 데이터셋을 생성하는 시스템을 제시하고자 한다. 실제 환경에서의 안전한 자율주행을 이끄는 인지 성능 향상을 위해서 실제와 준하는 가상의 주행환경 생성 및 센서 모델링 기술의 적용으로 양질의 학습데이터 생성을 목표로 한다.
가설 설정
가상 환경으로 만들어진 데이터셋을 검증하는 방법으론 객체인식 모델을 가상 환경 이미지로 트레이닝 시킨 후, 실제 카메라 이미지로 트레이닝 시킨 것과 비교해보는 것으로 시도했다. 가상 환경의 이미지가 의미가 있다면, 객체 인식 모델의 학습 결과에 의미 있는 성능 변화를 줄 거라는 가정 하에 진행한 것이다.
우선 평가해보고자 하는 요소는 두 가지로, 첫 번째는 논문에서 제시하는 가상환경의 데이터와 Virtual KITTI 둘 중 하나를 학습시키면, 두 YOLO-v3 모델 중 어디가 실제 KITTI에 더 잘 동작하는지의 여부다. 만일 논문에서 제시한 가상 주행 환경의 데이터가 KITTI에 잘 맞는 도메인이라면, Virtual KITTI보다 더 좋은 성능을 내놓을 것이라는 가정이다. 실제로 학습 데이터와 검증 테스트 용 데이터 간의 도메인 차이가 커지면 커질수록 학습된 모델은 테스트 데이터에 대해 인식 결과가 부정확해진다.
제안 방법
YOLO-v3의 COCO mAP-50의 결과를 보면 Single Shot Detector(SSD)(Liu et al., 2015), YOLO-v2(Redmon et al., 2016) 보단 정확하고, RetinaNet과 Faster R-CNN (Ren et al., 2016)등에는 못 미쳤지만, inference time 에서는 RetinaNet과 Faster R-CNN보다 더 우수한 측면을 보였기 때문에 선정하였다. 자율주행을 위한 인지 모델의 경우는 정확도뿐만 아니라 inference time이 50ms 이내로는 나와야 하는 점을 고려하여 비교하였다.
가상 환경으로 만들어진 데이터셋을 검증하는 방법으론 객체인식 모델을 가상 환경 이미지로 트레이닝 시킨 후, 실제 카메라 이미지로 트레이닝 시킨 것과 비교해보는 것으로 시도했다. 가상 환경의 이미지가 의미가 있다면, 객체 인식 모델의 학습 결과에 의미 있는 성능 변화를 줄 거라는 가정 하에 진행한 것이다.
가상의 주행환경에서 얻은 데이터 외에도 더 다양한 도메인의 성능을 올리기 위해, style transfer를 시도했다. style transfer, image-to-image translation 등으로 불리는 이 문제는 한 이미지를 다른 이미지의 스타일을 가지는 새로운 이미지로 생성하는 것을 말한다.
게임엔진으로 Unity를 선정한 후, 실제 국내 도로 환경을 [Fig. 2]처럼 3D Map으로 옮겨서 구현하였다. 앞서 언급한데로 공개되어 있는 자율주행 데이터셋은 대부분 독일이나 미국같은 해외 기준으로 되어 있어, 국내에만 존재하는 표지판과 톨게이트 같은 기타 교통 인프라에 대한 정보가 포함되지 않기 때문에 학습 후 국내 환경에 적용하기에 검증이 되지 않는다.
그리고 객체의 추정위치까지 평가해주진 않는다. 그래서 먼저 객체의 추정 위치 지표로는 예측된 bounding box와 라벨링된 bounding box간의 Intersection over union(IoU)를 계산해서 IoU가 특정 값 이상일 때 객체 성능을 평가한다. 본 논문에선 0.
이미지 해상도는 총 4가지(800x240, 640x480, 1280x720, 1920x1080) 로 구성이 되어 있다. 그리고 데이터를 수집할 때마다 카메라의 각도를 변경시켜가면서 수집을 하였고, 날씨도 실제 데이터에 포함되어 있지 않았던 눈, 비, 안개를 포함한 악천후와 주간 및 야간 상황을 재현하였으며, 차량도 기존 승용차 외에도 국내에서만 운행되는 버스 및 특수 차량 모델까지 구현을 하였다. 이와 같이 총 2만여 장의 데이터를 취득하였다.
cityscapes에 차량만 마스킹하고 확대하여 새로운 이미지 데이터를 만들어 학습시킨 결과, 차량의 범퍼와 표지판 등 차량의 세세한 부분도 생성이 되는 것을 확인할 수 있다. 그리고 시뮬레이터 이미지 데이터는 그림과 같이 가상 주행환경으로 얻은 데이터, 차량만 변환한 데이터, 전체 지형을 변환한 데이터, 총 3가지 그룹으로 구성하였다.
실제 데이터 수집 및 구축의 어려운 점인 Bounding Box 라벨링은 가상환경 상에서 객체별 Segmentation 라벨을 직접 받아 생성함으로 해결하였고, 가상 환경 상의 학습 데이터 수집은 실제 데이터 수집에 비해 다양한 Resolution과 카메라 각도, 날씨 조건을 제공하면서 데이터를 생성하였다. 그리고 실제와의 유사성을 개선해보기 위해 GAN의 한 종류인 Pix2Pix 로 가상환경의 Segmentation 이미지를 실제 이미지처럼 Style Transfer 하였다.
, 2016). 날씨와 카메라 구도, 시간에 대한 조도 변화를 게임 엔진을 통하여 생성하고 다양화하였다. 그러나 실사성이 떨어지는 단점이 있었으며, 실사성을 높이기 위해서 게임 엔지니어들의 수작업과 그에 따른 인건비가 든다.
두 번째는 과연 KITTI외의 다른 데이터셋에서 인식 결과가 잘 나오는지의 여부이다. 두 번째 실험의 비교를 위한 데이터셋은 아래와 같이 3가지로 나누어서 구성하고 각각의 데이터셋을 YOLO-v3의 구조로 동등하게 학습시켰다. 학습은 셋 다 80epoch으로 실행하였다.
두번째 실험의 테스트는 KODAS 데이터 셋에 간단하게 inference해보았으며, 그 결과 중 하나는 아래와 같다. 가상환경 이미지와 실제 이미지 둘 다 맑은 날씨 상에서 차량이 일렬로 배치된 상황이 포함되어 있으므로, 인지된 차량 대수도 차이가 없음을 확인할 수 있다.
실제로 학습 데이터와 검증 테스트 용 데이터 간의 도메인 차이가 커지면 커질수록 학습된 모델은 테스트 데이터에 대해 인식 결과가 부정확해진다. 때문에 실제 KITTI 데이터에 두 가지 가상 환경 데이터를 동등한 비율로 조합하여 후보군을 9개 만들어서 성능을 비교하였다.
해외에서 공개된 자율주행용 데이터셋은 국내 도로 교통 환경 상에서만 존재하는 정보들을 포함하지 않기에 객체 인지 모델이 국내 환경에 대한 일반적인 성능을 보장 못하기에, 국내 도로 환경에 대한 정보가 들어간 국내 데이터셋이 필요함을 설명하였다. 또한 이 데이터를 구축하는데 많은 시간과 비용이 소요되고, 센서가 동작하지 못하는 날씨 등의 외부요인으로 수집이 어려우며, 인적 요인으로 라벨링에 실수가 발생하는 등으로 대규모의 데이터를 단기간에 생성하는데 가상 환경 상에서 자율주행용 데이터를 생성시키는 프로그램이 필요함을 설명하면서, MORAI SIM을 설명하였다.
본 논문에선 MORAI SIM를 제작하는데 Unity를 사용하여 표지판과 기타 국내 도로 인프라를 랜더링하고 3D Map을 재현하여 국내 도로 환경 정보를 가상 데이터셋이 포함하도록 만들었다. 실제 데이터 수집 및 구축의 어려운 점인 Bounding Box 라벨링은 가상환경 상에서 객체별 Segmentation 라벨을 직접 받아 생성함으로 해결하였고, 가상 환경 상의 학습 데이터 수집은 실제 데이터 수집에 비해 다양한 Resolution과 카메라 각도, 날씨 조건을 제공하면서 데이터를 생성하였다.
4, 5]와 같은 점군 데이터와 이미지이고 센서의 Raw 데이터와 학습에 사용될 수 있도록 가공된 정답 데이터로 구성한다. 사용자가 센서 데이터를 별도의 가공 없이 바로 학습에 사용가능한 데이터를 제공 받을 수 있도록 구현하였다.
이를 보완하기 위해 차량만 스타일 변환하도록 하는 모델을 하나 더 만들어서 실험을 진행하였다. cityscapes에 차량만 마스킹하고 확대하여 새로운 이미지 데이터를 만들어 학습시킨 결과, 차량의 범퍼와 표지판 등 차량의 세세한 부분도 생성이 되는 것을 확인할 수 있다.
앞서 언급한데로 공개되어 있는 자율주행 데이터셋은 대부분 독일이나 미국같은 해외 기준으로 되어 있어, 국내에만 존재하는 표지판과 톨게이트 같은 기타 교통 인프라에 대한 정보가 포함되지 않기 때문에 학습 후 국내 환경에 적용하기에 검증이 되지 않는다. 이를 해결하기 위해 국내에만 존재하는 교통 인프라를 가상환경 상에서 추가하였다. 이때 가상환경에서 생성되는 데이터셋은 국내 표지판과 특수 차량 등에 대한 인식률 향상에 기여할 것이다(Tremblay et al.
, 2016)등에는 못 미쳤지만, inference time 에서는 RetinaNet과 Faster R-CNN보다 더 우수한 측면을 보였기 때문에 선정하였다. 자율주행을 위한 인지 모델의 경우는 정확도뿐만 아니라 inference time이 50ms 이내로는 나와야 하는 점을 고려하여 비교하였다.
첫번째 실험의 테스트 결과로 KITTI validate 데이터에 대한 각 모델 inference 결과의 mAP와 recall을 산출하고, 이를 아래 표와 같이 나타내었다. mAP의 결과들을 보면 당연히 제일 많은 데이터가 들어간 3번의 경우가 제일 좋았으며, 동등한 비율로 실제 KITTI 데이터에 두 가상 데이터를 넣었을 때는 논문에서 제시하는 MORAI SIM의 데이터가 KITTI validate 데이터에 더 높은 mAP를 나타냄을 보였다.
두 번째 실험의 비교를 위한 데이터셋은 아래와 같이 3가지로 나누어서 구성하고 각각의 데이터셋을 YOLO-v3의 구조로 동등하게 학습시켰다. 학습은 셋 다 80epoch으로 실행하였다. 1과 2는 BDD100K와 논문에서 제시되는 가상환경 이미지가 YOLO-v3 성능에 어떻게 기여하는지 비교하는 것이며, 3번의 경우에는 각각의 데이터 셋이 어떤 상황에서 영향을 주는지를 보여주기 위함이다.
대상 데이터
이 두 모델이 적대적으로 학습을 하면, 생성자는 실제 이미지와 비슷한 가상 이미지를 만들어 낼 수 있다는 뜻이다. Pix2Pix를 학습시킬 때는 segmentation 학습이 많이 쓰이는 cityscapes 데이터셋을 가지고 시도하였다.
가상 환경으로 만들어진 데이터셋과 비교하기 위한 실제 데이터셋 비교군으로는 KITTI와 Berkeley Deep Drive 100K(BDD100K)를 사용하였고(Yu et al., 2020), 다른 가상 데이터로는 Virtual KITTI를 사용하였다(Gaidon et al., 2016). 그리고 학습에는 참여시키지 않는 테스트용 데이터로는 KITTI의 validate 데이터와 KODAS를 사용하였다.
, 2016). 그리고 학습에는 참여시키지 않는 테스트용 데이터로는 KITTI의 validate 데이터와 KODAS를 사용하였다. BDD100K는 KITTI와 cityscapes에 비해 눈, 비, 흐림 등 다양한 날씨를 포함하고, 주간에만 수집된 두 데이터셋에 비해 야간과 터널 등 조도가 낮은 상황에서도 수집이 됐기 때문에 객체 인지 모델을 일반화가 가능하도록 학습시키는 것이 가능하다.
가상의 학습 데이터를 생성하는 MORAI SIM을 만드는데 가장 먼저 해야 하는 것은 가상 환경을 만들 개발 엔진 선정이었다. 본 논문에서 선정한 개발 엔진은 Unity다. Unity는 UnrealEngine과 함께 게임 개발에 쓰이는 개발 엔진이며, 객체의 색상과 질감 표현 뿐만 아니라, 중력과 충돌, 투과 같은 물리 조건 등도 구현이 가능하다.
본 논문에선 MORAI SIM를 제작하는데 Unity를 사용하여 표지판과 기타 국내 도로 인프라를 랜더링하고 3D Map을 재현하여 국내 도로 환경 정보를 가상 데이터셋이 포함하도록 만들었다. 실제 데이터 수집 및 구축의 어려운 점인 Bounding Box 라벨링은 가상환경 상에서 객체별 Segmentation 라벨을 직접 받아 생성함으로 해결하였고, 가상 환경 상의 학습 데이터 수집은 실제 데이터 수집에 비해 다양한 Resolution과 카메라 각도, 날씨 조건을 제공하면서 데이터를 생성하였다. 그리고 실제와의 유사성을 개선해보기 위해 GAN의 한 종류인 Pix2Pix 로 가상환경의 Segmentation 이미지를 실제 이미지처럼 Style Transfer 하였다.
변경했던 조건들은 아래와 같다. 이미지 해상도는 총 4가지(800x240, 640x480, 1280x720, 1920x1080) 로 구성이 되어 있다. 그리고 데이터를 수집할 때마다 카메라의 각도를 변경시켜가면서 수집을 하였고, 날씨도 실제 데이터에 포함되어 있지 않았던 눈, 비, 안개를 포함한 악천후와 주간 및 야간 상황을 재현하였으며, 차량도 기존 승용차 외에도 국내에서만 운행되는 버스 및 특수 차량 모델까지 구현을 하였다.
그리고 데이터를 수집할 때마다 카메라의 각도를 변경시켜가면서 수집을 하였고, 날씨도 실제 데이터에 포함되어 있지 않았던 눈, 비, 안개를 포함한 악천후와 주간 및 야간 상황을 재현하였으며, 차량도 기존 승용차 외에도 국내에서만 운행되는 버스 및 특수 차량 모델까지 구현을 하였다. 이와 같이 총 2만여 장의 데이터를 취득하였다. 그리고 III-2-3)에서처럼 각 프레임에 대응되는 정답 데이터까지 반드시 포함시켜야 한다.
이론/모형
가상 환경의 데이터를 가지고 Image-to-image translation 를 하는데 Pix2Pix 모델을 사용하였다(Isola et al., 2017). Conditional GAN의 한 종류인 Pix2Pix는 이미지 생성을 위한 어떤 조건 이미지를 입력으로 주면, 그 조건을 기반으로 모델에 학습된 스타일대로 조건 이미지를 스타일 변환시켜준다.
그 밖에 성능을 평가하기 위한 성능 지표로는 객체 인지 문제에 가장 많이 사용하는 mean Average Precision(mAP)를 사용하였다. 보통 객체 분류로 많이 쓰이는 precision과 recall은 객체의 클래스를 분류하는 threshold 에 따라 그 값이 바뀌어 강건한 성능지표로 쓰이기 힘들다.
선정된 객체인식 모델은 YOLO-v3를 사용하였다(Redmon et al., 2019). 이전 객체 인지 모델들에 비해 속도와 정확도 전부 적절한 결과를 내놓고 있다고 저자는 설명하고 있는데, back bone 모델로는 darknet53을 사용하였고, 학습을 하는데 overfitting을 방지하는 batch normalization과 data augmentation을 사용하여 regularization 기법들을 사용하였다.
, 2019). 이전 객체 인지 모델들에 비해 속도와 정확도 전부 적절한 결과를 내놓고 있다고 저자는 설명하고 있는데, back bone 모델로는 darknet53을 사용하였고, 학습을 하는데 overfitting을 방지하는 batch normalization과 data augmentation을 사용하여 regularization 기법들을 사용하였다. 특히 이전에 쓰이는 ResNet-101과 ResNet-152 등에 비해 FPS가 높으면서도, 정확도는 큰 차이가 없으며, floating point operation/s에서 가장 높은 성능을 달성하여 GPU를 효율적으로 사용한다는 점을 저자는 보여주고 있다.
성능/효과
BDD100K로 학습한 모델과 가상 환경 이미지로 학습한 모델을 비교하여 차량 인지 성능에 비슷한 결과를 낼 수 있음을 확인하였고, 두 데이터를 혼합하여 학습하면 Data Augmentation로 인한 성능 향상과 국내 도로 환경에서만 볼 수 있는 이미지들에 대한 정확한 인지 결과를 낼 수 있는 것도 상대적으로 개선된 mAP값들로 증명되었다.
첫번째 실험의 테스트 결과로 KITTI validate 데이터에 대한 각 모델 inference 결과의 mAP와 recall을 산출하고, 이를 아래 표와 같이 나타내었다. mAP의 결과들을 보면 당연히 제일 많은 데이터가 들어간 3번의 경우가 제일 좋았으며, 동등한 비율로 실제 KITTI 데이터에 두 가상 데이터를 넣었을 때는 논문에서 제시하는 MORAI SIM의 데이터가 KITTI validate 데이터에 더 높은 mAP를 나타냄을 보였다. 이는 Virtual KITTI보다, MORAI SIM 데이터가 KITTI의 도메인에도 모델의 인지 기능을 유지할 수 있는 일반성을 높여준다는 것으로 해석할 수 있다.
두번째 실험의 테스트는 KODAS 데이터 셋에 간단하게 inference해보았으며, 그 결과 중 하나는 아래와 같다. 가상환경 이미지와 실제 이미지 둘 다 맑은 날씨 상에서 차량이 일렬로 배치된 상황이 포함되어 있으므로, 인지된 차량 대수도 차이가 없음을 확인할 수 있다. 이는 MORAI SIM의 데이터가 악천후가 아닌, 자율주행을 하는데 센서가 날씨의 악영향을 받지 않는 조건에선 자율주행용 인지 모델이 적절한 성능을 낼 수 있도록 기여할 수 있음을 보여준다.
그리고 실제 KITTI와 MORAI SIM의 데이터의 총합을 5000개로 동등하게 조정해서 비율만 달리 하여 비교한 5,6,7번의 경우를 보면 MORAI SIM의 비율이 점점 높아질수록 학습된 인지 모델의 성능이 떨어지는 것을 알 수 있는데, 이는 아무리 MORAI SIM 데이터가 Virtual KITTI보단 실제 KITTI와의 유사도가 높더라도 본래 원본만큼은 아니라는 점을 시사한다. 그리고 KITTI 데이터 3000개에 Morai 데이터 2만여 개를 추가한 9번의 경우가 실제 KITTI 5000개의 데이터로만 학습한 것과 근접하지만 성능이 조금 낮은 것은, KITTI 데이터 2000개의 차이를 메꾸기 위해 가상환경 데이터가 10배 이상 필요하다는 것을 의미한다.
이 또한 위의 상황과 마찬가지로 novel observation에 취약한 모델의 한계를 보여주었으며, 이를 보완하기 위해 국내 버스를 포함한 데이터셋으로 학습시켜야 인지가 가능함을 3번으로 확인할 수 있다. 라벨링할 bounding box를 되도록 가능한 한 작게 해줘야 함을 보여줬으며, BDD100K 같이 미국 차량만 포함되어 있는 데이터가 국내의 도메인에 취약 했음을 확인하였다.
그러나 BDD100K로 학습했던 모델인 1번의 경우, 국내 버스를 인지하지 못하는 것을 확인 할 수 있는데, 이는 BDD100K의 차량들이 미국 내에 운행 중인 차량에 한정되어 있어, 국내 버스 샘플은 BDD100K 기준으로 out of distribution이기 때문이다. 이 또한 위의 상황과 마찬가지로 novel observation에 취약한 모델의 한계를 보여주었으며, 이를 보완하기 위해 국내 버스를 포함한 데이터셋으로 학습시켜야 인지가 가능함을 3번으로 확인할 수 있다. 라벨링할 bounding box를 되도록 가능한 한 작게 해줘야 함을 보여줬으며, BDD100K 같이 미국 차량만 포함되어 있는 데이터가 국내의 도메인에 취약 했음을 확인하였다.
차에 대해서만 한정하여 mAP를 비교한 결과는 아래와 같으며, 비록 데이터 개수는 125개로 적고 학습데이터에서 나온 KODAS 데이터와 비슷한 도메인이지만, 가상으로 만든 이미지 데이터가 BDD100K보다 더 높은 걸 확인할 수 있었다.
후속연구
아직 가상환경의 데이터만 가지고는 실제 이미지 데이터의 물체 인식을 수행하는 데에는 한계가 있으며, 실제 이미지 데이터를 1천개 정도 포함하더라도 가상 환경의 데이터 이미지가 배수로 필요하다는 결론도 나왔기에, 모델의 domain adaptation 성능을 개선해서 해결해보는 연구도 필요할 것으로 사료된다. 그밖에 향후 연구 사항으로 게임 엔진으로 구현된 가상환경 데이터의 실사성을 개선하는 것으로, 이미지 외에 Lidar 포인트 클라우드의 실제 잡음을 GAN을 통해서 재현시킴으로서 3D object detection 과 lidar SLAM 연구에도 기여하는 것도 가능할 것으로 판단된다.
아직 가상환경의 데이터만 가지고는 실제 이미지 데이터의 물체 인식을 수행하는 데에는 한계가 있으며, 실제 이미지 데이터를 1천개 정도 포함하더라도 가상 환경의 데이터 이미지가 배수로 필요하다는 결론도 나왔기에, 모델의 domain adaptation 성능을 개선해서 해결해보는 연구도 필요할 것으로 사료된다. 그밖에 향후 연구 사항으로 게임 엔진으로 구현된 가상환경 데이터의 실사성을 개선하는 것으로, 이미지 외에 Lidar 포인트 클라우드의 실제 잡음을 GAN을 통해서 재현시킴으로서 3D object detection 과 lidar SLAM 연구에도 기여하는 것도 가능할 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
Unity란 무엇인가?
본 논문에서 선정한 개발 엔진은 Unity다. Unity는 UnrealEngine과 함께 게임 개발에 쓰이는 개발 엔진이며, 객체의 색상과 질감 표현 뿐만 아니라, 중력과 충돌, 투과 같은 물리 조건 등도 구현이 가능하다. 이 때문에 자율주행 연구에도 Unreal Engine과 Unity가 사용되고 있다.
자율주행시스템에 장착되는 센서는?
자율주행시스템(Autonomous Driving System)은 인지 판단 제어 등이 포함되는 일련의 자율주행 과정에서 외부환경을 인지하는 것이 주행안전성과 직접적인 관계가 있다, 이를 위해서 LiDAR, Radar, Camera 등의 다양한 센서를 차량에 추가로 장착하여 주행안전성을 최대화 시킨다. 이렇듯 외부환경을 인지하기 위해서 다양한 종류의 센서가 사용되고, 검출 영역과 목적에 맞춰 활용되는 센서의 개수와 위치가 다양하게 정의되어질 수 있다.
인지 알고리즘의 ‘학습(Learning)’ 과정을 위해 필수적으로 요구되는것은?
이렇듯 외부환경을 인지하기 위해서 다양한 종류의 센서가 사용되고, 검출 영역과 목적에 맞춰 활용되는 센서의 개수와 위치가 다양하게 정의되어질 수 있다. 최근 머신러닝 기술의 발전으로 인지율(Recognition rate)이 크게 향상되었지만 이를 위해 반드시 선행돼야 하는 부분은 인지 알고리즘의 ‘학습(Learning)’ 과정이며, 이를 위해서는 ‘학습데이터(Learning Dataset)’가 필수적으로 요구된다. 인지 성능의 향상이란 머신러닝 또는 딥러닝(Deep learning) 알고리즘의 적용만을 통해서 이뤄낼 수 없으며, 양질의 데이터와 이를 기반으로 한 학습, 그리고 테스트와 피드백의 종합적인 과정을 반복함으로써 얻을 수 있다.
참고문헌 (16)
Chen D., Zhou B., Koltun V. and Krahenbuhl P.(2019), "Learning by Cheating," Conference on Robot Learning(CoRL).
Dosovitskiy A., Ros G., Codevilla F., Lopez A. and Koltun V.(2017), "CARLA: An Open Urban Driving Simulator," Conference on Robot Learning(CoRL).
Gaidon A., Wang Q., Cabon Y. and Vig E.(2016), "Virtual Worlds as Proxy for Multi-Object Tracking Analysis," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.4340-4349.
Geiger A., Lenz P., Stller C. and Urtasun R.(2013), "Vision meets Rototics: The KITTI Dataset," The International Journal of Robotics Research, vol. 32, no. 11, pp.1231-1237.
Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A. and Bengio Y.(2014), "Generative Adversarial Networks," NIPS.
Isola P., Zhu J. Y., Zhou T. and Efros A.(2017), "Image-to-Image Translation with Conditional Adversarial Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.1125-1134.
Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C. and Berg A.(2015), "SSD: Single Shot MultiBox Detector," European Conference on Computer Vision(ECCV), pp.21-37.
Redmon J. and Farhadi A.(2016), "YOLO9000: Better, Faster, Stronger," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.7263-7271.
Redmon J. and Farhadi A.(2019), YOLO v3: An Incremental Improvement, University of Washington.
Redmon J., Divvala S., Grishick R. and Farhadi A.(2015), "You Only Look Once: Unified, Real-Time Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.779-788.
Ren S., He K., Girshick R. and Sun J.(2016), "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," In IEEE Transactions on Pattern Analysis and Machine Intelligence.
Rong G., Shin B. H., Tabatabaee H., Lu Q., Lemke S., Mozeiko M., Boise E., Uhm G., Gerow M., Mehta S., Agafonov E., Kim T. H., Sterner E., Ushiroda K., Reyes M., Zelenkovsky D. and Kim S.(2020), "LGSVL Simulator: A High Fidelity Simulator for Autonomous Driving," ITSC.
Tremblay J., Prakash A., Acuna D., Brophy M., Jampani V., Anil C., To T., Cameracci E., Boochoon S. and Birchfield S.(2018), "Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization," In CVPR Workshop.
Yang Z., Chai Y., Anguelov D., Zhou Y., Sun P., Erhan D., Rafferty S. and Kretzschmar H.(2020), "SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.11118-11127.
Yu F., Chen H., Wang X., Xian W., Chen Y., Liu F., Madhavan V. and Darrell T.(2020), "BDD100K: A Diverse Driving Dataset for Heterogeneous Multitask Learning," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.2636-2645.
Zhu J. Y., Park T., Isola P. and Efros A.(2017), "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," Proceedings of the IEEE International Conference on Computer Vision(ICCV), pp.2223-2232.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.