최근 딥러닝 기술의 급속한 발전과 함께 학습데이터가 크게 주목을 받고 있다. 일반적으로 딥러닝 방식에서는 모델을 훈련시키기 위해 충분한 학습데이터가 준비되어 있어야 한다. 하지만, 딥러닝 모델 설계 작업과 달리 데이터셋을 제작하는 데 상당한 시간과 노력이 필요하다. 영상 데이터를 주로 다루는 시각지능 분야에서도 학습데이터 제작자들은 전문적인 학습데이터 제작 도구를 사용해 이미지 단위로 레이블링을 수작업으로 하고 있어 여전히 많은 시간과 노력이 필요한 상황이다. 따라서, 다양한 분야에서 필요한 충분한 영상 학습데이터셋을 확보하기 위해 기존의 수작업 방식을 대체할 수 있는 레이블링 기술이 필요하다. 본 논문에서는, 영상 학습데이터셋 동향을 소개하고, 학습데이터 제작 환경에 대해 분석한다 특히, 수작업으로 이루어지는 반복적이고 수고스러운 레이블링 과정을 자동화하여, '확인과 수정'의 단계를 비약적으로 단축시킬 수 있는 '스마트 영상학습데이터 제작 시스템'을 제안한다. 그리고, 실험을 통해 영상 학습데이터 제작 과정에서 이미지에 박스형 및 폴리곤형 객체영역을 지정하여 레이블링하는 데 소요되는 시간을 크게 줄이기 위한 자동레이블링 방식의 효과를 검증한다. 마지막으로, 제안하는 시스템의 실험에서 추가적으로 검증되어야 하는 부분과 함께 이를 개선하기 위한 향후 연구 계획에 대해 논의한다.
최근 딥러닝 기술의 급속한 발전과 함께 학습데이터가 크게 주목을 받고 있다. 일반적으로 딥러닝 방식에서는 모델을 훈련시키기 위해 충분한 학습데이터가 준비되어 있어야 한다. 하지만, 딥러닝 모델 설계 작업과 달리 데이터셋을 제작하는 데 상당한 시간과 노력이 필요하다. 영상 데이터를 주로 다루는 시각지능 분야에서도 학습데이터 제작자들은 전문적인 학습데이터 제작 도구를 사용해 이미지 단위로 레이블링을 수작업으로 하고 있어 여전히 많은 시간과 노력이 필요한 상황이다. 따라서, 다양한 분야에서 필요한 충분한 영상 학습데이터셋을 확보하기 위해 기존의 수작업 방식을 대체할 수 있는 레이블링 기술이 필요하다. 본 논문에서는, 영상 학습데이터셋 동향을 소개하고, 학습데이터 제작 환경에 대해 분석한다 특히, 수작업으로 이루어지는 반복적이고 수고스러운 레이블링 과정을 자동화하여, '확인과 수정'의 단계를 비약적으로 단축시킬 수 있는 '스마트 영상학습데이터 제작 시스템'을 제안한다. 그리고, 실험을 통해 영상 학습데이터 제작 과정에서 이미지에 박스형 및 폴리곤형 객체영역을 지정하여 레이블링하는 데 소요되는 시간을 크게 줄이기 위한 자동레이블링 방식의 효과를 검증한다. 마지막으로, 제안하는 시스템의 실험에서 추가적으로 검증되어야 하는 부분과 함께 이를 개선하기 위한 향후 연구 계획에 대해 논의한다.
The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of...
The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.
The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.
본 논문에서는 시각지능 개발에 필요한 학습데이터 제작을 효과적으로 지원하기 위한 시스템을 소개한다. 제안하는 시스템에서는 자동 레이블링으로 도출되는 결과에 대한 확인과 수정에만 작업자가 관여하여, 효과적이고 빠른 학습데이터 양산이 가능하게 된다.
자동 레이블링은 학습데이터 제작 시간을 크게 단축 시킬 수 있는 기술로서, 다양한 레이블링 전문 기업에서 경쟁적으로 기술 개발 및 적용을 위한 노력을 진행하고 있다. 본 연구에서는 기존의 학습데이터 제작 서비스들이 일반적으로 한정된 사전학습 모델에 의존하는 자동레이블을 적용하는 것과 달리 백-엔드 온라인 인공지능 서비스와 연동하여 보다 다양한 사전학습 모델을 적용할 수 있는 기술을 제안한다.
제안 방법
그리고, 이미지 레이블링을 위한 온/오프라인 레이블링 작업 환경들의 비교·분석을 통해 학습데이터 제작 생산성 제고를 위한 전략들을 검토한다
특히, 자동 레이블링 기능은 작업자의 레이블링 전에 사전학습된 인식 모델을 통해 객체를 인식하고 작업자에게 이후 작업을 수행하게 하도록 하고 있다. 본 논문에서 제안하는 자동 레이블링 기능도 이러한 기능의 일종이지만, 기존 작업환경 소프트웨어/서비스와 달리 사전 학습모델을 레이블링 작업환경과 일체화시키는 것이 아닌 별도의 백-엔드 온라인 인공지능 서비스를 통해 제공한다는 점에서 차별화된다.
본 논문에서는 영상 학습데이터 제작에 필요한 작업자의 레이블링 작업을 줄이기 위해 전처리로써 객체탐지를 통해 사전 레이블링을 수행하고, 작업자에게 이를 확인 및 수정하게 하는 방식의 시스템을 제안하고 있다. 특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다.
본 연구에서는 이미지 레이블링 시스템에서 자동 레이블링을 수행하는 부분을 벡-엔드 온라인 처리로 수행하는 구조를 제안한다.
본 연구에서는 자동 레이블링 기능을 중심으로 개발을 추진하였으며, 구체적으로 스마트 도시 분야에서 많이 생산되는 도시 영상 데이터를 활용해 학습데이터 제작을 지원하기 위한 필요한 기능을 부가적으로 개발하였다. 본 장에서는 영상 학습데이터 제작에서 필요한 수작업을 줄이기 위한 자동 레이블링의 실제 구현 방식 및 백-엔드 온라인 객체 인식 서비스 기능에 대해 설명한다.
이미지 학습데이터 제작 작업은 작업자의 숙련도 및 이미지 내 객체출현 정도, 객체 형태의 복잡도에 따라 크게 달라질 수 있기 때문에 본 평가에서는 임의의 영상을 중심으로 제한된 실험으로 수행하였다.
본 논문에서는 시각지능 개발에 필요한 학습데이터 제작을 효과적으로 지원하기 위한 시스템을 소개한다. 제안하는 시스템에서는 자동 레이블링으로 도출되는 결과에 대한 확인과 수정에만 작업자가 관여하여, 효과적이고 빠른 학습데이터 양산이 가능하게 된다. 자동 레이블링은 학습데이터 제작 시간을 크게 단축 시킬 수 있는 기술로서, 다양한 레이블링 전문 기업에서 경쟁적으로 기술 개발 및 적용을 위한 노력을 진행하고 있다.
대상 데이터
• 실험 참가자 : 실험에는 [표 3]과 같이 30∼40대 연령의 IT 관련 분야 전공 연구자들(남성) 6명이 참가하였다
특히, 이미지 내에 포함된 객체의 개수에 따라 레이블링 시간이 크게 달라지므로 실험데이터셋은 이러한 차이를 살펴볼 수 있도록 구성할 필요가 있다. 본 실험에서는 [그림 2]에서 보이는 바와 같이 10 장의 이미지로 각각의 이미지를 제안 레이블링 시스템을 사용하여 작업을 수행한다. 이 그림에는 추가적으로 Mask R-CNN 모델을 활용하여 사전인식한 결과를 보여주고 있으며 작업자는 이를 수정하여 최종 레이블링 작업을 마칠 수 있게 된다.
실험에 소요되는 부가적인 이미지 로딩 및 결과 출력 시간은 레이블링 시간에 포함되지 않는다. 타겟으로 하는 객체의 클래스는 car, bus, truck, person, elephant, zebra, bear, cat, dog, sheep의 총 10종으로 시스템에 미리 클래스명이 등록되어 있다. 이러한 준비작업은 한 번만 등록하고 반복적으로 사용되므로 레이블링 시간에 역시 포함되지 않는다.
데이터처리
• 실험 데이터 개수와 객체 다양성 : 본 실험에서는 [그림 2]의 10장의 실험 이미지를 선정하여 객체 개수 증가 따른 효과를 집중적으로 분석하였다
본 장에서는 제안한 자동 레이블링의 효과를 검증하기 위해 제안 시스템을 활용해 이미지 레이블링 작업 시간을 측정하여, 수작업 대비 개선 효과를 평가한다.
성능/효과
결과적으로, 박스형과 폴리곤형 레이블링 모두에서 30∼60%의 작업시간을 단축할 수 있었으며, 특히 레이블링을 수동방식으로 처음부터 수행하는 것이 아닌 사전인식 결과를 수정하는 방식이라 작업자의 작업부담은 크게 개선되었다.
특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다. 실험용 이미지 셋을 통한 수동과 자동 레이블링 비교 실험 결과에서도 자동 레이블링이 작업속도 면에서도 크게 효과적이며, 특히 박스형과 폴리곤형의 레이블링 방식 모두에서 작업 시간을 단축할 수 있었다.
본 논문에서는 영상 학습데이터 제작에 필요한 작업자의 레이블링 작업을 줄이기 위해 전처리로써 객체탐지를 통해 사전 레이블링을 수행하고, 작업자에게 이를 확인 및 수정하게 하는 방식의 시스템을 제안하고 있다. 특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다. 실험용 이미지 셋을 통한 수동과 자동 레이블링 비교 실험 결과에서도 자동 레이블링이 작업속도 면에서도 크게 효과적이며, 특히 박스형과 폴리곤형의 레이블링 방식 모두에서 작업 시간을 단축할 수 있었다.
후속연구
특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다. 또한, 작업자별 레이블링 결과의 품질 차이를 줄이기 위해 레이블링 작업 워크플로우 관리 및 자동 품질 평가 기술에 관한 연구개발을 수행할 예정이다.
또한, 참가 작업자들은 작업 중에 오로지 레이블링 작업에만 집중하도록 하며 개인별로 이미지 내에서 영역에 대한 지정 방식에는 특별히 제약을 주지 않고 자유롭게 하되 최대한 객체를 정확히 커버링하도록 요구하였다. 본 실험에서는 작업자들의 연령과 작업량의 직접적인 상관관계는 나타나고 있지 않으며 향후 연구로 남겨 둔다.
본 연구에서는 이미지 학습데이터 제작에 있어 사전인식 결과를 활용한 자동레이블링의 효과를 검증하기 위한 실험을 다음과 같이 한정된 범위에서 수행하였으며, 보다 개선된 자동레이블링 결과를 얻기 위해 향후 연구 및 시스템 개발을 이어 나갈 계획이다.
• 실험 데이터 개수와 객체 다양성 : 본 실험에서는 [그림 2]의 10장의 실험 이미지를 선정하여 객체 개수 증가 따른 효과를 집중적으로 분석하였다. 실제적인 대량의 이미지 레이블링 작업에서는 더 많은 데이터로부터 더 복잡하고 다양한 객체형태를 갖는 경우가 발생할 수 있으며 이에 대해 향후 연구를 통해 더 많은 사례에 대한 개선방안을 연구할 계획이다.
또한, 참가자에 따라서는 폴리곤 방식에 있어 하나의 객체를 지정하기 위해 다수의 점들로 지정된 영역을 표현하기 위해 많은 시간을 소모하기도 하여 작업자별로 서로 다른 양상을 보일 수 있다. 이러한 개인차 및 이에 대한 개선방안에 대해서도 향후 연구를 통해 안정적인 품질의 레이블링을 위한 기법에 대한 연구를 진행할 계획이다.
특히, 폴리곤형의 영역 수정에서 점들의 영역을 고치기 위해 각 점을 선택하는 경우 GUI상에서 이를 잡기 어렵거나, 또는 점을 추가하여 폴리곤 영역을 넓히는 방법이 마련되어 있지 않은 문제가 있었다. 즉, 자동레이블링 결과를 보다 손쉽게 수정할 수 있게 GUI를 구현해야만 실제적으로 사전인식 결과 활용의 효과를 얻을 수 있어 이에 대한 개선이 필요함을 알 수 있었으며, 향후 레이블링 시스템 기능 보완 및 추가 개발을 통해 이러한 문제점을 해결할 예정이다.
향후 계획으로는 앞서 5장에서 언급한 바와 같이 실험상에서의 한계 극복과 시스템 개선을 위한 추가적인 연구를 진행할 예정이다. 특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다. 또한, 작업자별 레이블링 결과의 품질 차이를 줄이기 위해 레이블링 작업 워크플로우 관리 및 자동 품질 평가 기술에 관한 연구개발을 수행할 예정이다.
향후 계획으로는 앞서 5장에서 언급한 바와 같이 실험상에서의 한계 극복과 시스템 개선을 위한 추가적인 연구를 진행할 예정이다. 특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다.
참고문헌 (48)
Cognilytica, "Data Engineering, Preparation, and Labeling for AI 2019," https://www.cognilytica. com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/.
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," IEEE, Vol.86, No.11, pp.2278-2324, 1998.
Alex Krizhevsky, Learning Multiple Layers of Feat ures from Tiny Images, https://www.cs.toronto.edu/~kriz/cifar.html, 2009.
Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, Schiele, and Bernt, "2D Human Pose Estimation: New Benchmark and State of the Art Analysis," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2014. http://human-pose.mpi-inf.mpg.de/
M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, "The PASCAL Visual Object Classes (VOC) Challenge," International Journal of Computer Vision 88, pp.303-338, 2010.
Tsung-Yi Lin, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence Zitnick, "Microsoft COCO: Common Objects in Context," https://cocodataset.org, 2014.
J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, and L. Fei-Fe, "Imagenet: A large-scale hierarchical image database," In: 2009 IEEE conference on computer vision and pattern recognition, pp. 248-55, 2009, http://www.image-net.org/
Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun, "Vision meets robotics: The KITTI dataset," Int. J. Robotics Res, Vol.32, No.11, pp.1231-1237, 2013, http://www.cvlibs.net/datasets/kitti/
M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, "The Cityscapes Dataset for Semantic Urban Scene Understanding," in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, https://www.cityscapes-dataset.com/
IMDb Datasets, https://www.imdb.com/interfaces
Google's Open Images V6 + Extentions, https://storage.googleapis.com/openimages/web/index.html
Lucas Smaira, Joao Carreira, Eric Noland, Ellen Clancy, Amy Wu, and Andrew Zisserman, A Short Note on the Kinetics-700-2020, Human Action Dataset, CoRR abs/2010.10864, 2020, https://deepmind.com/research/open-source/kinetics
The 20BN-jester Dataset V1, https://20bn.com/datasets/jester
Kaggle: Your Machine Learning and Data Science Community, https://www.kaggle.com/
AI Hub, https://aihub.or.kr/
H. Emammi, M.M. Aliabadi, M. Dong, and R.Chinnam, "SPA-GAN: Spatial Attention GAN for Image-to-Image Translation," IEEE Trans. on Multimedis, Vol.23, pp.391-401, 2021.
H. Ko, D. Y. Lee, S. Cho, and A. C. Bovik, "Quality Prediction on Deep Generative Images," IEEE Trans. on Image Processing, Vol.29, pp.5964-5979, 2020.
Gregory Griffin, Alex Holub, and Pietro Perona, Caltech-256 Object Category Dataset, California Institute of Technology, 2007, https://www.kaggle.com/jessicali9530/caltech256
※ AI-Helper는 부적절한 답변을 할 수 있습니다.