[논문]자동-레이블링 기반 영상 학습데이터 제작 시스템

이용; 장래영; 박민우; 이건우; 최명석

doi:10.5392/jkca.2021.21.06.701

자동-레이블링 기반 영상 학습데이터 제작 시스템
An Auto-Labeling based Smart Image Annotation System 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.21 no.6, 2021년, pp.701 - 715

이용 (한국과학기술정보연구원 연구데이터공유센터) , 장래영 (한국과학기술정보연구원 연구데이터공유센터) , 박민우 (한국과학기술정보연구원 연구데이터공유센터) , 이건우 (한국과학기술정보연구원 연구데이터공유센터) , 최명석 (한국과학기술정보연구원 연구데이터공유센터)

초록
AI-Helper

최근 딥러닝 기술의 급속한 발전과 함께 학습데이터가 크게 주목을 받고 있다. 일반적으로 딥러닝 방식에서는 모델을 훈련시키기 위해 충분한 학습데이터가 준비되어 있어야 한다. 하지만, 딥러닝 모델 설계 작업과 달리 데이터셋을 제작하는 데 상당한 시간과 노력이 필요하다. 영상 데이터를 주로 다루는 시각지능 분야에서도 학습데이터 제작자들은 전문적인 학습데이터 제작 도구를 사용해 이미지 단위로 레이블링을 수작업으로 하고 있어 여전히 많은 시간과 노력이 필요한 상황이다. 따라서, 다양한 분야에서 필요한 충분한 영상 학습데이터셋을 확보하기 위해 기존의 수작업 방식을 대체할 수 있는 레이블링 기술이 필요하다. 본 논문에서는, 영상 학습데이터셋 동향을 소개하고, 학습데이터 제작 환경에 대해 분석한다 특히, 수작업으로 이루어지는 반복적이고 수고스러운 레이블링 과정을 자동화하여, '확인과 수정'의 단계를 비약적으로 단축시킬 수 있는 '스마트 영상학습데이터 제작 시스템'을 제안한다. 그리고, 실험을 통해 영상 학습데이터 제작 과정에서 이미지에 박스형 및 폴리곤형 객체영역을 지정하여 레이블링하는 데 소요되는 시간을 크게 줄이기 위한 자동레이블링 방식의 효과를 검증한다. 마지막으로, 제안하는 시스템의 실험에서 추가적으로 검증되어야 하는 부분과 함께 이를 개선하기 위한 향후 연구 계획에 대해 논의한다.

Abstract ▼ AI-Helper

The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.

주제어

표/그림 (8)

표 표 1. 주요 영상 학습데이터셋의 비교
표 표 2. 영상 학습데이터셋 제작 도구 비교
그림 그림 1. 스마트 이미지 레이블링 시스템 DALDA의 자동 레이블링 작업 흐름도
그림 그림 2. 실험용 이미지: Mask R-CNN 기반 사전인식 결과 활용
그림 그림 3. 레이블링 형태별(Box/Polygon) 수동/자동 작업시간 비교
그림 그림 4. 객체 개수 별 소요시간 비교
표 표 3. 작업자 연령 정보
표 표 4. 레이블링 작업량 예측 결과

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 시각지능 개발에 필요한 학습데이터 제작을 효과적으로 지원하기 위한 시스템을 소개한다. 제안하는 시스템에서는 자동 레이블링으로 도출되는 결과에 대한 확인과 수정에만 작업자가 관여하여, 효과적이고 빠른 학습데이터 양산이 가능하게 된다.
자동 레이블링은 학습데이터 제작 시간을 크게 단축 시킬 수 있는 기술로서, 다양한 레이블링 전문 기업에서 경쟁적으로 기술 개발 및 적용을 위한 노력을 진행하고 있다. 본 연구에서는 기존의 학습데이터 제작 서비스들이 일반적으로 한정된 사전학습 모델에 의존하는 자동레이블을 적용하는 것과 달리 백-엔드 온라인 인공지능 서비스와 연동하여 보다 다양한 사전학습 모델을 적용할 수 있는 기술을 제안한다.

제안 방법

그리고, 이미지 레이블링을 위한 온/오프라인 레이블링 작업 환경들의 비교·분석을 통해 학습데이터 제작 생산성 제고를 위한 전략들을 검토한다
특히, 자동 레이블링 기능은 작업자의 레이블링 전에 사전학습된 인식 모델을 통해 객체를 인식하고 작업자에게 이후 작업을 수행하게 하도록 하고 있다. 본 논문에서 제안하는 자동 레이블링 기능도 이러한 기능의 일종이지만, 기존 작업환경 소프트웨어/서비스와 달리 사전 학습모델을 레이블링 작업환경과 일체화시키는 것이 아닌 별도의 백-엔드 온라인 인공지능 서비스를 통해 제공한다는 점에서 차별화된다.
본 논문에서는 영상 학습데이터 제작에 필요한 작업자의 레이블링 작업을 줄이기 위해 전처리로써 객체탐지를 통해 사전 레이블링을 수행하고, 작업자에게 이를 확인 및 수정하게 하는 방식의 시스템을 제안하고 있다. 특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다.
본 연구에서는 이미지 레이블링 시스템에서 자동 레이블링을 수행하는 부분을 벡-엔드 온라인 처리로 수행하는 구조를 제안한다.
본 연구에서는 자동 레이블링 기능을 중심으로 개발을 추진하였으며, 구체적으로 스마트 도시 분야에서 많이 생산되는 도시 영상 데이터를 활용해 학습데이터 제작을 지원하기 위한 필요한 기능을 부가적으로 개발하였다. 본 장에서는 영상 학습데이터 제작에서 필요한 수작업을 줄이기 위한 자동 레이블링의 실제 구현 방식 및 백-엔드 온라인 객체 인식 서비스 기능에 대해 설명한다.
이미지 학습데이터 제작 작업은 작업자의 숙련도 및 이미지 내 객체출현 정도, 객체 형태의 복잡도에 따라 크게 달라질 수 있기 때문에 본 평가에서는 임의의 영상을 중심으로 제한된 실험으로 수행하였다.
본 논문에서는 시각지능 개발에 필요한 학습데이터 제작을 효과적으로 지원하기 위한 시스템을 소개한다. 제안하는 시스템에서는 자동 레이블링으로 도출되는 결과에 대한 확인과 수정에만 작업자가 관여하여, 효과적이고 빠른 학습데이터 양산이 가능하게 된다. 자동 레이블링은 학습데이터 제작 시간을 크게 단축 시킬 수 있는 기술로서, 다양한 레이블링 전문 기업에서 경쟁적으로 기술 개발 및 적용을 위한 노력을 진행하고 있다.

대상 데이터

• 실험 참가자 : 실험에는 [표 3]과 같이 30∼40대 연령의 IT 관련 분야 전공 연구자들(남성) 6명이 참가하였다
특히, 이미지 내에 포함된 객체의 개수에 따라 레이블링 시간이 크게 달라지므로 실험데이터셋은 이러한 차이를 살펴볼 수 있도록 구성할 필요가 있다. 본 실험에서는 [그림 2]에서 보이는 바와 같이 10 장의 이미지로 각각의 이미지를 제안 레이블링 시스템을 사용하여 작업을 수행한다. 이 그림에는 추가적으로 Mask R-CNN 모델을 활용하여 사전인식한 결과를 보여주고 있으며 작업자는 이를 수정하여 최종 레이블링 작업을 마칠 수 있게 된다.
실험에 소요되는 부가적인 이미지 로딩 및 결과 출력 시간은 레이블링 시간에 포함되지 않는다. 타겟으로 하는 객체의 클래스는 car, bus, truck, person, elephant, zebra, bear, cat, dog, sheep의 총 10종으로 시스템에 미리 클래스명이 등록되어 있다. 이러한 준비작업은 한 번만 등록하고 반복적으로 사용되므로 레이블링 시간에 역시 포함되지 않는다.

데이터처리

• 실험 데이터 개수와 객체 다양성 : 본 실험에서는 [그림 2]의 10장의 실험 이미지를 선정하여 객체 개수 증가 따른 효과를 집중적으로 분석하였다
본 장에서는 제안한 자동 레이블링의 효과를 검증하기 위해 제안 시스템을 활용해 이미지 레이블링 작업 시간을 측정하여, 수작업 대비 개선 효과를 평가한다.

성능/효과

결과적으로, 박스형과 폴리곤형 레이블링 모두에서 30∼60%의 작업시간을 단축할 수 있었으며, 특히 레이블링을 수동방식으로 처음부터 수행하는 것이 아닌 사전인식 결과를 수정하는 방식이라 작업자의 작업부담은 크게 개선되었다.
특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다. 실험용 이미지 셋을 통한 수동과 자동 레이블링 비교 실험 결과에서도 자동 레이블링이 작업속도 면에서도 크게 효과적이며, 특히 박스형과 폴리곤형의 레이블링 방식 모두에서 작업 시간을 단축할 수 있었다.
본 논문에서는 영상 학습데이터 제작에 필요한 작업자의 레이블링 작업을 줄이기 위해 전처리로써 객체탐지를 통해 사전 레이블링을 수행하고, 작업자에게 이를 확인 및 수정하게 하는 방식의 시스템을 제안하고 있다. 특히, 다양한 분야에서의 학습데이터 제작 니즈에 대응하기 위해 백-엔드 온라인 인식 서비스와 연동한 레이블링 기법을 통해 지속적으로 인식모델을 확대 및 업데이트할 수 있는 이점을 가지고 있다. 실험용 이미지 셋을 통한 수동과 자동 레이블링 비교 실험 결과에서도 자동 레이블링이 작업속도 면에서도 크게 효과적이며, 특히 박스형과 폴리곤형의 레이블링 방식 모두에서 작업 시간을 단축할 수 있었다.

후속연구

특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다. 또한, 작업자별 레이블링 결과의 품질 차이를 줄이기 위해 레이블링 작업 워크플로우 관리 및 자동 품질 평가 기술에 관한 연구개발을 수행할 예정이다.
또한, 참가 작업자들은 작업 중에 오로지 레이블링 작업에만 집중하도록 하며 개인별로 이미지 내에서 영역에 대한 지정 방식에는 특별히 제약을 주지 않고 자유롭게 하되 최대한 객체를 정확히 커버링하도록 요구하였다. 본 실험에서는 작업자들의 연령과 작업량의 직접적인 상관관계는 나타나고 있지 않으며 향후 연구로 남겨 둔다.
본 연구에서는 이미지 학습데이터 제작에 있어 사전인식 결과를 활용한 자동레이블링의 효과를 검증하기 위한 실험을 다음과 같이 한정된 범위에서 수행하였으며, 보다 개선된 자동레이블링 결과를 얻기 위해 향후 연구 및 시스템 개발을 이어 나갈 계획이다.
• 실험 데이터 개수와 객체 다양성 : 본 실험에서는 [그림 2]의 10장의 실험 이미지를 선정하여 객체 개수 증가 따른 효과를 집중적으로 분석하였다. 실제적인 대량의 이미지 레이블링 작업에서는 더 많은 데이터로부터 더 복잡하고 다양한 객체형태를 갖는 경우가 발생할 수 있으며 이에 대해 향후 연구를 통해 더 많은 사례에 대한 개선방안을 연구할 계획이다.
또한, 참가자에 따라서는 폴리곤 방식에 있어 하나의 객체를 지정하기 위해 다수의 점들로 지정된 영역을 표현하기 위해 많은 시간을 소모하기도 하여 작업자별로 서로 다른 양상을 보일 수 있다. 이러한 개인차 및 이에 대한 개선방안에 대해서도 향후 연구를 통해 안정적인 품질의 레이블링을 위한 기법에 대한 연구를 진행할 계획이다.
특히, 폴리곤형의 영역 수정에서 점들의 영역을 고치기 위해 각 점을 선택하는 경우 GUI상에서 이를 잡기 어렵거나, 또는 점을 추가하여 폴리곤 영역을 넓히는 방법이 마련되어 있지 않은 문제가 있었다. 즉, 자동레이블링 결과를 보다 손쉽게 수정할 수 있게 GUI를 구현해야만 실제적으로 사전인식 결과 활용의 효과를 얻을 수 있어 이에 대한 개선이 필요함을 알 수 있었으며, 향후 레이블링 시스템 기능 보완 및 추가 개발을 통해 이러한 문제점을 해결할 예정이다.
향후 계획으로는 앞서 5장에서 언급한 바와 같이 실험상에서의 한계 극복과 시스템 개선을 위한 추가적인 연구를 진행할 예정이다. 특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다. 또한, 작업자별 레이블링 결과의 품질 차이를 줄이기 위해 레이블링 작업 워크플로우 관리 및 자동 품질 평가 기술에 관한 연구개발을 수행할 예정이다.
향후 계획으로는 앞서 5장에서 언급한 바와 같이 실험상에서의 한계 극복과 시스템 개선을 위한 추가적인 연구를 진행할 예정이다. 특히, 레이블링 작업 중에서도 지속적으로 누적되는 데이터를 활용하여 백-엔드 인식모델을 재학습 및 업데이트를 통해 제공하기 위한 기술과 서비스 시스템을 개발할 예정이다.

참고문헌 (48)

Cognilytica, "Data Engineering, Preparation, and Labeling for AI 2019," https://www.cognilytica. com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/.
Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," IEEE, Vol.86, No.11, pp.2278-2324, 1998.
Alex Krizhevsky, Learning Multiple Layers of Feat ures from Tiny Images, https://www.cs.toronto.edu/~kriz/cifar.html, 2009.
Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, Schiele, and Bernt, "2D Human Pose Estimation: New Benchmark and State of the Art Analysis," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2014. http://human-pose.mpi-inf.mpg.de/
M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, "The PASCAL Visual Object Classes (VOC) Challenge," International Journal of Computer Vision 88, pp.303-338, 2010.

상세보기
Tsung-Yi Lin, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence Zitnick, "Microsoft COCO: Common Objects in Context," https://cocodataset.org, 2014.
J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, and L. Fei-Fe, "Imagenet: A large-scale hierarchical image database," In: 2009 IEEE conference on computer vision and pattern recognition, pp. 248-55, 2009, http://www.image-net.org/
Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun, "Vision meets robotics: The KITTI dataset," Int. J. Robotics Res, Vol.32, No.11, pp.1231-1237, 2013, http://www.cvlibs.net/datasets/kitti/

상세보기
M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, "The Cityscapes Dataset for Semantic Urban Scene Understanding," in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, https://www.cityscapes-dataset.com/
IMDb Datasets, https://www.imdb.com/interfaces
Google's Open Images V6 + Extentions, https://storage.googleapis.com/openimages/web/index.html
Lucas Smaira, Joao Carreira, Eric Noland, Ellen Clancy, Amy Wu, and Andrew Zisserman, A Short Note on the Kinetics-700-2020, Human Action Dataset, CoRR abs/2010.10864, 2020, https://deepmind.com/research/open-source/kinetics
The 20BN-jester Dataset V1, https://20bn.com/datasets/jester
Kaggle: Your Machine Learning and Data Science Community, https://www.kaggle.com/
AI Hub, https://aihub.or.kr/
H. Emammi, M.M. Aliabadi, M. Dong, and R.Chinnam, "SPA-GAN: Spatial Attention GAN for Image-to-Image Translation," IEEE Trans. on Multimedis, Vol.23, pp.391-401, 2021.
H. Ko, D. Y. Lee, S. Cho, and A. C. Bovik, "Quality Prediction on Deep Generative Images," IEEE Trans. on Image Processing, Vol.29, pp.5964-5979, 2020.
Gregory Griffin, Alex Holub, and Pietro Perona, Caltech-256 Object Category Dataset, California Institute of Technology, 2007, https://www.kaggle.com/jessicali9530/caltech256
Google's Conceptual Captions, https://ai.google.com/research/ConceptualCaptions/
LabelMe, https://github.com/wkentaro/labelme
MS VoTT, https://github.com/microsoft/VoTT
Make-Sense, https://www.makesense.ai/
SuperAnnotate, https://superannotate.com/
VIA(VGG), https://www.robots.ox.ac.uk/~vgg/software/via/
Supervise.ly, https://supervise.ly/
Labelbox, https://labelbox.com/
Hasty.ai, https://hasty.ai/
CVAT, https://github.com/openvinotoolkit/cvat
Darwin, https://www.v7labs.com/darwin
Heartex, https://heartex.com/
Scalabel, https://www.scalabel.ai/
Segments.ai, https://segments.ai/
LabelIMG, https://github.com/tzutalin/labelImg
ImageTagger, https://github.com/bit-bots/imagetagger
DarkLabel, https://github.com/darkpgmr/DarkLabel
EVA, https://github.com/Ericsson/eva
LOST, https://github.com/l3p-cv/lost
Ybat, https://github.com/drainingsun/ybat
MuViLab, https://github.com/ale152/muvilab
Turkey, https://github.com/yanfengliu/turkey
Point Cloud Annotation Tool, https://github.com/springzfx/point-cloud-annotation-tool
DeepLabel, https://github.com/jveitchmichaelis/deeplabel
이용 외, "인공지능 서비스(AIaaS) 기술 동향과 활성화 방안," 정보과학회지, 제38권, 제8호, pp.49-57, 2020.
YOLO: Real-Time Object Detection, https://pjreddie.com/darknet/yolo/
K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), pp.2980-2988, 2017.
장래영, 이용, 박민우, 이상환, "OpenFaaS 기반 AI 분석 서비스 시스템 구축," 한국콘텐츠학회논문지, 제20권, 제7호, pp.97-106, 2020.

원문보기 상세보기
B. Settles, Active Learning Literature Survey, University of Wisconsin-Madison, 2009.
R. Nowak and S. Hanneke, "Active Learning: From Theory to Practice," ICML2019 Tutorial, 2019.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증