$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

딥러닝기반 건축폐기물 이미지 분류 시스템 비교
A Comparison of Image Classification System for Building Waste Data based on Deep Learning 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.23 no.3, 2023년, pp.199 - 206  

성재경 (에이아이씨랩) ,  양민철 (에이아이씨랩) ,  문경남 (메타크레용) ,  김용국 (세종대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 연구는 건축시 발생되는 폐기물의 자동분류를 위해 딥러닝 알고리즘을 활용해 건출 폐기물 데이터를 각각 목재 폐기물, 플라스틱 폐기물, 콘크리트 폐기물로 분류하는 두 모델들을 통해서 성능 비교를 한다. 건축 폐기물의 분류를 위해 사용된 딥러닝 알고리즘합성곱 신경망 이미지 분류 알고리즘 VGG-16과 NLP를 기반으로 이미지를 시퀀스화 시킨ViT, Vision Transformer 모델을 사용했다. 건축 폐기물 데이터 수집을 위해 이미지 데이터를 전 세계 검색엔진에서 크롤링 하였고, 육안으로도 명확히 구분하기 어렵거나, 중복되는 등 실험에 방해되는 이미지는 전부 제외하여 각 분류당 1천장씩 총 3천장의 이미지를 확보했다. 또한, 데이터 학습시에 모델의 정확도 향상에 도움을 주기 위해 데이터 확대 작업을 진행해 총 3만장의 이미지로 실험을 진행 하였다. 수집된 이미 데이터가 정형화 되어있지 않은 데이터 임에도 불구하고 실험 결과는 정확도가 VGG-16는 91.5%, ViT 는 92.7%의 결과가 나타났다. 이는 실제 건축폐기물 데이터 관리 작업에 실전 활용 가능성을 제시한 것으로 보인다. 본 연구를 바탕으로 추후에 객체 탐지 기법이나 의미론적 분할 기법까지 활용한다면, 하나의 이미지 안에서도 여러 세밀한 분류가 가능해 더욱 완벽한 분류가 가능할 것이다.

Abstract AI-Helper 아이콘AI-Helper

This study utilizes deep learning algorithms to automatically classify construction waste into three categories: wood waste, plastic waste, and concrete waste. Two models, VGG-16 and ViT (Vision Transformer), which are convolutional neural network image classification algorithms and NLP-based models...

주제어

표/그림 (13)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • 앞으로 더 많은 데이터와 높은 해상도의 이미지를 수집하여 모델의 과적합을 방지함으로써, 분류 정확도를 더욱 향상시킬 수 있을 것이다. 그리고ViT 모델을 건축 폐기물 이미지 분류 문제에 적용해 보았다. 실험 결과, ViT 모델은 VGG-16 모델과 비교하여 높은 분류 정확도를 달성하였다.
  • 본 연구에서는 VGG-16과 ViT 모델을 활용하여 건축 폐기물 이미지 데이터를 분류하는 실험을 진행하였다. 이를 위해 육안으로 구분하기 어려운 건축 폐기물 이미지를 각각 1,000장씩 수집하였다.
  • 본 모델은 A부터 E까지 총 6가지의 서로 다른 구조로 실험을 하였고 이중 VGG-16, VGG-19(각각 D, E이다)와 같이 더 많은 층을 사용한 모델의 성능이 더 좋다. 본 연구에서는 VGG-16을 활용해 건축폐기물 데이터를 분류한다.
  • 본 연구에서는 구글과 같은 전세계 검색엔진에서 수집한 이미지 데이터와 CNN과 ViT의 딥러닝 알고리즘을 활용해 분류 시스템을 구현하였다. 본 시스템은 3천장의 이미지데이터를 Augmentation하여 3만장으로 증폭시킨뒤 학습데이터와 테스트데이터로 분리하여 사용하였다.
  • 본 장에서는 건축 폐기물 분류 시스템과 전세계 검색 엔진에서 크롤링해 수집한 이미지 데이터로 학습한 자동 분류 시스템을 실험하였다. 먼저 실험환경과 방법에 대한 설명과 각 분류 시스템의 실험결과를 분석을 한다.
  • 또한 분류된 총 3000개의 데이터를 Data augmentation 작업을 통해 30000개로 확대하였으며, Tensorflow API의 기능중 하나인 Tensorboard를 통해 실시간으로 모델의 학습 결과를 획득하였다. 이후 결과값이 좋은 모델을 사용해 Validation data에서 각 클래스 별로 200장씩 랜덤하게 추출한 Predict dataset을 추가로 구성해 실제로 학습된 모델을 적용시켜 시각화 하였다. 총 600개의 이미지 데이터중 4행 4열로 16개의 이미지를 랜덤하게 지정해 클래스의 이름을 표기하고, 모델이 예측한 예측값을 pred으로 표기하여 실험하였다.

대상 데이터

  • ViT를 사용한 구현 설명 본 연구에서 사용된 ViT 모델은 이미지를 시퀀스화하여 입력으로 사용한다. 이미지를 고정 크기의 패치로 분할하고, 각 패치를 1차원 벡터로 변환한다.
  • 실험에 사용한 데이터는 전세계 검색엔진에서 이미지를 크롤링해 수집했다. 각국의 언어로 번역한 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물을 키워드로 크롤링한 약 8,000개의 이미지 데이터중 중복되는 데이터, 잘못 수집된 데이터, 육안으로도 구분이 어려운 부정확한 데이터등 실험에 방해되는 데이터를 제외하고 각 클래스당 1,000개씩 총 3,000개의 데이터를 확보했다. 모델 학습을 위해 데이터를 학습 데이터셋(Train dataset)과 테스트 데이터셋(Test dataset)으로 각각 8:2의 비율로 나눠 실험하였다.
  • 실험 데이터는 각각 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물로 분류해 클래스를 지정했다. 또한 분류된 총 3000개의 데이터를 Data augmentation 작업을 통해 30000개로 확대하였으며, Tensorflow API의 기능중 하나인 Tensorboard를 통해 실시간으로 모델의 학습 결과를 획득하였다. 이후 결과값이 좋은 모델을 사용해 Validation data에서 각 클래스 별로 200장씩 랜덤하게 추출한 Predict dataset을 추가로 구성해 실제로 학습된 모델을 적용시켜 시각화 하였다.
  • 각국의 언어로 번역한 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물을 키워드로 크롤링한 약 8,000개의 이미지 데이터중 중복되는 데이터, 잘못 수집된 데이터, 육안으로도 구분이 어려운 부정확한 데이터등 실험에 방해되는 데이터를 제외하고 각 클래스당 1,000개씩 총 3,000개의 데이터를 확보했다. 모델 학습을 위해 데이터를 학습 데이터셋(Train dataset)과 테스트 데이터셋(Test dataset)으로 각각 8:2의 비율로 나눠 실험하였다.
  • 목재폐기물, 플라스틱 폐기물, 콘크리트 페기물을 각각 10,000장씩 사용하였고 이중 24000장은 Train data, 6000장은 Test data로 나누어 사용했다. 모델 학습을 하는데에 생성된 parameter의 수는 40,480.899개이다.
  • 아래 표는 실험을 위해 수집된 건축 폐기물 데이터를 Data augmentation을 통해 수량을 늘린 총 데이터의 분류별 개수이다. 목재폐기물, 플라스틱 폐기물, 콘크리트 페기물을 각각 10,000장씩 사용하였고 이중 24000장은 Train data, 6000장은 Test data로 나누어 사용했다. 모델 학습을 하는데에 생성된 parameter의 수는 40,480.
  • 본 연구에서는 구글과 같은 전세계 검색엔진에서 수집한 이미지 데이터와 CNN과 ViT의 딥러닝 알고리즘을 활용해 분류 시스템을 구현하였다. 본 시스템은 3천장의 이미지데이터를 Augmentation하여 3만장으로 증폭시킨뒤 학습데이터와 테스트데이터로 분리하여 사용하였다. 구현 기술은 VGG-16 모델은 Tensorflow API를 활용해 구현했다.
  • 5 버전을 사용했고, 이를 Anaconda 가상환경에서 구성했다. 실험 데이터는 각각 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물로 분류해 클래스를 지정했다. 또한 분류된 총 3000개의 데이터를 Data augmentation 작업을 통해 30000개로 확대하였으며, Tensorflow API의 기능중 하나인 Tensorboard를 통해 실시간으로 모델의 학습 결과를 획득하였다.
  • 실험에 사용한 데이터는 전세계 검색엔진에서 이미지를 크롤링해 수집했다. 각국의 언어로 번역한 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물을 키워드로 크롤링한 약 8,000개의 이미지 데이터중 중복되는 데이터, 잘못 수집된 데이터, 육안으로도 구분이 어려운 부정확한 데이터등 실험에 방해되는 데이터를 제외하고 각 클래스당 1,000개씩 총 3,000개의 데이터를 확보했다.
  • 본 연구에서는 VGG-16과 ViT 모델을 활용하여 건축 폐기물 이미지 데이터를 분류하는 실험을 진행하였다. 이를 위해 육안으로 구분하기 어려운 건축 폐기물 이미지를 각각 1,000장씩 수집하였다. 실험 결과, 본 분류 시스템이 성공적으로 작동함을 확인하였다.
  • 이후 결과값이 좋은 모델을 사용해 Validation data에서 각 클래스 별로 200장씩 랜덤하게 추출한 Predict dataset을 추가로 구성해 실제로 학습된 모델을 적용시켜 시각화 하였다. 총 600개의 이미지 데이터중 4행 4열로 16개의 이미지를 랜덤하게 지정해 클래스의 이름을 표기하고, 모델이 예측한 예측값을 pred으로 표기하여 실험하였다.

데이터처리

  • 수집된 데이터를 VGG-16 모델의 Input으로 사용하기위해 224 x 224 사이즈로 변환하여 학습시킨뒤, Tensorboard로 결과를 시각화 하였다.

이론/모형

  • PyTorch는 Torch 라이브러리를 기반으로 한 오픈 소스 머신러닝 라이브러리로 그래픽 처리 장치(GPU)를 통해 강력한 가속을 지원하는 텐서 연산(NumPy와 유사)과 타입 기반 자동 미분 시스템을 기반으로 하는 딥 뉴럴 네트워크를 제공한다. PyTorch와 함께 여기에서 사용된 이미지 분류 기술은 Vision Transformer (ViT) 모델을 사용하여 특성 추출 및 이미지 분류를 하였다.
  • 본 시스템은 3천장의 이미지데이터를 Augmentation하여 3만장으로 증폭시킨뒤 학습데이터와 테스트데이터로 분리하여 사용하였다. 구현 기술은 VGG-16 모델은 Tensorflow API를 활용해 구현했다. Tensorflow는 딥러닝을 하기위한 엔드투엔드 서비스를 제공하는 오픈소스 API로서 파이썬 환경에서 데이터 전처리부터 모델학습에 필요한 모델의 기본적인 Architecture를 로드하는데 사용된다.
  • 트랜스포머 인코더는 전역적인 정보를 포착하고, 분류 토큰을 사용하여 최종 예측을 생성한다. 또한 트랜스포머 모델은 이미지는 동일한 조건으로 구현기술은 PyTorch API를 사용하였다. PyTorch는 Torch 라이브러리를 기반으로 한 오픈 소스 머신러닝 라이브러리로 그래픽 처리 장치(GPU)를 통해 강력한 가속을 지원하는 텐서 연산(NumPy와 유사)과 타입 기반 자동 미분 시스템을 기반으로 하는 딥 뉴럴 네트워크를 제공한다.
  • 이를 통해 건축 폐기물 이미지 분류에 ViT 모델이 효과적임을 확인할 수 있었다. 또한, 본 연구에서는 ViT 모델의 성능을 더욱 향상시키기 위해 데이터 증강 기법을 활용하였다. 데이터 증강은 원본 이미지에 여러 가지 변형을 적용하여 새로운 이미지를 생성하는 기법으로, 모델의 일반화 성능을 향상시키는데 도움이 된다.
  • 0GB RAM과 NVIDIA GeForce 3070 GPU를 사용하였다. 실험을 위한 환경으론 Python3.9, Tensorflow 2.5 버전을 사용했고, 이를 Anaconda 가상환경에서 구성했다. 실험 데이터는 각각 목재 폐기물, 콘크리트 폐기물, 플라스틱 폐기물로 분류해 클래스를 지정했다.
본문요약 정보가 도움이 되었나요?

참고문헌 (24)

  1. Karen Simonyan, Andrew Zisserman "Very Deep?Convolutional Networks for Large-Scale Image?Recognition" arXiv 1409.1556, 2014?DOI:https://doi.org/10.48550/arXiv.1409.1556 

  2. https://en.wikipedia.org/wiki/Web_crawler 

  3. D Han, Q Liu, W Fan."A new image classification?method using CNN transfer learning and web data?augmentation." Expert Systems with Applications,?2018 - Elsevier?DOI:https://doi.org/10.1016/j.eswa.2017.11.028 

  4. A Bochkovskiy, CY Wang, HYM Liao. "Yolov4:?Optimal speed and accuracy of object detection."?arXiv preprint arXiv:2004.10934, 2020?DOI:https://doi.org/10.48550/arXiv.2004.10934 

  5. Alberto Garcia-Garcia, Sergio Orts-Escolano, Sergiu?Oprea, Victor Villena-Martinez, Jose Garcia-Rodriguez.?"A Review on Deep Learning Techniques Applied to?Semantic Segmentation." arXiv:1704.06857, 2017?DOI:https://doi.org/10.48550/arXiv.1704.06857 

  6. S Agatonovic-Kustrin, R Beresford, "Basic concepts of?artificial neural network (ANN) modeling and its?application in pharmaceutical research" Journal of?Pharmaceutical and Biomedical Analysis.Volume 22,?Issue 5, pp. 717-727. 2000.?DOI:https://doi.org/10.1016/S0731-7085(99)00272-1 

  7. TM Mitchell. "Does Machine Learning Really Work?".?1997?DOI:https://doi.org/10.1609/aimag.v18i3.1303 

  8. LeCun, Y., Bengio, Y. & Hinton, G. "Deep learning."?Nature 521, pp.436-444 2015?DOI:https://doi.org/10.1038/nature14539 

  9. https://ko.wikipedia.org/wiki/%EC%8B%A0%EA%B2%B?D_%EC%84%B8%ED%8F%AC 

  10. P.G. Benardos, G.-C. Vosniakos, "Optimizing feedforward?artificial neural network architecture," Engineering?Applications of Artificial Intelligence, Volume 20,?Issue 3, Pages 365-382, ISSN 0952-1976, 2007?DOI:https://doi.org/10.1016/j.engappai.2006.06.005 

  11. Gulden Kaya Uyanik, Nese Guler, "A Study on Multiple?Linear Regression Analysis." Procedia - Social and?Behavioral Sciences, Volume 106, Pages 234-240,?ISSN 1877-0428, 2013?DOI:https://doi.org/10.1016/j.sbspro.2013.12.027 

  12. Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena,?Kristina Lerman, and Aram Galstyan. "A Survey on?Bias and Fairness in Machine Learning." ACM?Comput. Surv. 54, 6, Article 115, 35 pages. 2022?DOI:https://doi.org/10.1145/3457607 

  13. Prajit Ramachandran, Barret Zoph, Quoc V. Le,?"Searching for Activation Functions",?arXiv:1710.05941, 2017?DOI:https://doi.org/10.48550/arXiv.1710.05941 

  14. Jun Han, Claudio Moraga. "The influence of the sigmoid?function parameters on the speed of backpropagation?learning" From Natural to Artificial Neural Computation,?Volume 930, ISBN : 978-3-540-59497-0, 1995?DOI:https://doi.org/10.1007/3-540-59497-3_175 

  15. https://en.wikipedia.org/wiki/Sigmoid_function 

  16. Y. Bengio, P. Simard and P. Frasconi, "Learning?long-term dependencies with gradient descent is?difficult" in IEEE Transactions on Neural Networks,?vol. 5, no. 2, pp. 157-166, March 1994?DOI:https://doi.org/10.1109/72.279181 

  17. Abien Fred Agarap, "Deep Learning using Rectified?Linear Units (ReLU)", arXiv:1803.08375, 2019?DOI:https://doi.org/10.48550/arXiv.1803.08375 

  18. https://en.wikipedia.org/wiki/Rectifier_(neural_networks) 

  19. Lee, D., Sun, Y.-G., Kim, S.-H., Sim, I., Lee, K.-S.,?Song, M.-N., & Kim, J.-Y. (2020). CNN-based Image?Rotation Correction Algorithm to Improve Image?Recognition Rate. The Journal of The Institute of?Internet, Broadcasting and Communication, 20(1), 225-229. https://doi.org/10.7236/JIIBC.2020.20.1.225 

  20. S. Albawi, T. A. Mohammed and S. Al-Zawi, "Understanding?of a convolutional neural network," 2017 International?Conference on Engineering and Technology (ICET),?pp. 1-6, 2017?DOI:https://doi.org/10.1109/ICEngTechnol.2017.8308?186 

  21. https://viso.ai/deep-learning/vgg-very-deep-convolutional-networks/ 

  22. https://arxiv.org/pdf/1706.03762.pdf?Ashish Vaswani, "Attention Is All You Need",?arXiv:1706.03762v5 [cs.CL] 6 Dec 2017 

  23. Kim, Hyun-Su "Control Performance Evaluation of?Smart Mid-story Isolation System with RNN Model"?Journal of the Korea Academia-Industrial cooperation?Society, Volume 21 Issue 1, Pages.774-779, 2020,?1975-4701(pISSN), 2288-4688(eISSN)?DOI:https://doi.org/10.5762/KAIS.2020.21.1.774 

  24. Jeong-Jae Kim, Sang-Min Park, Byung-Won On."(2023).?A Pooled RNN-based Deep Learning Model based on?Data Augmentation for Clickbait Detection.", JKIIT,?21(4), 45-56.?DOI:https://doi.org/10.14801/jkiit.2023.21.4.45 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로