[논문]PG-GAN을 이용한 패션이미지 데이터 자동 생성

김양희; 이찬희; 황태선; 김경민; 임희석

doi:10.20465/kiots.2018.4.2.001

초록
AI-Helper

이미지와 같은 고차원 데이터로부터 새로운 샘플 데이터를 생성하는 기술은 음성 합성, 이미지 변환 및 이미지 복원 등에 다양하게 활용되고 있다. 본 논문은 고해상도의 이미지들을 생성하는 것과 생성한 이미지들의 variation을 높이기 위한 방안으로 Progressive Growing of Generative Adversarial Networks(PG-GANs)을 구현 모델로 채택하였고, 이를 패션 이미지 데이터에 적용하였다. PG-GANs은 생성자(Generator)와 판별자(discriminator)를 동시에 점진적으로 학습하도록 하는데, 저해상도의 이미지에서부터 계속해서 새로운 레이어들을 추가하여 결과적으로 고해상도의 이미지를 생성할 수 있게끔 하는 방식이다. 또한 생성 데이터의 다양성을 높이기 위하여 미니배치 표준편차 방법을 제안하였고 GAN 모델을 평가하기 위한 기존의 MS-SSIM이 아닌 Sliced Wasserstein Distance(SWD) 평가 방법을 제안하였다.

Abstract ▼ AI-Helper

Techniques for generating new sample data from higher dimensional data such as images have been utilized variously for speech synthesis, image conversion and image restoration. This paper adopts Progressive Growing of Generative Adversarial Networks(PG-GANs) as an implementation model to generate hi...

Techniques for generating new sample data from higher dimensional data such as images have been utilized variously for speech synthesis, image conversion and image restoration. This paper adopts Progressive Growing of Generative Adversarial Networks(PG-GANs) as an implementation model to generate high-resolution images and to enhance variation of the generated images, and applied it to fashion image data. PG-GANs allows the generator and discriminator to progressively learn at the same time, continuously adding new layers from low-resolution images to result high-resolution images. We also proposed a Mini-batch Discrimination method to increase the diversity of generated data, and proposed a Sliced Wasserstein Distance(SWD) evaluation method instead of the existing MS-SSIM to evaluate the GAN model.

주제어

표/그림 (6)

그림 [Fig. 1] Model structure of the Progressive Growing of GANs
그림 [Fig. 2] Transition of the Generator's and the Discriminator's layers
그림 [Fig. 3] Example of 512 x 512 men's clothing-tops images
그림 [Fig. 4] Fake images generated through the model training
그림 [Fig. 5] Fake images randomly generated by the model
표 [Table. 1] Evaluation results of the model trained using the men's clothing-tops image dataset

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이미지와 같은 고차원 데이터로부터 새로운 샘플 데이터를 생성하는 기술은 음성 합성, 이미지 변환 및 이미지 복원 등에 다양하게 활용되고 있다. 이러한 이미지 생성 기술은 원본 데이터로부터 적절한 특징을 추출하고, 추출된 데이터의 특징을 공유하는 새로운 이미지를 생성하는 데에 주안점을 둔다. 현재 가장 보편적인 접근법으로는 VAE (Variation Autoencoders)[1]와 GAN(Generative Adversarial Networks)[2]을 들 수 있는데, 본 연구에서는 원본 데이터의 특징과 해상도를 유지하면서 다양한 결과물을 효과적으로 생성할 수 있는 접근법을 모색하였다.
훈련이 진행됨에 따라 고해상도의 세부 정보를 도입하기 위한 새로운 레이어가 추가되는 방식을 채택하였는데, 이러한 방식은 훈련 과정이 가속화되고 고해상도에서의 안정성이 향상된다는 점에서 기존 이미지 생성 모델들의 단점을 보완할 방안으로써 의의가 있다. 이에 본 논문에서는 PG-GANs의 이미지 생성 및 판별 방법을 소개하고, 패션 데이터를 이용한 PG-GANs 구현 과정을 밝힌 후, 구현 실험의 평가 결과와 의의를 제시하고자 한다.
이러한 이미지 생성 기술은 원본 데이터로부터 적절한 특징을 추출하고, 추출된 데이터의 특징을 공유하는 새로운 이미지를 생성하는 데에 주안점을 둔다. 현재 가장 보편적인 접근법으로는 VAE (Variation Autoencoders)[1]와 GAN(Generative Adversarial Networks)[2]을 들 수 있는데, 본 연구에서는 원본 데이터의 특징과 해상도를 유지하면서 다양한 결과물을 효과적으로 생성할 수 있는 접근법을 모색하였다. 이를 위해 기존 GAN을 변형 및 발전시킨 PG-GANs (Progressive Growing of GANs)을 기존 PG-GANs모델의 학습 데이터가 아닌, 패션 데이터를 이용하여 구현하였다.

제안 방법

PG-GANs은 라플라시안 피라미드[11]에서 생성된 로컬 이미지 패치의 생성과 대상 이미지의 분포 사이의 다중 표준 통계 유사도(Multi-Scale Statistical Similarity)를 고려하여 16 x 16 픽셀의 저해상도에서 시작하여 이를 연구할 것을 제안하였다. 표준 실습에 따라 피라미드는 전체 해상도에 도달할 때까지 점차적으로 두 배에 이르렀으며, 각 연속 레벨은 이전 레벨의 업 샘플링 된 버전과의 차이를 인코딩하였다.
각각의 디스크립터는 x∈ 7×7×3 = R147으로 표시되는 3개의 컬러 채널을 가진 7 × 7 픽셀이다. 각 색상 채널의 평균 및 표준 편차를 계산한 다음 512 투영을 사용하여 효율적으로 계산 가능한 무작위 근사 대 지구 이동 거리 인 슬라이더 Wasserstein 거리 SWD({xli}, {yli})를 계산하여 통계적 유사성을 추정하는 방식을 채택하였다[12].
먼저 미니 배치를 통해 각 공간 위치의 각 특성(feature)에 대한 표준편차를 계산하였고, 모든 기능 및 공간 위치에 대해 이러한 예상치를 평균하여 단일 값에 도달하도록 하였다. 그 후 이러한 값을 모두 복사하고 모든 공간 위치와 미니 배치를 연결하여 또 하나의 feature map을 구성하였다.
PG-GANs은 미니 배치에 대한 표준편차를 이용하여 이 접근 방식을 크게 단순화하는 동시에 다양성을 개선하였다. 먼저 미니 배치를 통해 각 공간 위치의 각 특성(feature)에 대한 표준편차를 계산하였고, 모든 기능 및 공간 위치에 대해 이러한 예상치를 평균하여 단일 값에 도달하도록 하였다. 그 후 이러한 값을 모두 복사하고 모든 공간 위치와 미니 배치를 연결하여 또 하나의 feature map을 구성하였다.
현재 가장 보편적인 접근법으로는 VAE (Variation Autoencoders)[1]와 GAN(Generative Adversarial Networks)[2]을 들 수 있는데, 본 연구에서는 원본 데이터의 특징과 해상도를 유지하면서 다양한 결과물을 효과적으로 생성할 수 있는 접근법을 모색하였다. 이를 위해 기존 GAN을 변형 및 발전시킨 PG-GANs (Progressive Growing of GANs)을 기존 PG-GANs모델의 학습 데이터가 아닌, 패션 데이터를 이용하여 구현하였다. PG-GANs[3]의 핵심 통찰력은 모델의 생성자와 판별자를 저해상도부터 고해상도까지 점차적으로 성장시킬 수 있다는 점에 있다.

대상 데이터

기존 Progressive Growing of GANs 모델의 경우 CelebA-HQ 데이터 셋을 사용하여 Tesla V100 GPU 8개를 동반한 Nvidia DGX-1를 이용해 2일간 학습을 진행하였고 1024 x 1024의 해상도를 가지는 총 30,000개의 연예인 얼굴 사진들을 학습 데이터로 사용하였다.
남자 상의 의류를 사용한 본 구현에서는 약 860만장의 이미지를 모델에게 학습시킨 후에, 평가를 진행하였다.
본 실험에서는 Nvidia Geforce GTX 1080 Ti GPU 4대를 이용하여 약 2일 3시간 가량 학습을 진행하였고, 모델에게 총 8,861,800장의 이미지를 보여주었다. [Fig.
본 실험에서는 네이버를 이용해 크롤링을 진행하여 모은 약 60,000장의 남자 상의 의류 이미지를 새로운 데이터셋으로 사용하였다. 약 60,000장 중 512 x 512 이상의 해상도를 가지는 이미지들을 샘플링하여 총 29,000장의 512 x 512 해상도의 정사각형 형태의 데이터셋을 구축하였다.
본 실험에서는 네이버를 이용해 크롤링을 진행하여 모은 약 60,000장의 남자 상의 의류 이미지를 새로운 데이터셋으로 사용하였다. 약 60,000장 중 512 x 512 이상의 해상도를 가지는 이미지들을 샘플링하여 총 29,000장의 512 x 512 해상도의 정사각형 형태의 데이터셋을 구축하였다. 구축한 데이터셋의 예시는 [Fig.

이론/모형

PG-GANs은 기존의 모델 평가 방법이었던 MS-SSIM[10]의 한계를 보완하고자 다중 표준 통계 유사도(Multi-Scale Statistical Similarity)를 고려한 Sliced Wasserstein Distance(SWD) 기법을 평가 방식으로 채택하였다. 이에 본 실험 역시 PG-GANs의 방식과 동일한 SWD 기법을 모델 평가 방법으로 이용하였다.
기존의 GAN 모델들을 서로 비교 평가하기 위해서는 Multi-Scale Statistical Similarity 방법이 사용되었다. 한 GAN의 결과를 다른 GAN의 결과와 비교하려면 많은 수의 이미지를 조사해야 하는데, 그 과정은 주관적일 수 있으며 그 자체로 어려운 일이다.
PG-GANs은 기존의 모델 평가 방법이었던 MS-SSIM[10]의 한계를 보완하고자 다중 표준 통계 유사도(Multi-Scale Statistical Similarity)를 고려한 Sliced Wasserstein Distance(SWD) 기법을 평가 방식으로 채택하였다. 이에 본 실험 역시 PG-GANs의 방식과 동일한 SWD 기법을 모델 평가 방법으로 이용하였다.
평가 방법으로는 Sliced Wasserstein Distance (SWD)를 채택하였으며, 모델의 해상도별 레이어마다 평가를 진행하였다. 아래의 [Fig.

성능/효과

따라서 객관적인 평가를 위해서는 이미지를 대량 수집하여 일부 지표를 계산하는 자동화된 방법에 의존하는 것이 바람직하다. MS-SSIM과 같은 기존의 방법은 대규모 모드가 안정적으로 축소되지만 색상이나 텍스처의 다양성 손실과 같은 세부적인 효과에 반응하지 않으며 이미지를 직접 평가하지도 않는다는 사실을 발견하였다.
본 구현 모델의 학습 데이터로 패션 데이터를 이용할 때와 CelebA-HQ를 이용할 때 성능 면에서 상당한 차이가 있음을 확인하였다.

후속연구

생성 이미지 중 일부는 훈련 데이터의 속성을 잘 추출하였음에도 전체 텍스처가 뭉개지는 등 사실적이지 않은 결과를 도출하기도 하였다. [Table. 1]에서도 볼 수 있듯이 특정 레이어에서 성능이 급격하게 떨어지는 경향을 보이는데, 모델의 현실적인 이미지 생성을 위해 이러한 resolution transition 과정을 세밀하게 조정하는 방안을 마련한다면 보다 향상된 결과를 얻을 수 있을 것으로 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	PG-GANs은 무엇인가?	PG-GANs(Progressive Growing of GANs)은 준지도 학습(Semi-supervised Learning) 방식을 채택하며, 기본적으로 GAN(Generative Adversarial Networks) 모델과같이 생성자(Generator)와 판별자(Discriminator)로 구성되어 학습을 진행하는 생성 모델이다.
	PG-GANs의 한계를 극복하기 위한 방법은?	PG-GANs은 일반적으로 초기 GAN 연구에 비해 높은 성능을 보였고, 훈련 과정이 안정적이라는 장점이 있지만 사실적인 이미지를 구현하는 데에는 여전히 한계를 지닌다. 이를 극복하기 위해서는 모델의 훈련이 곡선이 아닌 직선 형태의 객체에 특화되는 등, 주어진 데이터셋에만 한정된다는 점을 이해하는 것이 중요하다. 또한 생성 이미지의 세부 구조에 대해서도 개선할 여지가 있다.
	PG-GANs의 구성요소인 생성자와 판별자의 기능은?	PG-GANs은 생성자와 판별자의 두 네트워크로 이루어진 GAN의 구성을 따른다. 생성자는 잠재 코드로부터 원본 샘플과 같은 이미지를 생성하며, 이들 이미지의 분포는 이상적으로는 훈련 데이터의 분포와 구별될 수 없을 정도로 동일해야 한다. 판별자 네트워크는 이렇게 생성된 이미지와 원본 이미지 간의 차이를 구별하도록 훈련된다.

참고문헌 (12)

Durk.P. Kingma, Shakir Mohamad, Danilo Jimenez Rezende and Max Welling, "Semi-supervised Learning with Deep Generative Models," Advances in Neural Information Processing Systems (NIPS) 27, 2014.
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville and Yoshua Bengio, "Generative Adversarial Nets," Advances in Neural Information Processing Systems (NIPS) 27, 2014.
Tero Karras, Timo Aila, Samuli Laine and Jaakko Lehtinen, "Progressive Growing of GANs for Improved Quality, Stability, and Variation," ICLR, 2018.
Xi Chen, Diederik P. Kingma, Tim Salimans, Yan Duan, Prafulla Dhariwal, John Schulman, Ilya Sutskever and Pieter Abbeel, "Variational Lossy Autoencoder," arXiv.org, 2016.
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford and Xi Chen, "Improved Techniques for Training GANs," Advances in Neural Information Processing Systems (NIPS) 29, 2016.
Alireza Makhzani and Brendan Frey, "PixelGAN Autoencoders," University of Toronto, 2017.
Song Han, Xingyu Liu, Huizi Mao, Jing Pu, Ardavan Pedram, Mark A. Horowitz and William J. Dally, "EIE: Efficient Inference Engine on Compressed Deep Neural Network," 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA), 2016.
Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang and Jiaya Jia, "Pyramid Scene Parsing Network," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.2881-2890, 2017.
Martin Arjovsky, Soumith Chintala and Leon Bottou, "Wasserstein Generative Adversarial Networks," Proceedings of the 34th International Conference on Machine Learning (PMLR), Vol.70, pp.214-223, 2017.
Augustus Odena, Christopher Olah1 and Jonathon Shlens1, "Conditional Image Synthesis with Auxiliary Classifier GANs," Proceedings of the 34th International Conference on Machine Learning (ICML'17), Vol.70, pp.2642-2651, 2017.
Peter J. Burt and Edward H. Adelson, "Method for compensating for void-defects in images," US Patent, 1987.
Julien Rabin, Gabriel Peyre, Julie Delon and Marc Bernot, "Wasserstein Barycenter and Its Application to Texture Mixing," International Conference on Scale Space and Variational Methods in Computer Vision (SSVM), pp.435-446, 2011.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

PG-GAN을 이용한 패션이미지 데이터 자동 생성
Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (6)

표/그림 (6)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

PG-GAN을 이용한 패션이미지 데이터 자동 생성 Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (6) 모든 표/그림 보기

표/그림 (6) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

이찬희 (5) 김경민 (8) 임희석 (82)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

PG-GAN을 이용한 패션이미지 데이터 자동 생성
Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN 원문보기

초록
AI-Helper

표/그림 (6)

표/그림 (6)

AI 본문요약
AI-Helper