[논문]다중 스케일 영상을 이용한 GAN 기반 영상 간 변환 기법

정소영; 정민교

doi:10.17703/jcct.2020.6.4.767

[국내논문] 다중 스케일 영상을 이용한 GAN 기반 영상 간 변환 기법
GAN-based Image-to-image Translation using Multi-scale Images 원문보기

Journal of the convergence on culture technology : JCCT = 문화기술의 융합, v.6 no.4, 2020년, pp.767 - 776

정소영 (서울여자대학교 대학원 정보미디어학과) , 정민교 (서울여자대학교 소프트웨어융합학과)

초록
AI-Helper

GcGAN은 기하학적 일관성을 유지하며 영상 간 스타일을 변환하는 딥러닝 모델이다. 그러나 GcGAN은 회전이나 반전(flip) 등의 한정적인 기하 변환으로 영상의 형태를 보존하기 때문에 영상의 세밀한 형태 정보를 제대로 유지하지 못하는 단점을 가지고 있다. 그래서 본 연구에서는 이런 단점을 개선한 새로운 영상 간 변환 기법인 MSGcGAN(Multi-Scale GcGAN)을 제안한다. MSGcGAN은 GcGAN을 확장한 모델로서, 다중 스케일의 영상을 동시에 학습하여 스케일 불변 특징을 추출함으로써, 영상의 의미적 왜곡을 줄이고 세밀한 정보를 유지하는 방향으로 영상 간 스타일 변환을 수행한다. 실험 결과에 의하면 MSGcGAN은 GcGAN보다 정량적 정성적 측면에서 모두 우수하였고, 영상의 전체적인 형태 정보를 잘 유지하면서 스타일을 자연스럽게 변환함을 확인할 수 있었다.

Abstract ▼ AI-Helper

GcGAN is a deep learning model to translate styles between images under geometric consistency constraint. However, GcGAN has a disadvantage that it does not properly maintain detailed content of an image, since it preserves the content of the image through limited geometric transformation such as rotation or flip. Therefore, in this study, we propose a new image-to-image translation method, MSGcGAN(Multi-Scale GcGAN), which improves this disadvantage. MSGcGAN, an extended model of GcGAN, performs style translation between images in a direction to reduce semantic distortion of images and maintain detailed content by learning multi-scale images simultaneously and extracting scale-invariant features. The experimental results showed that MSGcGAN was better than GcGAN in both quantitative and qualitative aspects, and it translated the style more naturally while maintaining the overall content of the image.

주제어

표/그림 (8)

그림 그림 1. GAN의 개요 Figure 1. Overview of GAN
그림 그림 2. 영상의 스케일에 따른 컨볼루션 필터의 수용영역 Figure 2. Receptive fields of convolution filters according to image scale
그림 그림 3. 제안 방법(MSGcGAN)의 개요 Figure 3. Overview of the proposed method(MSGcGAN)
그림 그림 4. 제안 방법(MSGcGAN)의 생성기 네트워크 구조 Figure 4. The generator structure of the proposed method(MSGcGAN)
그림 그림 5. 제안방법(MSGcGAN)과 GcGAN의 정성적 비교 Figure 5. Qualitative comparison between GcGAN and MSGcGAN
그림 그림 6. 제안방법(MSGcGAN)을 이용한 사진영상의 예술 작품 변환 결과 Figure 6. Results of translating photo images into artist paintings using MSGcGAN
표 표 1. 정량평가 점수: PSNR과 SSIM Table 1. Quantitative scores: PSNR and SSIM
표 표 2. 정량평가 점수: BRISQUE Table 2. Quantitative scores: BRSQUE

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 GcGAN은 생성된 영상을 새로운 학습데이터로 사용하기에는 영상의 세밀한 정보가 잘 유지되지 않고 다소 부자연스러운 변환을 하는 단점을 가지고 있다. 그래서 본 논문에서는 GcGAN의 이런 단점을 개선하는 새로운 영상 간 변환 모델인 MSGcGAN(Multi-Scale GcGAN)을 제안한다. MSGcGAN은 GcGAN을 확장한 모델로서 기존 GcGAN의 기하변환은 회전과 반전으로만 구성되어 있지만, MSGcGAN은 다중 스케일 영상도 포함되도록 기하변환 범위를 확장하였다.
본 논문에서는 딥러닝 학습에 필요한 데이터를 생성하는 연구의 일환으로, 영상 간 스타일 변환 모델 중의 대표적 방법인 GcGAN의 단점을 개선한 새로운 방법(MSGcGAN)을 제안하였다. MSGcGAN은 회전과 반전 기능 외에도 다중 스케일 기능을 추가하여 스케일 불변 특징과 coarse-to-fine 특징을 모두 고려하여 학습을 진행한다.
FR-IQA는 정답으로 여겨지는 참조 영상과 결과 영상을 비교하여 영상에 가해진 왜곡이 어느 정도 되는지 평가하는 지표이고, NR-IQA는 참조 영상 없이 오로지 결과 영상만을 가지고 영상의 품질을 평가하는 지표이다. 본 연구에서는 두 가지 지표를 모두 사용하여 제안방법의 결과 영상의 품질을 측정 및 비교해 보았다. FR-IQA로는 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structural Similarity)[14]을 사용하였고, NR-IQA로는 BRISQUE(Blind/Referenceless Image Spatial Quality Evaluator)[15]를 사용하였다.

가설 설정

다중 스케일 영상을 동시에 학습시키는 딥러닝 네트워크의 베이스라인 모델로 GcGAN을 사용하여 얻을 수 있는 효과는 크게 두 가지이다. 첫째, 계산의 효율성이다. GcGAN은 기존 영상 간 변환 모델과 비교하여 계산량이 효율적이다.

제안 방법

GcGAN은 geometry consistency라는 기하학적 제약조건을 넣어 학습시킴으로써 쌍이 없는 영상의 스타일 변환 문제를 해결하는 방법을 제안하였다. 회전이나 반전등 간단한 기하변환을 한 후에도 동일하게 스타일을 변환하도록 하는 기하학적 제약조건으로 인하여, GcGAN은 CycleGAN과 비교하여 계산량에서도 효율적이고 영상의 전체적인 형태를 잘 보존하면서 스타일만 변환할 수 있다는 장점을 가지고 있다.
MSGcGAN은 GcGAN을 확장한 모델로서, 회전과 반전 외에도 스케일 불변 특징과 coarse-to-fine 특징을 모두 고려하여 학습을 진행하도록 다중 스케일 기능을 추가하였다. 다중 스케일 영상을 동시에 학습시키는 딥러닝 네트워크의 베이스라인 모델로 GcGAN을 사용하여 얻을 수 있는 효과는 크게 두 가지이다.
UNIT(UNsupervised Image-to-image Translation)은 소스영상과 타겟영상이 서로 잠재공간(lataent space)를 공유함으로써 소스 영상의 형태는 유지하고 타겟 영상으로의 스타일을 변환하는 방법을 제안하였다. MUNIT(Muitimodal UNIT)은 UNIT을 개선한 모델로 영상 간 스타일 변환 모델이 좀 더 다양한 출력을 생성하도록 multi-modal로 학습하는 모델을 제안하였다. MUNIT도 UNIT처럼 잠재공간(latent space)를 공유하며 학습하게 되는데 이 중 콘텐츠 공간(content space)는 공유하고 스타일 공간(style space)는 각 영상마다 따로 가지고 있어 형태는 유지하면서도 스타일만을 변환할 수 있도록 하였다.
UNIT(UNsupervised Image-to-image Translation)은 소스영상과 타겟영상이 서로 잠재공간(lataent space)를 공유함으로써 소스 영상의 형태는 유지하고 타겟 영상으로의 스타일을 변환하는 방법을 제안하였다. MUNIT(Muitimodal UNIT)은 UNIT을 개선한 모델로 영상 간 스타일 변환 모델이 좀 더 다양한 출력을 생성하도록 multi-modal로 학습하는 모델을 제안하였다.
비지도학습 영상 간 변환모델의 대표적 방법인 GcGAN(Geometry-Consistent GAN)는 회전이나 반전(flip) 등과 같은 기하변환을 수행한 후에도 geometry consistency라는 기하학적 제약조건을 만족하도록 하여, 쌍이 없는 영상들의 스타일 변환을 수행하는 방법을 제안하였다. 그러나 GcGAN은 생성된 영상을 새로운 학습데이터로 사용하기에는 영상의 세밀한 정보가 잘 유지되지 않고 다소 부자연스러운 변환을 하는 단점을 가지고 있다.
학습데이터로 256x256크기의 말 영상 770장, 얼룩말 영상 929장을 사용했고, 테스트 데이터는 말 영상 120장, 얼룩말 영상 140장을 사용하였다. 사진을 예술작품으로 변환하는 실험에서는 고흐 그림과 모네 그림을 사용하여 실험하였다. 사진을 작가(고흐와 모네)의 화풍으로 변환하는 실험에서는 CycleGAN에서 사용한 photo2vangogh(고흐 그림 영상 400장, 실제 사진 영상 3,019장)와 photo2monet(모네 그림 1,072장, 실제 사진 영상 23,691장) 데이터셋을 사용하였다.
그림 6은 제안방법으로 풍경을 찍은 사진을 고흐화풍의 그림과 모네화풍의 그림으로 변환을 수행한 결과 영상이다. 영상 간 스타일 변환이 예술 산업에도 많이 사용되고 있기 때문에[12] 작가의 스타일을 학습시켜 유사한 작품을 생성하도록 실험해보았다. 고흐의 화풍으로 변환한 두 번째 줄의 첫 번째 나무 사진을 보면 나뭇가지의 형태나 배경의 산이나 태양 들판과 구름 등 영상 내의 객체에 대한 형태적 왜곡 없이 고흐 그림 특유의 거친 붓 터치와 소용돌이가 치는 듯한 텍스쳐로 잘 변환한 것을 확인할 수 있다.
생성기 G에는 소스영상 x_i와 소스영상에 기하 변환f(∙)를 적용하여 변형된 x̃_i가 번갈아 입력된다. 입력 영상 x_i 또는 x̃_i는 컨볼루션 레이어로 이루어진 인코더로 입력되는데, 제안 방법에서는 인코더로 들어가기 전, 입력 영상을 다중 스케일 영상으로 생성하는 스케일 변환 레이어를 추가하였다. 빨간색 블록으로 표시한 스케일 변환 레이어는 1) 원본영상 크기(scale factor = 1), 2)원본영상의 1/2 크기(scale factor = 0.
제안 방법이 사용하는 목적함수는 GAN의 표준 목적함수인 adversarial loss와 기하학적 제약조건을 달성하기 위한 geometry consistency loss로 구성된다. 식 (2)는 adversarial loss를, 식(3)은 geometry consistency loss를 나타내고 제안 방법의 최종목적 함수는 식(4)와 같다.
MSGcGAN은 회전과 반전 기능 외에도 다중 스케일 기능을 추가하여 스케일 불변 특징과 coarse-to-fine 특징을 모두 고려하여 학습을 진행한다. 제안방법은 다중 스케일의 영상을 입력하여 생성기를 학습시키고, 기하학적 제약조건을 적용하여 영상의 스타일 변환을 수행한다. 스타일 변환된 결과 영상을 정성적으로 평가한 결과, 제안 방법은 GcGAN와 비교하였을때 영상의 전체적인 형태나 구조를 더 잘 유지하면서도 자연스럽게 타겟 영상처럼 스타일이 변환됨을 확인할 수 있었다.

대상 데이터

말을 얼룩말로 변환할 때 사용한 데이터셋은 ImageNet[11]에서 wild horse와 zebra라는 키워드로 검색된 랜덤한 영상들을 사용하였다. 학습데이터로 256x256크기의 말 영상 770장, 얼룩말 영상 929장을 사용했고, 테스트 데이터는 말 영상 120장, 얼룩말 영상 140장을 사용하였다.
입력 영상 x_i 또는 x̃_i는 컨볼루션 레이어로 이루어진 인코더로 입력되는데, 제안 방법에서는 인코더로 들어가기 전, 입력 영상을 다중 스케일 영상으로 생성하는 스케일 변환 레이어를 추가하였다. 빨간색 블록으로 표시한 스케일 변환 레이어는 1) 원본영상 크기(scale factor = 1), 2)원본영상의 1/2 크기(scale factor = 0.5), 3)원본영상의 1/4 크기(scale facotr =0.25) 총 3개의 스케일 영상을 생성한다. 생성된 스케일 별 영상은 각각의 인코더 레이어를 통과하며 특징맵을 추출하게 된다.
사진을 예술작품으로 변환하는 실험에서는 고흐 그림과 모네 그림을 사용하여 실험하였다. 사진을 작가(고흐와 모네)의 화풍으로 변환하는 실험에서는 CycleGAN에서 사용한 photo2vangogh(고흐 그림 영상 400장, 실제 사진 영상 3,019장)와 photo2monet(모네 그림 1,072장, 실제 사진 영상 23,691장) 데이터셋을 사용하였다.
제안 방법의 생성기 G는 그림 4와 같이 ConvBlock, Resblock, TransConvblock으로 구성된 인코더-디코더 구조로 되어있다. 생성기 G에는 소스영상 x_i와 소스영상에 기하 변환f(∙)를 적용하여 변형된 x̃_i가 번갈아 입력된다.
말을 얼룩말로 변환할 때 사용한 데이터셋은 ImageNet[11]에서 wild horse와 zebra라는 키워드로 검색된 랜덤한 영상들을 사용하였다. 학습데이터로 256x256크기의 말 영상 770장, 얼룩말 영상 929장을 사용했고, 테스트 데이터는 말 영상 120장, 얼룩말 영상 140장을 사용하였다. 사진을 예술작품으로 변환하는 실험에서는 고흐 그림과 모네 그림을 사용하여 실험하였다.

이론/모형

본 연구에서는 두 가지 지표를 모두 사용하여 제안방법의 결과 영상의 품질을 측정 및 비교해 보았다. FR-IQA로는 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structural Similarity)[14]을 사용하였고, NR-IQA로는 BRISQUE(Blind/Referenceless Image Spatial Quality Evaluator)[15]를 사용하였다.
실제로 딥러닝 모델 학습에 필요한 데이터를 획득할 시 상당수는 데이터 불균형 문제를 가지고 있거나 원하는 도메인의 영상이 부족한 경우가 종종 발생한다. 이러한 데이터 부족이나 불균형 문제를 해결하기 위해 새로운 영상을 생성하는 생성 모델(generative model)이 사용된다.
이렇게 디코더를 통과하면 스타일이 변환된 결과 영상을 생성하게 된다. 이렇게 생성된 결과 영상을 판별하는 판별기 D로는 기존의 영상 간 변환모델에 자주 사용되는 patchGAN[3] 구조를 사용하였고, normalization 레이어로는 G와 동일하게 스타일 변환에 유리하다고 알려져 있는 instance normalization 레이어를 사용하였다.

성능/효과

표 1은 영상의 품질을 측정하는 도구로서 영상 화질의 손실 정보를 평가할 때 사용되는 PSNR과 두 영상의 구조적 유사도를 나타내는 SSIM을 사용하여, GcGAN으로 생성한 영상과 제안방법(MSGcGAN)으로 생성한 영상의 품질을 평가한 것이다. PSNR 평가 결과를 보면 제안방법으로 생성한 영상의 PSNR이 더 큰 값을 가지는 것을 볼 수 있다. PSNR 지표에서는 영상의 품질이 좋을수록 큰 값을 갖게 된다.
영상 간 스타일 변환이 예술 산업에도 많이 사용되고 있기 때문에[12] 작가의 스타일을 학습시켜 유사한 작품을 생성하도록 실험해보았다. 고흐의 화풍으로 변환한 두 번째 줄의 첫 번째 나무 사진을 보면 나뭇가지의 형태나 배경의 산이나 태양 들판과 구름 등 영상 내의 객체에 대한 형태적 왜곡 없이 고흐 그림 특유의 거친 붓 터치와 소용돌이가 치는 듯한 텍스쳐로 잘 변환한 것을 확인할 수 있다. 색감도 영상 본연의 색상이 아니라 고흐 그림 특유의 노란빛이 도는 색감으로 변환되어 고흐가 직접 그린 그림처럼 스타일이 잘 변환된 것을 확인할 수 있다.
PSNR 지표에서는 영상의 품질이 좋을수록 큰 값을 갖게 된다. 그리고 SSIM은 두 영상의 구조적 유사도가 높을수록 1에 가까운 값을 갖는데 SSIM를 측정한 값 또한 제안 방법이 0.58, GcGAN은 0.48로서, 제안방법이 GcGAN과 비교하여 소스 영상과 출력 영상이 유사한 구조를 유지하면서 스타일만을 충실하게 변환한다는 것을 확인할 수 있다.
또 초록색 상자로 표시한 사진을 보아도 GcGAN과 비교하여 인위적이지 않고 사실적인 얼룩무늬가 표현된 것을 확인할 수 있다. 그리고 빨간색 상자로 표시한 영상을 보면 GcGAN에서는 말의 머리 부분에 얼룩무늬가 추가되며 형태가 왜곡되고 몸통은 무늬가 변하지 않은 반면, 제안방법에서는 비교적 말의 형태를 왜곡시키지 않으며 전체적으로 스타일이 잘 변환된 것을 확인할 수 있다.
표에 밑줄로 표기한 것처럼 10개의 영상 중 6개의 영상은 제안방법으로 생성한 영상이 더 낮은 점수를 얻었고 4개의 영상은 GcGAN의 영상이 더 낮은 점수를 얻었다. 그리고 평균점수는 제안방법으로 생성한 영상이 15.4점, 그리고 GcGAN으로 생성한 영상이 17.1점으로 제안방법이 1.7점이 더 낮아 제안방법이 GcGAN보다 품질이 더 우수한 영상을 생성한 것을 확인할 수 있었다.
스케일에 따라 변하지 않는 특징점을 뽑아내는 것은 영상의 형태는 유지하면서도 스타일을 변환해야 하는 영상 간 변환 모델에 유리할 수 있다. 둘째, 영상의 다중 스케일에서 같은 크기의 컨볼루션 필터를 사용함으로써 영상에서 세밀한(fine) 특징과 영상의 전반적인(coarse) 특징을 모두 고려하여 모델을 훈련시킬 수 있다. 예를 들면 다중 스케일의 영상은 컨볼루션 레이어를 통과할 때 동일한 크기의 필터(그림 2의 노란색 영역)를 거치게 되는데 이 필터의 수용 영역이 영상의 스케일에 따라 단위가 달라지게 된다.
하지만 제안방법에서는 파란색 상자로 표시한 그림에서 알 수 있듯이, 말의 다리가 선명하게 보일 뿐만 아니라 배경에 대한 왜곡 없이 말만 얼룩무늬로 스타일이 변환된 것을 확인할 수 있다. 또 초록색 상자로 표시한 사진을 보아도 GcGAN과 비교하여 인위적이지 않고 사실적인 얼룩무늬가 표현된 것을 확인할 수 있다. 그리고 빨간색 상자로 표시한 영상을 보면 GcGAN에서는 말의 머리 부분에 얼룩무늬가 추가되며 형태가 왜곡되고 몸통은 무늬가 변하지 않은 반면, 제안방법에서는 비교적 말의 형태를 왜곡시키지 않으며 전체적으로 스타일이 잘 변환된 것을 확인할 수 있다.
고흐의 화풍으로 변환한 두 번째 줄의 첫 번째 나무 사진을 보면 나뭇가지의 형태나 배경의 산이나 태양 들판과 구름 등 영상 내의 객체에 대한 형태적 왜곡 없이 고흐 그림 특유의 거친 붓 터치와 소용돌이가 치는 듯한 텍스쳐로 잘 변환한 것을 확인할 수 있다. 색감도 영상 본연의 색상이 아니라 고흐 그림 특유의 노란빛이 도는 색감으로 변환되어 고흐가 직접 그린 그림처럼 스타일이 잘 변환된 것을 확인할 수 있다. 마찬가지로 3번째 줄의 모네 그림으로 스타일 변환을 수행한 영상을 보면 영상의 형태나 배경 등 영상의 왜곡 없이 모네 특유의 흐릿한 색감을 잘 표현하며 스타일이 잘 변환된 것을 확인할 수 있다.
제안방법은 다중 스케일의 영상을 입력하여 생성기를 학습시키고, 기하학적 제약조건을 적용하여 영상의 스타일 변환을 수행한다. 스타일 변환된 결과 영상을 정성적으로 평가한 결과, 제안 방법은 GcGAN와 비교하였을때 영상의 전체적인 형태나 구조를 더 잘 유지하면서도 자연스럽게 타겟 영상처럼 스타일이 변환됨을 확인할 수 있었다. 정량평가에서도 평균적으로 더 우수한 품질의 영상을 생성하는 것으로 확인되었다.
모네는 사물의 형체를 정확하게 표현하기보다는 빛과 그림자 효과를 통해 풍경의 인상을 전달하는 그림을 그리는 것으로 알려져 있는데 첫 번째 나무 그림에서 이와 같은 모네 스타일의 특성이 고스란히 담겨있다. 이 외 다른 영상에서도 형태 정보는 잘 유지하면서 색감이나 텍스쳐는 화가의 스타일과 유사한 예술품으로 자연스럽게 스타일 변환됨을 확인할 수 있었다.
MSGcGAN은 GcGAN을 확장한 모델로서 기존 GcGAN의 기하변환은 회전과 반전으로만 구성되어 있지만, MSGcGAN은 다중 스케일 영상도 포함되도록 기하변환 범위를 확장하였다. 이렇게 함으로써 MSGcGAN은 다중 스케일 영상을 동시에 학습하여 스케일에 불변한 특징을 추출함으로써, 영상의 의미적 왜곡을 줄이고 영상의 세밀한 정보를 유지할 수 있는 효과를 얻을 수 있었다.
스타일 변환된 결과 영상을 정성적으로 평가한 결과, 제안 방법은 GcGAN와 비교하였을때 영상의 전체적인 형태나 구조를 더 잘 유지하면서도 자연스럽게 타겟 영상처럼 스타일이 변환됨을 확인할 수 있었다. 정량평가에서도 평균적으로 더 우수한 품질의 영상을 생성하는 것으로 확인되었다. 제안방법은 향후 데이터가 부족하거나 불균형한 문제를 해결하는데 크게 활용될 수 있을 것으로 기대된다.
최근 딥러닝 기술의 발달로 컴퓨터 비전 분야는 매우 큰 진보를 이루었다. 특히 고성능 카메라의 보급화와 SNS의 발달로 영상 데이터의 양이 크게 증가하였다. 이렇게 충분한 양의 데이터가 있을 때 기존의 영상처리 알고리즘보다 딥러닝 모델이 뛰어난 성능을 보임을 많은 연구를 통해 증명되었고, 이에 따라 컴퓨터 비전 분야에서 딥러닝 연구는 점차 주류가 되어가고 있다[1].
그림의 둘째 줄은 GcGAN으로 변환한 영상인데, 말 객체가 얼룩무늬로 변환되기는 했지만 다소 부자연스러운 부분이 보인다. 파란색 상자 안에 보이는 것처럼 말의 다리 부분에서 배경과 객체가 함께 섞이면서 정보가 손실되거나, 초록색 상자에 보이는 것처럼 말의 몸통 부위에서 다소 얼룩무늬가 부자연스러운 부분이 보이는 것을 확인할 수 있다. 하지만 제안방법에서는 파란색 상자로 표시한 그림에서 알 수 있듯이, 말의 다리가 선명하게 보일 뿐만 아니라 배경에 대한 왜곡 없이 말만 얼룩무늬로 스타일이 변환된 것을 확인할 수 있다.
BRISQUE는 영상이 왜곡되면 영상의 픽셀 통계도 왜곡된다는 점에서 착안한 알고리즘으로 품질이 좋을수록 낮은 점수를 주고, 품질이 나쁠수록 높은 점수를 산출하도록 훈련이 된 모델이다. 표에 밑줄로 표기한 것처럼 10개의 영상 중 6개의 영상은 제안방법으로 생성한 영상이 더 낮은 점수를 얻었고 4개의 영상은 GcGAN의 영상이 더 낮은 점수를 얻었다. 그리고 평균점수는 제안방법으로 생성한 영상이 15.
파란색 상자 안에 보이는 것처럼 말의 다리 부분에서 배경과 객체가 함께 섞이면서 정보가 손실되거나, 초록색 상자에 보이는 것처럼 말의 몸통 부위에서 다소 얼룩무늬가 부자연스러운 부분이 보이는 것을 확인할 수 있다. 하지만 제안방법에서는 파란색 상자로 표시한 그림에서 알 수 있듯이, 말의 다리가 선명하게 보일 뿐만 아니라 배경에 대한 왜곡 없이 말만 얼룩무늬로 스타일이 변환된 것을 확인할 수 있다. 또 초록색 상자로 표시한 사진을 보아도 GcGAN과 비교하여 인위적이지 않고 사실적인 얼룩무늬가 표현된 것을 확인할 수 있다.

후속연구

정량평가에서도 평균적으로 더 우수한 품질의 영상을 생성하는 것으로 확인되었다. 제안방법은 향후 데이터가 부족하거나 불균형한 문제를 해결하는데 크게 활용될 수 있을 것으로 기대된다.

참고문헌 (15)

Lee, Soowook. "Deep Structured Learning: Architectures and Applications." International Journal of Advanced Culture Technology. 2018. https://doi.org/10.17703//IJACT2018.6.4.262

원문보기 상세보기
Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems. 2014.
Isola, Phillip, et al. "Image-to-image translation with conditional adversarial networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. https://doi.org/10.1109/cvpr.2017.632
Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." Proceedings of the IEEE international conference on computer vision. 2017. https://doi.org/10.1109/iccv.2017.244
Liu, Ming-Yu, Thomas Breuel, and Jan Kautz. "Unsupervised image-to-image translation networks." Advances in neural information processing systems. 2017.
Huang, Xun, et al. "Multimodal unsupervised image-to-image translation." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
Fu, Huan, et al. "Geometry-consistent generative adversarial networks for one-sided unsupervised domain mapping." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. https://doi.org/10.1109/cvpr.2019.00253
Mirza, Mehdi, and Simon Osindero. "Conditional generative adversarial nets." arXiv preprint arXiv:1411.1784 (2014).
Ulyanov, Dmitry, Andrea Vedaldi, and Victor Lempitsky. "Improved texture networks: Maximizing quality and diversity in feed-forward stylization and texture synthesis." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. https://doi.org/10.1109/cvpr.2017.437
Dumoulin, Vincent, Jonathon Shlens, and Manjunath Kudlur. "A learned representation for artistic style." arXiv preprint arXiv:1610.07629 (2016).
Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009. https://doi.org/10.1109/cvprw.2009.5206848
Kim, Ju-eun. "An Analysis of the effect of Artificial Intelligence on Human Society." The Journal of the Convergence on Culture Technology 5.2 (2019): 177-182.
Wang, Zhou, and Alan C. Bovik. "Modern image quality assessment." Synthesis Lectures on Image, Video, and Multimedia Processing 2.1 (2006): 1-156.

상세보기
Wang, Zhou, et al. "Image quality assessment: from error visibility to structural similarity." IEEE transactions on image processing 13.4 (2004): 600-612. https://doi.org/10.1109/tip.2003.819861

상세보기
Mittal, Anish, Anush K. Moorthy, and Alan C. Bovik. "Blind/referenceless image spatial quality evaluator." 2011 conference record of the forty fifth asilomar conference on signals, systems and computers (ASILOMAR). IEEE, 2011. https://doi.org/10.1109/acssc.2011.6190099

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증