[논문]물체 변형 성능을 향상하기 위한 U-net 및 Residual 기반의 Cycle-GAN

김세운; 박광현

doi:10.7746/jkros.2018.13.1.001

Abstract ▼ AI-Helper

The image-to-image translation is one of the deep learning applications using image data. In this paper, we aim at improving the performance of object transfiguration which transforms a specific object in an image into another specific object. For object transfiguration, it is required to transform ...

The image-to-image translation is one of the deep learning applications using image data. In this paper, we aim at improving the performance of object transfiguration which transforms a specific object in an image into another specific object. For object transfiguration, it is required to transform only the target object and maintain background images. In the existing results, however, it is observed that other parts in the image are also transformed. In this paper, we have focused on the structure of artificial neural networks that are frequently used in the existing methods and have improved the performance by adding constraints to the exiting structure. We also propose the advanced structure that combines the existing structures to maintain their advantages and complement their drawbacks. The effectiveness of the proposed methods are shown in experimental results.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

동일한 개념을 사용하는 연구로 Disco-GAN^[7], Dual-GAN^[8] 이 있다. 본 논문에서는 Cycle-GAN을 물체 변형을 위한 큰 틀로 사용하고 내부에서 사용되는 인공신경망의 세부적인 구조에 초점을 맞추어, 구조적인 제약을 추가하고 기존 이미지-이미지 번역에서 빈번하게 사용되는 구조들을 결합함으로써 성능 향상을 얻고자 하였다.
이 때, 이미지 상에서 목표가 되는 물체만 정확하게 인식하고 해당 부분만 적절하게 변형하는 것이 필요한데, 기존 결과에서는 목표가 되는 물체 이외의 부분에서도 변형이 생기는 현상을 관찰할 수 있다. 본 논문에서는 GAN을 구성하는 인공신경망들 중 직접적으로 도메인 간의 변환을 학습하는 생성망의 구조에 초점을 맞추어 기존방법의 한계점을 개선하고자 하였다. 즉, 기존 방법과 같이 생성망이 상대 도메인의 전체 이미지를 생성하는 것이 아니라 특정 영역에 대한 마스크를 생성하여 물체 변형을 수행하도록 제약을 주었으며, 이를 통해 목표가 되는 물체에 집중하는 효과를 얻을 수 있었다.
본 논문에서는 물체 변형을 수행할 때 물체 이외의 부분도 같이 변형되는 기존 방법의 문제를 개선한 새로운 생성망 구조를 제안하였다. 직접적으로 변형을 담당하는 인공신경망에 제약을 추가하고, 기존 구조들을 결합하여 세부적인 구조를 변경함으로써 배경을 유지하면서 물체만 변형될수 있도록 하였다.
GAN은 판별(Discriminator)과 생성(Generator)을 담당하는 두 개의 인공신경망으로 구성되며, 학습 과정에서 두 개의 인공신경망이 서로 경쟁을 한다. 본 논문에서는 이미지-이미지 번역의 일종인 물체 변형(Object Transfiguration)의 성능을 개선하고자 하였다. 물체 변형에서는 이미지 상의 특정 물체 자체를 도메인으로 보고 다른 물체로 변형하는 일을 수행한다.
또한 기존에 사용된 생성망 구조와 이미지-이미지 번역에서 자주 사용되는 구조를 분석하고 결합하여 각각의 장점은 살리고 단점은 보완하는 새로운 형태의 구조를 제안하였다. 실험에는 기존 Cycle-GAN에서 사용된 horse2zebra 데이터^[6]를 사용하였으며, 본 논문의 목적에 따른 지표를 제시하여 정량적으로 성능을 평가하고자 하였다.

제안 방법

즉, 기존 방법과 같이 생성망이 상대 도메인의 전체 이미지를 생성하는 것이 아니라 특정 영역에 대한 마스크를 생성하여 물체 변형을 수행하도록 제약을 주었으며, 이를 통해 목표가 되는 물체에 집중하는 효과를 얻을 수 있었다. 또한 기존에 사용된 생성망 구조와 이미지-이미지 번역에서 자주 사용되는 구조를 분석하고 결합하여 각각의 장점은 살리고 단점은 보완하는 새로운 형태의 구조를 제안하였다. 실험에는 기존 Cycle-GAN에서 사용된 horse2zebra 데이터^[6]를 사용하였으며, 본 논문의 목적에 따른 지표를 제시하여 정량적으로 성능을 평가하고자 하였다.
직접적으로 변형을 담당하는 인공신경망에 제약을 추가하고, 기존 구조들을 결합하여 세부적인 구조를 변경함으로써 배경을 유지하면서 물체만 변형될수 있도록 하였다. 또한 정량적인 평가를 위한 지표를 제시하여 기존 방법과 비교하고 성능을 검증하였다. 하지만 본 논문에서 제시한 지표는 배경 유지라는 목표를 평가하기 위한 것으로서 물체의 변형 자체가 잘 되었는지를 판단하기 위한 것은 아니다.
5]와 같이 Residual-net과 U-net을 결합하여 서로의 장점은 살리고 단점은 보완할 수 있는 형태의 구조를 제안한다. 인코딩-디코딩 측면에서 좀더 유리한 U-net의 구조를 기본 골격으로 하였으며, 인코더와 디코더 사이에 Residual Block을 거치도록 추가하여 변환의 개념을 보완하였다. Residual-net에서처럼 특정 해상도에서만 Residual Block을 통한 변환을 거치는 것이 아니라 여러 해상도에서 이러한 과정을 거치게 되는데, 이는 컴퓨터 비전 분야에서 자주 쓰이는 기법과도 유사하다.
본 논문에서는 물체 변형을 수행할 때 물체 이외의 부분도 같이 변형되는 기존 방법의 문제를 개선한 새로운 생성망 구조를 제안하였다. 직접적으로 변형을 담당하는 인공신경망에 제약을 추가하고, 기존 구조들을 결합하여 세부적인 구조를 변경함으로써 배경을 유지하면서 물체만 변형될수 있도록 하였다. 또한 정량적인 평가를 위한 지표를 제시하여 기존 방법과 비교하고 성능을 검증하였다.
본 논문에서는 물체 변형 성능을 향상시키기 위해 생성망의 세부 구조에 초점을 맞추었다. 첫 번째로, 간단한 구조적 제약(Input-residual)을 추가하고, 두 번째로는 기존에 사용되던 구조들의 특성을 분석하고 이들을 결합하여 장점은 유지하고 단점은 보완할 수 있는 구조(ω-net)를 제안한다. 최종적으로는 이 두 가지를 조합하여(ω-net과 Input-residual의 조합) 본 논문의 목표를 달성하고자 한다.

대상 데이터

를 사용하였다. 본 논문의 실험과 관련성이 낮은 데이터들은 일부 삭제하여 총말 816장, 얼룩말 948장으로 학습 데이터를 구성하였다. 테스트 데이터 세트로는 Weizmann Horses 데이터 세트^[15]의 말 이미지 328장을 사용하였다.
실험에는 기존 Cycle-GAN에서 사용되었던 horse2zebra 데이터^[6]를 사용하였다. 본 논문의 실험과 관련성이 낮은 데이터들은 일부 삭제하여 총말 816장, 얼룩말 948장으로 학습 데이터를 구성하였다.
본 논문의 실험과 관련성이 낮은 데이터들은 일부 삭제하여 총말 816장, 얼룩말 948장으로 학습 데이터를 구성하였다. 테스트 데이터 세트로는 Weizmann Horses 데이터 세트^[15]의 말 이미지 328장을 사용하였다. 이는 정략적인 지표를 측정하기 위한 것으로서 다음절에서 설명한다.

이론/모형

말을 얼룩말로 변형하거나 사과를 오렌지로 변형하는 등의 예시를 들 수 있다. 본 논문에서는 이를 위해 GAN에 Cycle-Consistency 개념을 추가한 Cycle-GAN^[5]의 형태를 사용하였다. 일반적으로 특정 물체가 포함된 이미지에 대해 해당 물체만 다른 물체로 변경된 이미지를 구하여 학습 데이터로 사용하기는 어려운데, Cycle-GAN은 쌍이 맞지 않는 데이터로도 학습이 가능하다.
실제 구현에서는 좀 더 안정적인 것으로 알려져 있는 LSGAN^[13]의 Adversarial Loss를 사용하였으며, Cycle-GAN의 최적화를 위해 Adam을 사용하였다. 이 때, 학습률은 0.

성능/효과

즉, 목표가 되는 물체가 얼마나 잘 변형되었는지를 평가하는 것이 아니라 배경이 얼마나 잘 유지되는지만 평가한다. Input-residual을 추가하기 전의 각 구조들은 배경 유지의 측면에서 모두 낮은 성능의 결과를 보이지만, Inputresidual을 추가한 후에는 각 구조에서 모두 배경 유지 성능이 개선됨을 볼 수 있다. 이때, U-net과 Input-residual의 조합이 배경 유지 측면에서 수치적으로 가장 높은 성능을 보이고 있지만 [Fig.
8]은 U-net과 ω-net에 Input-residual을 적용하고 결과를 비교한 예시이다. 두 번째 열의 결과들과 같이 U-net에서는 대상 물체가 잘 변형되지 않지만 세 번째 열의 결과들과 같이ω-net에서는 잘 변형됨을 확인할 수 있다.
두 번째 열의 결과들과 같이 Residual-net에 Input-residual을 추가하였음에도 여전히 배경에 노이즈가 생기는 것을 살펴볼 수 있다. 세 번째 열의 결과들은 이러한 현상이 ω-net을 통해 개선됨을 보여준다.
따라서 본 논문의 목표에 부합한다고 할 수 없다. 이에 반해 제안하는 방법인 ω-net과 Input-residual의 조합은 물체를 잘 변형하면서도 Residual-net과 Input-residual의 조합에 비해 배경이 더 잘 유지된다는 것을 확인할 수 있다.
본 논문에서는 GAN을 구성하는 인공신경망들 중 직접적으로 도메인 간의 변환을 학습하는 생성망의 구조에 초점을 맞추어 기존방법의 한계점을 개선하고자 하였다. 즉, 기존 방법과 같이 생성망이 상대 도메인의 전체 이미지를 생성하는 것이 아니라 특정 영역에 대한 마스크를 생성하여 물체 변형을 수행하도록 제약을 주었으며, 이를 통해 목표가 되는 물체에 집중하는 효과를 얻을 수 있었다. 또한 기존에 사용된 생성망 구조와 이미지-이미지 번역에서 자주 사용되는 구조를 분석하고 결합하여 각각의 장점은 살리고 단점은 보완하는 새로운 형태의 구조를 제안하였다.

후속연구

하지만 본 논문에서 제시한 지표는 배경 유지라는 목표를 평가하기 위한 것으로서 물체의 변형 자체가 잘 되었는지를 판단하기 위한 것은 아니다. 향후 이를 평가하고 검증할 수 있는 방법에 대한 연구가 필요하며, 지속적인 실험을 통해 더욱 최적화하는 것이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이미지-이미지 번역은 무엇인가?	이미지-이미지 번역(Image-to-Image Translation)[1]은 이미지를 활용하는 딥러닝의 응용 분야 중 하나로서, 인공신경망의 입력과 출력 데이터가 모두 이미지 형태이다. 입력 이미지의 도메인을 원하는 다른 도메인으로 변환하는 일을 수행하며, 도메인을 어떻게 설정하느냐에 따라 다양한 응용이 가능하다.
	GAN은 무엇으로 구성되는가?	다루는데이터의 형태가 이미지이기 때문에 합성곱 인공신경망(Convolutional Neural Networks)을 기반으로 하여, 최근에는 딥러닝 분야에서 가장 활발하게 연구되고 있는 생성모델 중 하나인 GAN (Generative Adversarial Networks)[4]을 많이 사용하고 있다. GAN은 판별(Discriminator)과 생성(Generator)을 담당하는 두 개의 인공신경망으로 구성되며, 학습 과정에서두 개의 인공신경망이 서로 경쟁을 한다. 본 논문에서는 이미지-이미지 번역의 일종인 물체 변형(Object Transfiguration)의 성능을 개선하고자 하였다.
	이미지-이미지 번역의 예시는 무엇이 있는가?	입력 이미지의 도메인을 원하는 다른 도메인으로 변환하는 일을 수행하며, 도메인을 어떻게 설정하느냐에 따라 다양한 응용이 가능하다. 흑백 사진을 컬러 사진으로[2], 지도를 위성사진으로[1], 선화를 채색된 이미지로 변환[3]하는 등의 예시가 있다. 다루는데이터의 형태가 이미지이기 때문에 합성곱 인공신경망(Convolutional Neural Networks)을 기반으로 하여, 최근에는 딥러닝 분야에서 가장 활발하게 연구되고 있는 생성모델 중 하나인 GAN (Generative Adversarial Networks)[4]을 많이 사용하고 있다.

참고문헌 (16)

P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, pp. 5967-5976, 2017.
R. Zhang, P. Isola, and A. A. Efros, "Colorful image colorization," European Conference on Computer Vision,, Amsterdam, Netherlands, pp. 649-666, 2016.
Preferred Networks, PaintsChainer, [Online], https://paintschainer.preferred.tech, Accessed: January 16, 2018.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde- Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial nets," in 28th Annual Conference on Neural Information Processing Systems, Montreal, Canada, pp. 2672-2680, 2014.
J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," 2017 IEEE International Conference on Computer Vision, Venice, Italy, pp. 2242-2251, 2017.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, "ImageNet Large scale visual recognition challenge," International Journal of Computer Vision, vol. 115, no. 3, pp. 211-252, April, 2015.

상세보기
T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim, "Learning to discover cross-domain relations with generative adversarial networks," International Conference on Machine Learning, Sydney, Australia, pp. 1857-1865, 2017.
Z. Yi, H. Zhang, P. Tan, and M. Gong, "Dualgan: Unsupervised dual learning for image-to-image translation," in IEEE International Conference on Computer Vision, Venice, Italy, pp. 2868-2876, 2017.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," 2017 IEEE International Conference on Computer Vision, Las Vegas, USA, pp. 770-778, 2016.
K. He, X. Zhang, S. Ren, and J. Sun, "Identity mappings in deep residual networks," European Conference on Computer Vision, Amsterdam, Netherlands, pp. 630-645, 2016.
J. Johnson, A. Alahi, and L. Fei-Fei, "Perceptual losses for real-time style transfer and super-resolution," European Conference on Computer Vision, Amsterdam, Netherlands, pp. 694-711, 2016.
O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, pp.234-241, 2015.
X. Mao, Q. Li, H. Xie, R. Y.K. Lau, Z. Wang, and S. P. Smolley, "Least squares generative adversarial networks," 2017 IEEE International Conference on Computer Vision, Venice, Italy, pp. 2813-2821, 2017.
A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb, "Learning from simulated and unsupervised images through adversarial training," 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, pp. 2242-2251, 2017.
E. Borenstein and S. Ullman, "Combined top-down/bottom-up segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 12, pp. 2109-2125, December, 2008.

상세보기
W. Mokrzycki and M. Tatol, "Color difference ΔE - A survey," Machine Graphic and Vision, vol. 20, no. 4, pp. 383-411, April, 2011.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 물체 변형 성능을 향상하기 위한 U-net 및 Residual 기반의 Cycle-GAN
U-net and Residual-based Cycle-GAN for Improving Object Transfiguration Performance 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 물체 변형 성능을 향상하기 위한 U-net 및 Residual 기반의 Cycle-GAN U-net and Residual-based Cycle-GAN for Improving Object Transfiguration Performance 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 물체 변형 성능을 향상하기 위한 U-net 및 Residual 기반의 Cycle-GAN
U-net and Residual-based Cycle-GAN for Improving Object Transfiguration Performance 원문보기

AI 본문요약
AI-Helper