$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구
Research on Generative AI for Korean Multi-Modal Montage App 원문보기

서비스연구 = Journal of service research and studies, v.14 no.1, 2024년, pp.13 - 26  

임정현 (대구대학교 AI학부) ,  차경애 (대구대학교 AI학과) ,  고재필 (국립금오공과대학교 컴퓨터공학과) ,  홍원기 (대구대학교 컴퓨터정보공학부)

초록
AI-Helper 아이콘AI-Helper

멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

Multi-modal generation is the process of generating results based on a variety of information, such as text, images, and audio. With the rapid development of AI technology, there is a growing number of multi-modal based systems that synthesize different types of data to produce results. In this pape...

주제어

표/그림 (19)

참고문헌 (18)

  1. AI-Hub K-Fashion(2024), https://aihub.or.kr/aihubdata/data/view.do?currMenu115&topMenu100&aihubDataSerealm&dataSetSn51? 

  2. AI-Hub Montage(2024), https://www.aihub.or.kr/aihubdata/data/view.do?currMenu115&topMenu100&dataSetSn618? 

  3. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D.(2020), Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901? 

  4. Esser, P., Rombach, R., and Ommer, B.(2021), Taming Transformers for High-Resolution Image Synthesis, In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 12873-12883? 

  5. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y.(2020), Generative adversarial networks. Communications of the ACM, 63(11), pp. 139-144? 

  6. Joh, H., and Park, B.S.(2018), A Comparative Study of Montage investigation and portrait investigation. 가천법학, 11(3), pp. 235-264 

  7. Kingma, D.P., and Welling, M.(2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114? 

  8. KoDALLE (2024), https://github.com/KR-HappyFace/KoDALLE? 

  9. KoGPT of Kakao Brain (2024), https://github.com/kakaobrain/kogpt? 

  10. KoGPT Trinity of SKT (2024), https://github.com/SKT-AI/KoGPT2? 

  11. Park, B., Nam, S., Chang, H. and Choi, C. (2013), EsFit - A facial composites methodology to help eyewitness, Annual Conference of IEIE, 1393-1396 

  12. Park, S., Moon, J., Kim, S., Cho, W. I., Han, J., Park, J., Song, C., Kim, J., Song, Y., Oh, T., Lee, J., Oh, J., Lyu, S., Jeong, Y., Lee, I., Seo, S., Lee, D., Kim, H., Lee, M., Jang, S., Do, S., Kim, S., Lim, K., Lee, J., Park, K., Shin, J., Kim, S., Park, L., Oh, A., Ha, J.-W., and Cho, K. (2021), Klue: Korean language understanding evaluation. arXiv preprint arXiv:2105.09680? 

  13. Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I.(2021), Zero-shot text-to-image generation, In International Conference on Machine Learning, 8821-8831? 

  14. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. (2022), High-resolution image synthesis with latent diffusion models, In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 10684-10695? 

  15. Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E. L., Ghasemipour, K., Gontijo Lopes, R., Ayan, B. K., Salimans, T., Ho, J., Fleet, D. J., and Norouzi, M.(2022), Photorealistic text-to-image diffusion models with deep language understanding, Advances in Neural Information Processing Systems, 35, 36479-36494? 

  16. Van Den Oord, A., and Vinyals, O.(2017), Neural discrete representation learning, Advances in neural information processing systems, 30? 

  17. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. (2017), Attention is all you need. Advances in neural information processing systems, 30? 

  18. Weight&Biases(2024), https://wandb.ai/site 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로