[논문]시각-언어 모델을 위한 분포 인식 프롬프트 조정 기법

Eulrang Cho

[학위논문] 시각-언어 모델을 위한 분포 인식 프롬프트 조정 기법
Distribution-Aware Prompt Tuning for Vision-Language Models 원문보기

Eulrang Cho (고려대학교 대학원 컴퓨터학과(정보대학) 소프트웨어전공 국내석사)

초록 ▼
AI-Helper

사전 학습된 시각-언어 모델(VLM)은 대규모 학습된 지식을 활용하여 다 양한 하위 작업에서 우수한 성능을 보여준다. 일반적으로 시각-언어 모델의 성능은 입력 이미지 또는 텍스트에 컨택스트를 더해주는 프롬프트 조정 방식 을 통해 향상될 수 있다. 최근 하위 작업의 데이터를 이용하기 위해 다양한 프롬프트 조정 방법이 연구되었다. 프롬프트 조정의 핵심은 모델 파라미터를 고정시키고 학습 가능한 벡터를 이용해 두 모달리티 간의 특성 공간을 조정하 는 것이다. 본 연구에서는 각 모달리티의 임베딩이 잠재 공간에서 적절하게 정렬되어야 조정이 더욱 효과적인 것임을 관찰했다. 이러한 관찰을 바탕으로 본 연구에서는 시각-언어 모델을 위한 간단하면서 효과적인 방법인 분포 인식 프롬프트 조정(DAPT)을 제시한다. 구체적으로, 프롬프트를 이용해 서로 다른 클래스의 거리의 내부 분산을 최대화하고 같은 클래스의 임베딩의 거리는 외부 분산을 최소화하도록 학습한다. 본 연구의 검증을 위해 11개의 벤치마크 데이 터에 대해 실험을 진행하였으며, 제안하는 방법이 일반화 능력을 향상시킴을 확인하였다.

Abstract ▼ AI-Helper

Pre-trained vision-language models (VLMs) have shown impressive performance on various downstream tasks by utilizing knowledge learned from large data. In general, the performance of VLMs on target tasks can be further improved by prompt tuning, which adds context to the input image or text. By leveraging data from target tasks, various prompt-tuning methods have been studied in the literature. A key to prompt tuning is the feature space alignment between two modalities via learnable vectors with model parameters fixed. We observed that the alignment becomes more effective when embeddings of each modality are ‘well-arranged’ in the latent space. Inspired by this observation, we proposed distribution-aware prompt tuning (DAPT) for vision-language models, which is simple yet effective. Specifically, the prompts are learned by maximizing inter-dispersion, the distance between classes, as well as minimizing the intra-dispersion measured by the distance between embeddings from the same class. Our extensive experiments on 11 benchmark datasets demonstrate that our method significantly improves generalizability.

Keyword

학위논문 정보

저자	Eulrang Cho
학위수여기관	고려대학교 대학원
학위구분	국내석사
학과	컴퓨터학과(정보대학) 소프트웨어전공
지도교수	김현우
발행연도	2024
총페이지	50 p
키워드	Vision-Language Models Prompt Tuning Generalization
언어	eng
원문 URL	http://www.riss.kr/link?id=T16955212&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] 시각-언어 모델을 위한 분포 인식 프롬프트 조정 기법
Distribution-Aware Prompt Tuning for Vision-Language Models 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] 시각-언어 모델을 위한 분포 인식 프롬프트 조정 기법 Distribution-Aware Prompt Tuning for Vision-Language Models 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] 시각-언어 모델을 위한 분포 인식 프롬프트 조정 기법
Distribution-Aware Prompt Tuning for Vision-Language Models 원문보기

초록 ▼
AI-Helper