AI 탐구노트

VLM (Vision Langunage Model) 정리 본문

AI 기술

VLM (Vision Langunage Model) 정리

42morrow 2025. 5. 8. 10:05
728x90

 

VLM (Vision Language Model)이란?

VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다.

 

VLM 의 주요 특징은?

 

 

1️⃣ 이미지와 텍스트를 통합적으로 이해

텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.

예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답하거나, 사진을 설명해 달라는 요청에 "검은 고양이가 책상에 앉아 있어요"라고 말할 수 있습니다.

 

2️⃣ 다양한 작업 수행 가능

  • 캡션 및 요약, 이미지 설명 : 사진을 보고 내용 설명
  • 시각적 질문 답변 (VQA) : 이미지와 관련된 질문에 답변
  • 텍스트 기반 이미지 검색 : '해변에서 일몰' 같은 설명을 바탕으로 관련 이미지 검색 지원
  • 이미지 생성 지원 : 일부 VLM은 텍스트를 바탕으로 이미지를 만들거나 수정 지원
  • 문서 이해 : 문서 이미지에서 정보를 추출하고 이해
  • 이미지 기반 대화 : 이미지를 기반으로 대화를 진행

 

3️⃣ 학습 방식

VLM은 대량의 이미지-텍스트 쌍 데이터로 훈련됩니다. 예를 들어, 인터넷에서 사진과 그 사진에 달린 캡션(설명)을 학습해 이미지와 텍스트 간의 연결을 이해합니다. 이를 통해 '강아지'라는 단어와 강아지 사진을 연결 짓는 식으로 학습합니다.

 

 

VLM의 기본 구조는?

VLM은 텍스트와 이미지를 동시에 처리할 수 있도록 설계된 구조를 이용합니다.

  • 입력 : 시각적 데이터 (이미지)와 텍스트 데이터 등
  • 출력 : 텍스트 설명(프롬프트), 시각적 질문에 대한 답변, 텍스트 프롬프트를 기반으로 생성된 이미지 등
  • 모델 아키텍처
    • 이미지 인코더 : 이미지에서 특징을 추출하는 역할을 합니다.
    • 멀티모달 프로젝터 : 이미지와 텍스트의 특징을 동일한 공간으로 변환하여 결합합니다.
    • 텍스트 디코더 : 결합된 정보를 바탕으로 텍스트를 생성합니다. 

예를 들어 LLaVA 모델의 경우, CLIP 이미지 인코더, 멀티모달 프로젝터, Vicuna 텍스트 디코더로 구성되어 있습니다. 

 

 

VLM의 장점과 한계

🦾 장점

  • 이미지와 텍스트를 동시에 처리해 더 풍부한 정보를 제공
  • 다양한 분야에서 활용 가능(교육, 의료, 엔터테인먼트 등)
  • 인간처럼 직관적으로 시각과 언어를 연결

 

🚧 한계

  • 아직 완벽하지 않으며 복잡한 이미지나 모호한 질문에서는 오류를 낼 수 있음
  • 대량의 데이터와 컴퓨터 자원이 필요해 학습과 실행 비용이 큼
  • 편향된 데이터로 학습하면 잘못된 결과를 낼 가능성(예: 특정 문화나 성별에 치우친 답변)이 있음

 

 

VLM의 예시와 사용 사례

 

 

VLM은 실생활에서 다음과 같은 다양한 분야에서 이미 활용되고 있습니다. 

  • 일상생활 
    • 스마트폰 카메라로 찍은 음식 사진을 보고 '이 요리는 뭐예요?'라고 물으면 VLM이 '파스타입니다'라고 답변하는 앱
    • SNS에서 사진에 자동으로 캡션을 생성하거나, 시각 장애인을 위해 이미지 설명을 제공
  • 산업 및 전문 분야
    • 의료 : 엑스레이 이미지를 보고 이상 부위를 설명하거나 의사에게 도움 제공
    • 교육 : 교과서의 그림을 보고 학생의 질문에 답하거나 학습 자료를 생성
    • 전자상거래 : "파란 드레스"라는 설명으로 관련 상품 이미지를 추천

 

대표적인 오픈소스 VLM은?

 

  • LLaVA 1.6 (Hermes 34B) : 34억 개의 파라미터를 가진 모델, 고해상도 이미지(672x672)를 처리 지원
  • CogVLM-Chat : 대화형 기능과 이미지 내 객체 인식 기능 지원
  • Qwen-VL-Chat : 대화형 기능과 제로샷 객체 인식 기능을 지원
  • PaliGemma : 구글에서 공개한 경량화된 VLM
  • SmolVLM : HuggingFace가 공개한 경량 VLM
  • Aya Vision : Cohere에서 공개한 VLM. 23개 언어 지원 

이 외에도 많은 오픈소스 VLM들이 있고 또 새롭게 출시되고 있습니다. 

 

 

참고 자료

  • 블로그) Vision Language Models Explained (링크)
  • 블로그) VARCO-VISION : 동급 오픈소스 VLM 모델 중 한국어 1위 (엔씨리서치, 2024.12)