VLM (Vision Langunage Model) 정리

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

VLM (Vision Langunage Model) 정리 본문

AI 기술

VLM (Vision Langunage Model) 정리

42morrow 2025. 5. 8. 10:05

728x90

VLM (Vision Language Model)이란?

VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다.

VLM 의 주요 특징은?

1️⃣ 이미지와 텍스트를 통합적으로 이해

텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.

예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답하거나, 사진을 설명해 달라는 요청에 "검은 고양이가 책상에 앉아 있어요"라고 말할 수 있습니다.

2️⃣ 다양한 작업 수행 가능

캡션 및 요약, 이미지 설명 : 사진을 보고 내용 설명
시각적 질문 답변 (VQA) : 이미지와 관련된 질문에 답변
텍스트 기반 이미지 검색 : '해변에서 일몰' 같은 설명을 바탕으로 관련 이미지 검색 지원
이미지 생성 지원 : 일부 VLM은 텍스트를 바탕으로 이미지를 만들거나 수정 지원
문서 이해 : 문서 이미지에서 정보를 추출하고 이해
이미지 기반 대화 : 이미지를 기반으로 대화를 진행

3️⃣ 학습 방식

VLM은 대량의 이미지-텍스트 쌍 데이터로 훈련됩니다. 예를 들어, 인터넷에서 사진과 그 사진에 달린 캡션(설명)을 학습해 이미지와 텍스트 간의 연결을 이해합니다. 이를 통해 '강아지'라는 단어와 강아지 사진을 연결 짓는 식으로 학습합니다.

VLM의 기본 구조는?

VLM은 텍스트와 이미지를 동시에 처리할 수 있도록 설계된 구조를 이용합니다.

입력 : 시각적 데이터 (이미지)와 텍스트 데이터 등
출력 : 텍스트 설명(프롬프트), 시각적 질문에 대한 답변, 텍스트 프롬프트를 기반으로 생성된 이미지 등
모델 아키텍처
- 이미지 인코더 : 이미지에서 특징을 추출하는 역할을 합니다.
- 멀티모달 프로젝터 : 이미지와 텍스트의 특징을 동일한 공간으로 변환하여 결합합니다.
- 텍스트 디코더 : 결합된 정보를 바탕으로 텍스트를 생성합니다.

예를 들어 LLaVA 모델의 경우, CLIP 이미지 인코더, 멀티모달 프로젝터, Vicuna 텍스트 디코더로 구성되어 있습니다.

VLM의 장점과 한계

🦾 장점

이미지와 텍스트를 동시에 처리해 더 풍부한 정보를 제공
다양한 분야에서 활용 가능(교육, 의료, 엔터테인먼트 등)
인간처럼 직관적으로 시각과 언어를 연결

🚧 한계

아직 완벽하지 않으며 복잡한 이미지나 모호한 질문에서는 오류를 낼 수 있음
대량의 데이터와 컴퓨터 자원이 필요해 학습과 실행 비용이 큼
편향된 데이터로 학습하면 잘못된 결과를 낼 가능성(예: 특정 문화나 성별에 치우친 답변)이 있음

VLM의 예시와 사용 사례

VLM은 실생활에서 다음과 같은 다양한 분야에서 이미 활용되고 있습니다.

일상생활
- 스마트폰 카메라로 찍은 음식 사진을 보고 '이 요리는 뭐예요?'라고 물으면 VLM이 '파스타입니다'라고 답변하는 앱
- SNS에서 사진에 자동으로 캡션을 생성하거나, 시각 장애인을 위해 이미지 설명을 제공
산업 및 전문 분야
- 의료 : 엑스레이 이미지를 보고 이상 부위를 설명하거나 의사에게 도움 제공
- 교육 : 교과서의 그림을 보고 학생의 질문에 답하거나 학습 자료를 생성
- 전자상거래 : "파란 드레스"라는 설명으로 관련 상품 이미지를 추천

대표적인 오픈소스 VLM은?

LLaVA 1.6 (Hermes 34B) : 34억 개의 파라미터를 가진 모델, 고해상도 이미지(672x672)를 처리 지원
CogVLM-Chat : 대화형 기능과 이미지 내 객체 인식 기능 지원
Qwen-VL-Chat : 대화형 기능과 제로샷 객체 인식 기능을 지원
PaliGemma : 구글에서 공개한 경량화된 VLM
SmolVLM : HuggingFace가 공개한 경량 VLM
Aya Vision : Cohere에서 공개한 VLM. 23개 언어 지원

이 외에도 많은 오픈소스 VLM들이 있고 또 새롭게 출시되고 있습니다.

참고 자료

블로그) Vision Language Models Explained (링크)
블로그) VARCO-VISION : 동급 오픈소스 VLM 모델 중 한국어 1위 (엔씨리서치, 2024.12)

'AI 기술' 카테고리의 다른 글

Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개 (0)	2025.05.11
자신만의 폰트 제작 - 1) 폰트 제작 과정과 필요성 (0)	2025.05.09
Voila: 실시간 자율형 음성 AI를 위한 새로운 음성-언어 모델의 등장 (0)	2025.05.07
T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화 (0)	2025.05.06
Spatial Speech Translation : 실시간+감정표현이 가능한 공간 인식 기반 다중 화자 음성 번역 기술 (0)	2025.05.05

'AI 기술' Related Articles

AI 탐구노트

VLM (Vision Langunage Model) 정리 본문

VLM (Vision Langunage Model) 정리

VLM (Vision Language Model)이란?

VLM 의 주요 특징은?

VLM의 기본 구조는?

VLM의 장점과 한계

VLM의 예시와 사용 사례

대표적인 오픈소스 VLM은?

참고 자료

'AI 기술' 카테고리의 다른 글

티스토리툴바