일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 생성형AI
- 딥러닝
- 시간적 일관성
- 일론 머스크
- 메타
- 인공지능
- AI 기술
- 휴머노이드 로봇
- AI
- 우분투
- 오블완
- 오픈AI
- ai 챗봇
- OpenAI
- 트랜스포머
- ubuntu
- tts
- 오픈소스
- 코딩
- 다국어 지원
- 멀티모달
- PYTHON
- LORA
- OpenCV
- XAI
- 확산 모델
- ChatGPT
- LLM
- 강화 학습
- 티스토리챌린지
- Today
- Total
AI 탐구노트
VLM (Vision Langunage Model) 정리 본문
VLM (Vision Language Model)이란?
VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다.
VLM 의 주요 특징은?
1️⃣ 이미지와 텍스트를 통합적으로 이해
텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.
예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답하거나, 사진을 설명해 달라는 요청에 "검은 고양이가 책상에 앉아 있어요"라고 말할 수 있습니다.
2️⃣ 다양한 작업 수행 가능
- 캡션 및 요약, 이미지 설명 : 사진을 보고 내용 설명
- 시각적 질문 답변 (VQA) : 이미지와 관련된 질문에 답변
- 텍스트 기반 이미지 검색 : '해변에서 일몰' 같은 설명을 바탕으로 관련 이미지 검색 지원
- 이미지 생성 지원 : 일부 VLM은 텍스트를 바탕으로 이미지를 만들거나 수정 지원
- 문서 이해 : 문서 이미지에서 정보를 추출하고 이해
- 이미지 기반 대화 : 이미지를 기반으로 대화를 진행
3️⃣ 학습 방식
VLM은 대량의 이미지-텍스트 쌍 데이터로 훈련됩니다. 예를 들어, 인터넷에서 사진과 그 사진에 달린 캡션(설명)을 학습해 이미지와 텍스트 간의 연결을 이해합니다. 이를 통해 '강아지'라는 단어와 강아지 사진을 연결 짓는 식으로 학습합니다.
VLM의 기본 구조는?
VLM은 텍스트와 이미지를 동시에 처리할 수 있도록 설계된 구조를 이용합니다.
- 입력 : 시각적 데이터 (이미지)와 텍스트 데이터 등
- 출력 : 텍스트 설명(프롬프트), 시각적 질문에 대한 답변, 텍스트 프롬프트를 기반으로 생성된 이미지 등
- 모델 아키텍처
- 이미지 인코더 : 이미지에서 특징을 추출하는 역할을 합니다.
- 멀티모달 프로젝터 : 이미지와 텍스트의 특징을 동일한 공간으로 변환하여 결합합니다.
- 텍스트 디코더 : 결합된 정보를 바탕으로 텍스트를 생성합니다.
예를 들어 LLaVA 모델의 경우, CLIP 이미지 인코더, 멀티모달 프로젝터, Vicuna 텍스트 디코더로 구성되어 있습니다.
VLM의 장점과 한계
🦾 장점
- 이미지와 텍스트를 동시에 처리해 더 풍부한 정보를 제공
- 다양한 분야에서 활용 가능(교육, 의료, 엔터테인먼트 등)
- 인간처럼 직관적으로 시각과 언어를 연결
🚧 한계
- 아직 완벽하지 않으며 복잡한 이미지나 모호한 질문에서는 오류를 낼 수 있음
- 대량의 데이터와 컴퓨터 자원이 필요해 학습과 실행 비용이 큼
- 편향된 데이터로 학습하면 잘못된 결과를 낼 가능성(예: 특정 문화나 성별에 치우친 답변)이 있음
VLM의 예시와 사용 사례
VLM은 실생활에서 다음과 같은 다양한 분야에서 이미 활용되고 있습니다.
- 일상생활
- 스마트폰 카메라로 찍은 음식 사진을 보고 '이 요리는 뭐예요?'라고 물으면 VLM이 '파스타입니다'라고 답변하는 앱
- SNS에서 사진에 자동으로 캡션을 생성하거나, 시각 장애인을 위해 이미지 설명을 제공
- 산업 및 전문 분야
- 의료 : 엑스레이 이미지를 보고 이상 부위를 설명하거나 의사에게 도움 제공
- 교육 : 교과서의 그림을 보고 학생의 질문에 답하거나 학습 자료를 생성
- 전자상거래 : "파란 드레스"라는 설명으로 관련 상품 이미지를 추천
대표적인 오픈소스 VLM은?
- LLaVA 1.6 (Hermes 34B) : 34억 개의 파라미터를 가진 모델, 고해상도 이미지(672x672)를 처리 지원
- CogVLM-Chat : 대화형 기능과 이미지 내 객체 인식 기능 지원
- Qwen-VL-Chat : 대화형 기능과 제로샷 객체 인식 기능을 지원
- PaliGemma : 구글에서 공개한 경량화된 VLM
- SmolVLM : HuggingFace가 공개한 경량 VLM
- Aya Vision : Cohere에서 공개한 VLM. 23개 언어 지원
이 외에도 많은 오픈소스 VLM들이 있고 또 새롭게 출시되고 있습니다.
참고 자료
'AI 기술' 카테고리의 다른 글
Parakeet TDT 0.6B : NVIDIA, 영문 지원 잘하는 오픈소스 ASR 모델 공개 (0) | 2025.05.11 |
---|---|
자신만의 폰트 제작 - 1) 폰트 제작 과정과 필요성 (0) | 2025.05.09 |
Voila: 실시간 자율형 음성 AI를 위한 새로운 음성-언어 모델의 등장 (0) | 2025.05.07 |
T2I-R1 : 2단계 (Semantic/Token) 레벨 CoT로 이미지 생성 성능을 강화 (0) | 2025.05.06 |
Spatial Speech Translation : 실시간+감정표현이 가능한 공간 인식 기반 다중 화자 음성 번역 기술 (0) | 2025.05.05 |