| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 오픈소스
- 확산 모델
- AI
- 강화학습
- 트랜스포머
- 음성합성
- 바이브코딩
- 오픈AI
- 자동화
- 멀티모달
- tts
- 오블완
- 메타
- ChatGPT
- 이미지 생성
- PYTHON
- XAI
- 일론 머스크
- 딥러닝
- 음성 인식
- AI 기술
- 우분투
- gaussian splatting
- OpenAI
- 생성형AI
- 감정 표현
- 티스토리챌린지
- 인공지능
- 이미지 편집
- LLM
- Today
- Total
목록Multimodal (3)
AI 탐구노트
VLM (Vision Language Model)이란?VLM은 Vision Language Model의 약자로, 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델입니다. 쉽게 말해, 사진을 보고 그 내용을 설명하거나, 텍스트를 바탕으로 이미지를 이해하고 질문에 답할 수 있는 기술이죠. 인간이 눈으로 보고 머리로 이해하는 것처럼, VLM은 시각 정보(이미지)와 언어 정보(텍스트)를 함께 학습해 다재다능하게 작동합니다. VLM 의 주요 특징은? 1️⃣ 이미지와 텍스트를 통합적으로 이해텍스트만 처리하는 언어 모델(예: GPT)과 달리, VLM은 이미지 속 객체, 장면, 행동 등을 분석할 수 있습니다.예) 사진 속 고양이를 보고 "이 동물은 무엇인가요?"라는 질문에 "고양이입니다"라고 답..
메타(Meta)는 최근 새로운 인공지능(AI) 모델 시리즈인 Llama 4를 발표했습니다. 이 시리즈는 Llama 4 Scout, Llama 4 Maverick, 그리고 아직 훈련 중인 Llama 4 Behemoth로 구성되어 있습니다. 이번 글에서는 간략하게 Llama 4 모델의 출시 소식을 정리해 보겠습니다. Llama 4의 모델 구성모델 이름총 파라미터 수활성 파라미터 수주요 특징Llama 4 Scout109B (1,090억)1.7B (17억)단일 H100 GPU에서 실행 가능, 1,000만 토큰 컨텍스트 윈도우 지원Llama 4 Maverick400B (4,000억)1.7B (17억)고성능 대형 모델, GPT-4o 수준의 성능, 추론 효율성 우수Llama 4 Behemoth2T (2조)288B (..
최근 몇 년 사이, 영화 제작, 게임, 증강현실(AR), 가상현실(VR), 휴머노이드 로봇 등 다양한 분야에서 사람의 움직임을 디지털로 재현하고 생성하는 기술이 주목받고 있습니다. 특히 인공지능의 발전과 함께 사람의 동작을 텍스트나 음악과 같은 다양한 조건으로부터 생성하는 기술이 현실로 다가오고 있습니다. 이러한 배경 속에서 'Motion Anything'이라는 모델은 한 발 더 나아가, 조건 기반 모션 생성의 새로운 패러다임을 제시하고 있습니다. 지금까지 대부분의 모션 생성 기술은 텍스트나 음악과 같은 한 가지 조건에만 기반해 동작을 만들어왔습니다. 하지만 현실 세계의 움직임은 단순한 단일 조건만으로 설명되기 어렵습니다. 예를 들어, 어떤 사람이 "왼손을 들며 음악 박자에 맞춰 걷는다"라는 행동을 한다..