Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 우분투
- 시간적 일관성
- TRANSFORMER
- PYTHON
- 일론 머스크
- 멀티모달
- 오픈AI
- LLM
- 티스토리챌린지
- AI
- 확산 모델
- 인공지능
- tts
- 아두이노
- 휴머노이드 로봇
- 오픈소스
- ubuntu
- 강화 학습
- OpenAI
- 메타
- Stable Diffusion
- 생성형 AI
- 딥러닝
- 다국어 지원
- 오블완
- 트랜스포머
- LORA
- AI 기술
- OpenCV
- ChatGPT
Archives
- Today
- Total
목록비디오생성 (1)
AI 탐구노트

단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델 Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다. 이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 ..
AI 기술
2024. 10. 3. 10:28