Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 가상환경
- 인공지능
- 딥마인드
- AI
- javascript
- ChatGPT
- TRANSFORMER
- 아두이노
- ControlNet
- 서보모터
- 트랜스포머
- 티스토리챌린지
- 시간적 일관성
- 일론 머스크
- 생성형 AI
- 오블완
- OpenAI
- 오픈AI
- ubuntu
- 멀티모달
- LORA
- 확산 모델
- AI 기술
- 우분투
- LLM
- PYTHON
- 이미지 편집
- tts
- 뉴럴링크
- 메타
Archives
- Today
- Total
목록next-token prediction (1)
AI 탐구노트
Emu3 : 멀티모달 생성 및 인식하는 단일 트랜스포머모델
단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델 Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다. 이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 ..
AI 기술
2024. 10. 3. 10:28