Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 오픈AI
- 다국어 지원
- AI
- 인공지능
- LORA
- Stable Diffusion
- tts
- OpenAI
- 우분투
- AI 기술
- OpenCV
- 생성형 AI
- 일론 머스크
- ChatGPT
- 확산 모델
- 멀티모달
- PYTHON
- 휴머노이드 로봇
- 강화 학습
- 아두이노
- 메타
- 시간적 일관성
- 오픈소스
- 오블완
- ubuntu
- 트랜스포머
- 딥러닝
- 티스토리챌린지
- LLM
- TRANSFORMER
Archives
- Today
- Total
목록토큰예측 (1)
AI 탐구노트

단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델 Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다. 이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 ..
AI 기술
2024. 10. 3. 10:28