Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 딥러닝
- LORA
- OpenCV
- 확산 모델
- AI 기술
- 시간적 일관성
- 우분투
- 트랜스포머
- OpenAI
- PYTHON
- 휴머노이드 로봇
- 생성형 AI
- 오픈AI
- 티스토리챌린지
- 오블완
- AI
- TRANSFORMER
- 메타
- 인공지능
- ubuntu
- 오픈소스
- 강화 학습
- 아두이노
- tts
- LLM
- Stable Diffusion
- 멀티모달
- ChatGPT
- 다국어 지원
- 일론 머스크
Archives
- Today
- Total
목록멀티모달 생성 (1)
AI 탐구노트

Transfusion은 텍스트와 이미지를 하나의 멀티모달 모델로 통합하여 예측하고 생성할 수 있는 모델입니다. 기존의 방식은 텍스트와 이미지와 같은 이산적(텍스트) 및 연속적(이미지) 데이터를 통합하여 생성하는 데 어려움이 있었으며, 각각의 생성 모델을 독립적으로 사용해야 했기 때문에 비효율적이었습니다. Transfusion은 하나의 Transformer 모델을 사용해 텍스트와 이미지를 동시에 처리합니다. 텍스트는 언어 모델링 손실, 이미지는 확산 모델링 손실을 적용하며, 양쪽에 서로 다른 경량화된 모듈을 추가하여 효율성을 높였습니다. 또한 텍스트와 이미지를 처리하는 데 있어 각각 인과적 주의(Causal Attention)와 양방향 주의(Bidirectional Attention)를 결합한 Trans..
AI 기술
2024. 10. 10. 10:33