Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 실시간 렌더링
- 시간적 일관성
- 멀티모달
- 오픈AI
- TRANSFORMER
- 인공지능
- 다국어 지원
- LORA
- tts
- 확산 모델
- OpenCV
- AI
- 일론 머스크
- OpenAI
- 아두이노
- 휴머노이드 로봇
- 오블완
- 우분투
- 강화 학습
- 딥러닝
- 티스토리챌린지
- ChatGPT
- PYTHON
- 메타
- AI 기술
- 생성형 AI
- LLM
- 오픈소스
- 이미지 생성
- 트랜스포머
Archives
- Today
- Total
목록vision-language model (1)
AI 탐구노트

최근 몇 년간 텍스트-이미지 변환 확산 모델(Text-to-Image Diffusion Models)은 이미지 생성 기술의 새로운 기준을 정립하며 놀라운 성과를 보였습니다. 그러나 이러한 모델들은 사용자가 원하는 세밀한 제어와 편집 기능을 충분히 제공하지 못하는 한계를 가지고 있습니다. 예를 들어, 특정 캐릭터를 다양한 맥락에서 일관되게 유지하면서 생성하는 것은 여전히 해결해야 할 도전 과제입니다. 이러한 한계를 극복하기 위해 Diffusion Self-Distillation(DSD) 기법이 제안되었습니다. DSD는 기존의 확산 모델을 활용해 자체적으로 학습 데이터를 생성하고, 이를 기반으로 모델을 미세 조정하여 이미지 편집 및 생성 능력을 강화하는 방법입니다. 본 논문에서는 DSD를 이용해 제로샷(Ze..
AI 기술
2025. 3. 11. 23:34