일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 인공지능
- 이미지 생성
- 우분투
- 딥러닝
- 아두이노
- 메타
- 일론 머스크
- OpenAI
- LLM
- 오블완
- AI
- ChatGPT
- LORA
- 시간적 일관성
- PYTHON
- 멀티모달
- 다국어 지원
- 휴머노이드 로봇
- OpenCV
- tts
- 트랜스포머
- 확산 모델
- 실시간 렌더링
- TRANSFORMER
- AI 기술
- 강화 학습
- 생성형 AI
- 티스토리챌린지
- 오픈AI
- 오픈소스
- Today
- Total
목록제로샷 학습 (2)
AI 탐구노트

최근 몇 년간 텍스트-이미지 변환 확산 모델(Text-to-Image Diffusion Models)은 이미지 생성 기술의 새로운 기준을 정립하며 놀라운 성과를 보였습니다. 그러나 이러한 모델들은 사용자가 원하는 세밀한 제어와 편집 기능을 충분히 제공하지 못하는 한계를 가지고 있습니다. 예를 들어, 특정 캐릭터를 다양한 맥락에서 일관되게 유지하면서 생성하는 것은 여전히 해결해야 할 도전 과제입니다. 이러한 한계를 극복하기 위해 Diffusion Self-Distillation(DSD) 기법이 제안되었습니다. DSD는 기존의 확산 모델을 활용해 자체적으로 학습 데이터를 생성하고, 이를 기반으로 모델을 미세 조정하여 이미지 편집 및 생성 능력을 강화하는 방법입니다. 본 논문에서는 DSD를 이용해 제로샷(Ze..

SA-DVAE는 분리 변이 오토인코더(Disentangled Variational Autoencoders)를 활용하여 스켈레톤 기반 제로샷 액션 인식을 개선하는 모델입니다. 기존 제로샷 스켈레톤 기반 액션 인식 방법은 스켈레톤 특징과 텍스트 임베딩을 동일한 잠재 공간으로 정렬합니다. 그러나, 스켈레톤 데이터는 다양한 시퀀스를 포함하고 있지만 텍스트 임베딩은 고정된 클래스 레이블로 이뤄져 있어, 두 모달리티 사이에 불균형이 발생할 수 있다는 문제가 있습니다. SA-DVAE는 스켈레톤 특징을 의미 관련 부분과 무관한 부분으로 분리하여 의미 있는 스켈레톤 특징과 텍스트 특징을 보다 잘 정렬하는 방법을 사용하여 데이터 불균형 문제를 해결하고 일반화 능력을 향상시킵니다. 두 개의 모달리티 특화 변이 오토인코더..