Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 오블완
- TRANSFORMER
- tts
- 일론 머스크
- 멀티모달
- 뉴럴링크
- ControlNet
- 우분투
- LORA
- 아두이노
- OpenAI
- 티스토리챌린지
- 이미지 편집
- 인공지능
- 생성형 AI
- javascript
- 딥마인드
- LLM
- PYTHON
- 확산 모델
- 트랜스포머
- 오픈AI
- ChatGPT
- 가상환경
- ubuntu
- 메타
- AI 기술
- 시간적 일관성
- 서보모터
- AI
Archives
- Today
- Total
목록포즈 및 이미지 참조 (1)
AI 탐구노트
V-Express : 다양한 제어신호가 반영된 초상화 영상 생성 모델
포즈, 오디오, 참조 이미지 등의 제어신호를 받아 대화형으로 초상화 영상을 생성하는 모델 초상화 비디오를 만드는 방법 가운데 하나로 단일 이미지에서 이어지는 여러 장면들을 생성하는 것이 있습니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작용하는 특징이 있는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것에 어려움이 있습니다. V-Express는 점진적인 드롭 작업을 통해, 비디오 생성 과정에서 다양한 제어 신호 간의 균형을 맞추기 위해 고안된 방법입니다. 약한 신호를 점진적으로 강화하며 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도..
AI 기술
2024. 8. 14. 21:16