Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- PYTHON
- 시간적 일관성
- tts
- 메타
- 뉴럴링크
- AI 기술
- 멀티모달
- 트랜스포머
- 확산 모델
- LORA
- 이미지 편집
- AI
- TRANSFORMER
- 일론 머스크
- ChatGPT
- 우분투
- OpenAI
- ubuntu
- 서보모터
- 가상환경
- 딥마인드
- javascript
- 오블완
- 티스토리챌린지
- 인공지능
- ControlNet
- LLM
- 오픈AI
- 생성형 AI
- 아두이노
Archives
- Today
- Total
목록포즈 및 이미지 참조 (1)
AI 탐구노트
V-Express : 다양한 제어신호가 반영된 초상화 영상 생성 모델
포즈, 오디오, 참조 이미지 등의 제어신호를 받아 대화형으로 초상화 영상을 생성하는 모델 초상화 비디오를 만드는 방법 가운데 하나로 단일 이미지에서 이어지는 여러 장면들을 생성하는 것이 있습니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작용하는 특징이 있는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것에 어려움이 있습니다. V-Express는 점진적인 드롭 작업을 통해, 비디오 생성 과정에서 다양한 제어 신호 간의 균형을 맞추기 위해 고안된 방법입니다. 약한 신호를 점진적으로 강화하며 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도..
AI 기술
2024. 8. 14. 21:16