Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- AI 기술
- 우분투
- 메타
- 오블완
- 오픈AI
- 멀티모달
- 아두이노
- ControlNet
- 트랜스포머
- 확산 모델
- 생성형 AI
- LLM
- AI
- 서보모터
- 뉴럴링크
- OpenAI
- LORA
- tts
- 시간적 일관성
- TRANSFORMER
- 가상환경
- ChatGPT
- 인공지능
- 딥마인드
- PYTHON
- 일론 머스크
- ubuntu
- 이미지 편집
- 티스토리챌린지
- javascript
Archives
- Today
- Total
AI 탐구노트
V-Express : 다양한 제어신호가 반영된 초상화 영상 생성 모델 본문
포즈, 오디오, 참조 이미지 등의 제어신호를 받아 대화형으로 초상화 영상을 생성하는 모델
초상화 비디오를 만드는 방법 가운데 하나로 단일 이미지에서 이어지는 여러 장면들을 생성하는 것이 있습니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작용하는 특징이 있는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것에 어려움이 있습니다.
V-Express는 점진적인 드롭 작업을 통해, 비디오 생성 과정에서 다양한 제어 신호 간의 균형을 맞추기 위해 고안된 방법입니다. 약한 신호를 점진적으로 강화하며 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도 포즈나 이미지의 영향이 잘 반영된 초상화 비디오를 효과적으로 생성할 수 있게 됩니다.
'AI 기술' 카테고리의 다른 글
Slicedit (0) | 2024.08.14 |
---|---|
Octopus v2 (0) | 2024.08.14 |
Tender (0) | 2024.08.14 |
구글 딥마인드, 사람 수준의 탁구 로봇 에이전트 공개 (0) | 2024.08.14 |
Florence-2 (0) | 2024.08.14 |