일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 멀티모달
- 메타
- 딥마인드
- AI
- LORA
- 일론 머스크
- AI 기술
- TRANSFORMER
- 오픈AI
- ControlNet
- LLM
- 티스토리챌린지
- 트랜스포머
- 뉴럴링크
- tts
- 시간적 일관성
- 확산 모델
- ChatGPT
- ubuntu
- 생성형 AI
- 서보모터
- 오블완
- PYTHON
- 이미지 편집
- 가상환경
- javascript
- OpenAI
- 아두이노
- 우분투
- 인공지능
- Today
- Total
AI 탐구노트
Loopy : 오디오 입력으로 초상화 아바타 영상 생성 모델 본문
오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델
Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다.
기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다.
Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latents)으로 변환하는 audio-to-latents 모듈을 설계했습니다.
아키텍처는 Stable Diffusion 기반으로 구성되며, 이미지 시퀀스를 잠재 공간으로 변환하여 오디오, 모션 프레임, 참조 이미지 등을 통합한 조건화된 네트워크를 통해 영상 생성이 이루어집니다. 특히 inter-clip 모듈과 intra-clip 모듈이 각 클립 간의 모션과 클립 내에서의 모션을 각각 모델링해줍니다.
* Inter-clip 모듈 : 한 장면(clip) 안에서의 움직임을 다루는 모듈로, 해당 장면 내부에서 각 프레임 간 움직임을 매끄럽게 연결하는 역할 수행
* intra-clip 모듈 : 여러 장면들 사이에서의 움직임을 연결하는 모듈로, 여러 장면들 사이에서 전체적인 흐름을 부드럽게 이어지게 하는 역할 수행
Loopy에 적용된 기술 및 모델의 특징을 요약하면 다음과 같습니다.
- Inter-clip/Intra-clip 시간적 모듈
영상의 각 클립 간 모션 정보를 더 길게 가져가 움직임의 연속성을 확보합니다. - Audio-to-Latents 모듈
오디오 입력을 잠재변수로 변환해 오디오와 얼굴 움직임 간의 상관관계를 강화합니다. - 공간적 템플릿 불필요
기존 방법들이 필요로 하던 얼굴 위치나 속도 레이어를 제거하여 더욱 자유로운 움직임 생성이 가능해졌습니다. - 자연스러운 움직임 학습
5초 이상의 긴 시간 동안의 모션 패턴을 학습해, 눈 깜빡임 같은 세밀한 움직임도 자연스럽게 표현합니다.
'AI 기술' 카테고리의 다른 글
LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진 (0) | 2024.09.09 |
---|---|
Phi-3.5 : 온디바이스 용 멀티 모달 모델 (0) | 2024.09.09 |
Qwen2-VL : 이미지와 영상, 다국어 지원을 잘 하는 비전 언어 모델 (0) | 2024.09.08 |
LayerPano3D : 3D 파노라마 장면을 생성하는 프레임워크 (0) | 2024.09.08 |
OmniRe : 동적 객체 포함된 도시 장면 재구성 프레임워크 (0) | 2024.09.08 |