AI 탐구노트

Loopy : 오디오 입력으로 초상화 아바타 영상 생성 모델 본문

AI 기술

Loopy : 오디오 입력으로 초상화 아바타 영상 생성 모델

42morrow 2024. 9. 8. 15:21
오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델

 

Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다.

 

기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다. 

 

Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latents)으로 변환하는 audio-to-latents 모듈을 설계했습니다.

 

 

사진 : Loopy의 프레임워크 설명

 

 

사진 : Temporal Segment Module과 inter/intra-clip temporal layer 도식화

 

 

아키텍처는 Stable Diffusion 기반으로 구성되며, 이미지 시퀀스를 잠재 공간으로 변환하여 오디오, 모션 프레임, 참조 이미지 등을 통합한 조건화된 네트워크를 통해 영상 생성이 이루어집니다. 특히 inter-clip 모듈과 intra-clip 모듈이 각 클립 간의 모션과 클립 내에서의 모션을 각각 모델링해줍니다.

 

* Inter-clip 모듈 : 한 장면(clip) 안에서의 움직임을 다루는 모듈로, 해당 장면 내부에서 각 프레임 간 움직임을 매끄럽게 연결하는 역할 수행

* intra-clip 모듈 : 여러 장면들 사이에서의 움직임을 연결하는 모듈로, 여러 장면들 사이에서 전체적인 흐름을 부드럽게 이어지게 하는 역할 수행

 

 

 

Loopy에 적용된 기술 및 모델의 특징을 요약하면 다음과 같습니다. 

  • Inter-clip/Intra-clip 시간적 모듈
    영상의 각 클립 간 모션 정보를 더 길게 가져가 움직임의 연속성을 확보합니다.
  • Audio-to-Latents 모듈
    오디오 입력을 잠재변수로 변환해 오디오와 얼굴 움직임 간의 상관관계를 강화합니다.
  • 공간적 템플릿 불필요
    기존 방법들이 필요로 하던 얼굴 위치나 속도 레이어를 제거하여 더욱 자유로운 움직임 생성이 가능해졌습니다.
  • 자연스러운 움직임 학습
    5초 이상의 긴 시간 동안의 모션 패턴을 학습해, 눈 깜빡임 같은 세밀한 움직임도 자연스럽게 표현합니다.

 

참고) 프로젝트, 논문