AI 탐구노트

DreamActor-M1 : 하이브리드 제어로 구현한 정교하고 표현력 있는 사람 이미지 애니메이션 본문

AI 기술

DreamActor-M1 : 하이브리드 제어로 구현한 정교하고 표현력 있는 사람 이미지 애니메이션

42morrow 2025. 4. 6. 10:00

 

 

스마트폰 하나로도 고퀄리티의 영상 콘텐츠를 만들 수 있는 시대가 열리면서, 사람의 얼굴이나 몸동작을 애니메이션처럼 변환해주는 기술에 대한 관심이 커지고 있습니다. 예를 들어, 한 장의 얼굴 사진만으로 그 사람이 웃거나 말하는 것처럼 보이게 만들거나, 춤을 추게 만드는 기술이 그 예입니다. 이러한 기술은 광고나 영화 제작, 게임뿐 아니라 개인 콘텐츠 제작자들에게도 매우 매력적인 도구가 될 수 있습니다.

하지만 이런 애니메이션 기술은 아직 몇 가지 어려운 과제들을 안고 있습니다. 특히 문제는 세 가지로 나눌 수 있습니다. 첫째, 눈 깜빡임이나 입술 떨림 같은 미세한 움직임까지 자연스럽게 재현하기 어렵다는 점입니다. 둘째, 상반신만 있는 이미지부터 전신 이미지까지 다양한 스케일을 하나의 모델로 자연스럽게 다루는 것이 어렵습니다. 셋째, 한 장의 이미지를 가지고 긴 영상으로 이어붙일 경우 시간이 지남에 따라 자연스러움이 떨어지고 앞뒤 장면의 일관성이 사라지는 경우가 많습니다.

이러한 문제들을 해결하기 위해, 하이브리드 제어 시스템을 도입한 DreamActor-M1이라는 새로운 프레임워크가 제안되었습니다. 이 기술은 복합적인 제어 신호를 통해 얼굴 표정부터 몸 동작까지 정밀하게 애니메이션화하며, 다양한 해상도와 시간적 일관성을 동시에 만족시키는 진일보한 접근입니다.


DreamActor-M1

 

1) 기존 방식의 문제점

 

기존의 얼굴 애니메이션 기술은 대부분 얼굴의 특징점을 인식해서 움직임을 생성하거나, 3D 얼굴 모델을 기반으로 합니다. 하지만 이 방식은 해상도가 낮거나, 표정이 과장된 경우 정확도가 떨어지며, 전신 애니메이션에는 활용하기 어렵습니다.

 

또한 기존의 전신 애니메이션 기술은 인물의 몸을 뼈대처럼 단순화한 형태(스켈레톤)를 사용해 동작을 재현하는 경우가 많았고, 얼굴 표정은 대체로 무시되거나 정적인 형태로 처리됐습니다. 이로 인해 실감 나지 않고, 단조로운 결과가 발생하는 경우가 많았습니다.

무엇보다 하나의 사진으로 긴 영상을 만들 때는, 앞에서 보이지 않았던 옷의 뒷면이나 손 등의 영역에 대한 정보가 부족해 영상 전체의 품질이 떨어지기 쉽습니다. 이런 부분들을 채워줄 수 있는 보완 기술이 필요했습니다.

 

2) 접근 방식

 

DreamActor-M1은 이 모든 문제를 해결하기 위해 3가지 주요 기술을 통합한 프레임워크를 제안합니다.

  • 하이브리드 제어 신호 : 얼굴, 머리, 몸을 각각 다른 방식으로 정밀하게 제어하는 정보 구조를 도입했습니다. 이를 통해 각각의 요소를 독립적이면서도 자연스럽게 조절할 수 있게 했습니다.
  • 보완 참조 이미지 : 단일 이미지로 애니메이션을 만들 때 부족한 정보를 보완하기 위해, 여러 각도나 자세의 보조 이미지들을 생성하고 이를 모델에 추가로 입력하는 방식으로 정보 손실 문제를 해결했습니다.
  • 점진적 학습 전략 : 학습 과정에서도 간단한 제어부터 점점 복잡한 제어로 넘어가는 세 단계를 도입하여, 모델이 안정적으로 배우고 높은 품질의 결과를 만들어낼 수 있도록 했습니다.

3) 아키텍처

 

다음 그림은 DreamActor-M1의 다음과 같은 훈련 과정을 보여주고 있습니다. 

  • 입력으로 드라이빙 영상에서 얼굴, 머리, 몸의 움직임 정보를 추출합니다.
  • 이 정보들은 각각 다르게 인코딩되어 Pose Latent로 만들어지며 동시에 참조 이미지를 통해 외형 정보도 함께 인코딩됩니다.
  • 위 정보들은 DiT 블록이라는 AI 엔진에서 훈련되며 최종적으로 영상만들어진 영상 결과와의 유사도를 이용해 학습됩니다. 

그림 : 학습 단계에서의 전체 아키텍처

 

 

아래 그림은 추론 단계의 흐름으로 학습이 끝난 후 애니메이션이 만들어지는 과정을 보여 줍니다. 

  • 여러 각도의 참조 이미지를 생성해 부족한 정보를 보충합니다
  • 드라이빙 영상에서 얼굴 표정, 머리 방향, 몸 동작 정보를 추출합니다. 
  • 위 정보들을 이용해 AI 모델이 애니메이션 영상을 생성하게 됩니다. 

이 때 얼굴 표정과 몸 동작을 따로 제어할 수 있기 때문에 더 자연스럽고 정교한 결과물을 얻을 수 있습니다. 

 

그림 : 추론 단계에서의 처리 흐름

 


 

4) 세부 적용 기술

 

1️⃣ 암시적 얼굴 표현 (Implicit Facial Representations)

기존에는 얼굴의 눈, 코, 입 위치 등을 좌표로 표시해 표정을 만들었지만, 이 방식은 미묘한 표정 표현에는 한계가 있었습니다. DreamActor-M1은 이보다 한 단계 진보한 암시적 표현 방식을 사용합니다. 얼굴 이미지를 그대로 입력받아, 사람마다 다른 얼굴 특징과 표정을 잘 분리해서 인식할 수 있도록 합니다. 이를 통해 자연스러운 표정 변화와 개성 있는 얼굴 표현이 가능해집니다.

 

2️⃣ 3D 헤드 스피어 (3D Head Spheres)

표정 제어와는 별개로, 고개 돌림이나 기울기 같은 머리의 움직임3D 구형 모델(헤드 스피어)로 제어합니다. 이 구는 영상에서의 머리 방향과 크기를 나타내며, 애니메이션에서도 자연스러운 머리 회전을 표현하는 데 사용됩니다.

 

3️⃣ 3D 바디 스켈레톤 (3D Body Skeletons)

몸의 움직임은 3D 뼈대 정보를 사용해 제어합니다. 하지만 기존의 모델들과 달리, DreamActor-M1은 사람마다 다른 체형을 고려해 뼈 길이를 맞춰주는 비율 정규화 기술도 포함하고 있어, 더 자연스럽고 다양한 캐릭터 애니메이션이 가능합니다.

 

4️⃣ 보완 참조 프레임 (Complementary Appearance Guidance)

긴 영상 생성 시 정보가 부족한 부분을 채우기 위해, 다양한 각도의 프레임들을 선택해 보완 정보로 사용합니다. 예를 들어 정면 사진 하나만 있는 경우, 이 이미지로 다양한 각도의 영상을 먼저 생성한 뒤, 이 영상을 다시 입력해 전체 영상의 품질을 끌어올립니다.

 

5️⃣ 점진적 학습 전략 (Progressive Training)

학습 과정은 3단계로 나뉩니다.

  1. 얼굴 제어 없이 몸과 머리 동작만 먼저 학습
  2. 얼굴 제어 기능만 추가해서 집중 학습
  3. 모든 기능을 통합해 전체 최적화 진행

이러한 방식은 모델이 안정적으로 학습하면서도 높은 성능을 낼 수 있게 도와줍니다.

 

5) 제약사항

 

DreamActor-M1은 현재 카메라의 움직임이나 사물과의 상호작용까지는 다루지 못합니다. 또한 뼈대 비율 정규화 과정에서 일부 예외 케이스에서는 불안정한 결과가 나타날 수 있습니다. 이는 후속 연구를 통해 개선이 필요한 부분입니다.


DreamActor-M1은 사람의 얼굴과 몸을 매우 정밀하게 제어하며, 해상도나 영상 길이에 상관없이 자연스럽고 일관된 애니메이션을 만들어낼 수 있는 새로운 프레임워크입니다. 특히 얼굴 표정과 몸동작을 각각 독립적으로 제어하면서도 조화를 이뤄내는 기술은 향후 가상 인간, 영상 콘텐츠 제작, 게임 캐릭터 생성 등의 분야에서 큰 영향을 줄 수 있을 것입니다.

 

공개된 프로젝트 사이트 상의 데모 영상을 보면, 다양한 캐릭터와 모션 스타일을 지원하며 드라이빙 영상이 거의 완벽하게 재현되는 것을 볼 수 있습니다. 예전에 비디오 영상에서 얼굴만 살짝 바꿔서 영상을 만들어내던 초기의 딥페이크는 이젠 완전히 잊혀질 정도로 말이죠. 코드나 서비스가 공개될지는 모르겠지만 만약 그렇게 된다면 유튜브 영상 만드는데 꼭 한번 활용해 보고 싶습니다. 


 

 

참고자료

  • 사이트) DreamActor-M1 프로젝트 사이트 (링크)
  • 논문) DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance (링크)

Q&A

 

Q. DreamActor-M1은 어떤 입력을 받아 애니메이션을 만드나요?

하나 이상의 정지 이미지(참조 이미지)와 움직임을 담은 영상(드라이빙 영상)을 입력으로 받아 애니메이션을 생성합니다.

 

Q. 얼굴 표정 제어와 머리 회전 제어는 어떻게 다르게 처리되나요?

표정은 얼굴 이미지에서 추출한 암시적 표현으로 처리하고, 머리 회전은 3D 헤드 스피어로 별도로 제어하여 더 정밀한 제어가 가능합니다.

 

Q. 영상 길이가 길어지면 정보가 누락되는 문제는 어떻게 해결하나요?

중간중간 다른 시점의 이미지를 참조로 제공하는 보완 참조 프레임 기술을 통해, 정보 누락 문제를 보완합니다.