AI 탐구노트

MTVCrafter : 4D 모션 토큰을 활용한 오픈월드 인간 이미지 애니메이션 기술 본문

AI 기술

MTVCrafter : 4D 모션 토큰을 활용한 오픈월드 인간 이미지 애니메이션 기술

42morrow 2025. 5. 21. 10:36

 

 

가상 인간 혹은 아바타 기술의 등장은 엔터테인먼트, 가상 피팅, 메타버스 등 다양한 산업에서 새로운 가능성을 열어주고 있습니다. 이와 함께 인간 이미지를 이용한 애니메이션 기술도 영상, 게임, 아바타 등에서 서서히 옵션이 아니라 필수적인 요소로 자리잡아 가고 있는 것 같습니다. 정지 이미지를 생생한 동작 영상으로 변환하는 기술도 그만큼 주목받고 있죠. 하지만 기존의 대부분의 애니메이션 생성 기술은 2D 포즈 이미지를 기반으로 하기 때문에 3D 정보가 손실되고 복잡한 동작을 재현하는 데에 한계를 지니고 있었습니다. 

최근 인공지능 분야에서는 모션 생성 기술이 진화하면서, 1D 또는 3D 데이터를 토큰화하고 이를 기반으로 생성 모델에 입력하는 방식이 주목받고 있습니다. 이런 흐름 속에서 MTVCrafter라는 새로운 접근법이 제안되었습니다. 이 기술은 2D 포즈 이미지를 사용하는 기존 방식의 한계를 넘어서기 위해 3차원 인체 동작을 시간 축까지 포함한 4D 형태로 토큰화하고, 이를 활용해 더욱 정교하고 유연한 애니메이션을 생성할 수 있도록 설계되었습니다.


MTVCrafter

1) 기존 방식의 문제점


기존의 인간 이미지 애니메이션 기법들은 대부분 입력 비디오로부터 추출한 2D 포즈 이미지를 사용하여, 이를 기준으로 대상 이미지에 움직임을 입히는 방식을 사용합니다. 하지만 이러한 2D 기반 접근은 다음과 같은 주요 한계를 가지게 됩니다. 

  • 3D 정보의 손실 : 2D 포즈는 단순한 구조적 정보만을 제공하며, 실제 공간에서의 깊이감이나 정교한 동작의 물리적 연속성을 담지 못합니다.
  • 픽셀 수준 정렬 강제 : 2D 포즈 이미지와 대상 이미지 간의 위치나 크기가 다를 경우, 픽셀 단위로 복사하듯이 동작을 모사하기 때문에 왜곡이 발생하거나 움직임이 부자연스럽게 보입니다.

이러한 문제로 인해 기존 모델은 복잡한 동작(예: 체조, 격투)이나 다양한 캐릭터(예: 초현실적 비율의 캐릭터)에 대한 일반화 성능이 낮습니다.


2) 접근 방식


MVTCrafter는 위 문제를 해결하기 위해 다음과 같은 새로운 접근 방식을 도입하였습니다. 

  • 4D 모션 토큰화(4DMoT) : 기존의 3D 인간 모션 데이터를 시간축까지 포함하여 4차원 시공간 데이터로 구성하고, 이를 벡터 양자화를 통해 '모션 토큰'으로 압축. 이 과정은 포즈 렌더링 없이도 정교한 움직임 정보를 보존하며, 보다 유연(특정 데이터 조건에 과도하게 의존하지 않고 다양한 상황에 활용 가능)하고 강인한(외부 조건이 조금씩 바뀌더라도 품질을 떨어뜨리지 않고 안정적으로 작동) 애니메이션 제어가 가능합니다.
  • MV-DiT (Motion-aware Video Diffusion Transformer) : 기존의 영상 생성 방식 중 성능이 뛰어난 Diffusion Transformer 아키텍처에 4D 모션 정보를 효과적으로 통합하기 위해 특별한 '모션 어텐션' 구조를 설계. 이를 통해 모션 토큰이 시각 토큰과 상호작용하며, 모션 의미를 잘 반영한 고품질 애니메이션을 생성합니다.

그림 : 기존 방식과 MTVCrafter의 모션 표현 방식 비교

 


3) 세부 적용 기술


1️⃣ 4D 모션 토크나이저 (4DMoT)

  • 핵심 개념 : 3D 인체 모델(SMPL)의 관절 위치 정보를 시간 축을 포함하여 4차원 데이터로 구성한 후, 벡터 양자화를 통해 '모션 토큰'으로 변환하는 기술
  • 작동 원리 : SMPL 포즈 데이터를 프레임 수 × 관절 수 × (X,Y,Z) 형태로 변환 → 2D Convolution 기반 인코더로 압축 → 학습된 코드북에 기반해 벡터 양자화 → 디코더를 통해 원본 모션 복원 가능
  • 기술적 장점 : 기존 2D 이미지 기반보다 더 많은 시공간 정보를 보존하며, 모션 표현력이 풍부하고 일반화 능력이 뛰어남

그림 : 4D 모션 토크나이저 구조 (4DMoT)

 

 

2️⃣ 모션 인식형 비디오 디퓨전 트랜스포머 (MV-DiT)

  • 4D 모션 어텐션 : 시각 정보(zvision)와 모션 토큰(zmotion)을 입력으로 하여 트랜스포머 블록 내에서 쿼리(Q)-키(K)-밸류(V) 구조로 상호작용시킴. 모션 토큰에는 시간 및 공간 좌표 기반의 RoPE(Position Encoding)를 적용하여 시공간 정보를 명확히 인식
  • 4D 위치 인코딩(RoPE) : 기존 3D RoPE에 시간 정보를 더한 4D 버전. (t, x, y, z) 좌표에 기반한 위치 인코딩을 사용하여 각 토큰의 상대적 위치 정보를 학습에 반영
  • 참조 이미지 유지 전략 : 별도의 네트워크 없이 참조 이미지를 반복 & 병합하여 Vision Token과 함께 처리. 이는 간단하면서도 정체성 보존에 효과적임

그림 : MV-DiT 아키텍처와 4D 모션 어텐션

 

구성 요소 각각이 하는 역할을 요약하면 다음과 같이 설명할 수 있습니다. 

구성요소 하는 일 비유 설명
MV-DiT 비디오를 생성하는 뇌 입력을 바탕으로 영상을 그려내는 역할
4D 모션 토큰 움직임을 숫자로 압축한 정보 '이렇게 움직여야 해!'라는 지시서의 역할
4D 모션 어텐션 시각 정보에 움직임을 더함 그림 그릴 때 옆에서 자세히 알려주는 조수의 역할
4D 위치 인코딩 (RoPE) 시간+공간 정보 위치표시 언제, 어디서 어떤 동작인지 정확하게 지정하는 역할

 

 

MV-DiT (Motion-aware Video Diffusion Transformer) : 사람의 이미지에 애니메이션을 입히는 ‘스마트 비디오 생성기’
RoPE (Rotary Position Embedding) : Transformer 모델에서 위치 정보를 표현하는 방법. 이때 회전(rotation)을 이용한 위치 표현 방식을 사용하는데 이는 입력 벡터에 삼각함수를 이용한 회전 연산을 적용해서 각 위치의 상대적 거리나 순서를 효과적으로 표현함

 

 

3️⃣ 모션 인식형 Classifier-Free Guidance (CFG)

  • 기존 CFG : 일반적으로 텍스트나 이미지 조건에 기반하여 생성 모델의 제어력을 조절
  • 논문 적용 방식 : 모션 토큰에 자연스러운 무조건 입력(c∅)이 존재하지 않기 때문에, 학습 가능한 모션 토큰을 무조건 조건으로 사용

이를 통해 조건 없는 생성과 조건 기반 생성을 동시에 학습하며 이 덕분에 더 강인한 생성이 가능해 집니다.

 

Classifier-Free Guidance(CFG) : 디퓨전 모델이 ‘원하는 대로’ 이미지를 생성하도록 유도하는 방법으로 조건을 주고 얼마나 강하게 반영할지 조절하는 역할을 수행합니다. 즉, 그림을 그리는 AI에게 '지시를 얼마나 따를지' 알려주는 스위치가 되며 이를 통해 조건없는 더 자연스러운 결과를 생성하고 세기 조절이 가능하며 처음보는 모션이나 캐릭터에도 잘 적용할 수 있게 됩니다.

MTVCrafter는 인간 이미지 애니메이션 분야에서 중요한 전환점을 제시하는 기술입니다. 기존의 2D 포즈 이미지 기반 접근이 갖는 한계를 극복하기 위해, 3D 모션을 시간 축까지 확장한 4D 데이터로 변환하여 이를 효과적으로 활용할 수 있는 새로운 프레임워크를 제안했습니다. 

특히, 4D 모션 토큰화(4DMoT)는 더 정교한 시공간 정보를 학습 가능하게 하며, 디퓨전 기반의 비디오 생성 트랜스포머(MV-DiT)와 결합되어 실제와 유사한 모션을 보다 자연스럽게 표현할 수 있습니다. 이로 인해 다양한 캐릭터와 복잡한 동작을 다룰 수 있는 일반화 능력이 크게 향상될 수 있습니다. 

실생활 적용 시에는 가상 모델링, 애니메이션 제작, 게임 및 메타버스 캐릭터 생성, 의료 또는 교육용 시뮬레이션 등과 같은 분야에서 활용될 수 있습니다.


 

참고자료

  • 사이트) MTVCrafter 프로젝트 사이트 (링크)
  • 논문) MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation (링크)
  • 코드) MTVCrafter Github 저장소 (링크)

Q&A

 

Q. 기존의 2D 기반 방법보다 4D 모션 토큰이 가지는 장점은 무엇인가요?

4D 모션 토큰은 시간과 공간 정보를 동시에 반영하여 복잡한 동작을 보다 자연스럽고 정밀하게 표현할 수 있습니다. 반면 2D 기반은 깊이나 움직임의 연속성을 충분히 반영하지 못합니다.

Q. MTVCrafter는 어떤 데이터 기반으로 학습되었나요?

주로 고품질 댄스 영상 클립(약 30,000개)에서 추출한 SMPL 기반 3D 관절 데이터를 시간축을 포함하여 정제하고, 이를 벡터 양자화를 통해 모션 토큰으로 활용합니다.

Q. 손 동작이나 특이체형 캐릭터에 대한 개선 가능성은 있나요?

현재는 제한이 있지만, 고해상도 손 모션 데이터나 비정형 캐릭터를 포함하는 학습 데이터셋을 추가하면 개선될 수 있으며, 향후 연구 과제로 제시됩니다.