AI 탐구노트

OmniHuman : 자연스러운 움직임을 만들어내는 애니메이션 생성 모델 본문

AI 기술

OmniHuman : 자연스러운 움직임을 만들어내는 애니메이션 생성 모델

42morrow 2025. 2. 6. 12:27

 

최근 몇 년 동안 인공지능(AI) 기반의 인간 애니메이션 기술이 급속도로 발전하고 있습니다. 특히 음성 기반의 얼굴 애니메이션 생성 기술은 가상 캐릭터, 디지털 아바타, 게임, 영화 산업 등 다양한 분야에서 활용되고 있습니다. 그러나 기존의 애니메이션 생성 기술은 대부분 제한적인 데이터셋을 활용하고 있어 현실적인 움직임을 생성하는 데 한계가 있었습니다.

 

세부적으로는 기존의 오디오 기반 애니메이션 생성 모델들은 다음과 같은 한계를 가지고 있었습니다.

  • 데이터 필터링 문제 : 
    오디오 기반 모델의 경우, 학습 데이터에서 배경 움직임, 조명 변화 등의 불필요한 요소를 제거해야 하는데, 이 과정에서 유용한 동작 데이터까지 손실되는 문제가 발생했습니다. 포즈 기반 모델의 경우, 특정한 촬영 환경에서 정적인 배경을 가진 데이터만을 활용해야 했기 때문에 일반적인 환경에서 적용하기 어려웠습니다.
  • 제한적인 입력 신호 활용 : 
    기존 모델들은 대부분 오디오나 포즈 중 하나만을 활용했기 때문에, 복잡한 움직임을 자연스럽게 표현하는 데 한계가 있었습니다. 예를 들어, 오디오 기반 모델은 입술 움직임과 얼굴 표정은 효과적으로 표현할 수 있지만, 몸 전체의 움직임을 조정하는 데 어려움을 겪었습니다.
  • 일반화 문제 : 
    기존 모델들은 특정 데이터셋에서만 잘 작동하도록 학습되었기 때문에, 새로운 환경이나 스타일의 영상에서는 성능이 저하되는 문제가 있었습니다. 그리고, 사람마다 다른 제스처 스타일을 반영하기 어렵고, 특정한 영상 비율이나 해상도에 최적화된 경우가 많았습니다.

 

OmniHuman - 자연스러운 움직임을 만들어내는 애니메이션 생성 모델

이러한 문제를 해결하기 위해 본 논문에서는 OmniHuman이라는 새로운 애니메이션 생성 모델을 제안되었습니다. OmniHuman은 Diffusion Transformer(DiT) 기반의 비디오 생성 모델로, 다양한 입력 조건(텍스트, 오디오, 포즈 등)을 혼합하여 학습하는 전략을 사용합니다. 이를 통해 기존 모델들이 학습 데이터 필터링 과정에서 버릴 수밖에 없었던 다양한 동작 데이터를 효과적으로 활용할 수 있습니다. 또한, 다양한 영상 스타일과 인체 비율(얼굴 클로즈업, 반신, 전신 등)에 유연하게 대응할 수 있으며, 오디오뿐만 아니라 포즈 데이터까지 활용하여 보다 자연스러운 움직임을 생성할 수 있습니다.

 

그림 : 오디오와 이미지만 가자고 OmniHuman을 이용해 생성한 비디오 프레임들 예시

 

OmniHuman의 접근 방식

OmniHuman은 위의 문제를 해결하기 위해 다양한 입력 조건을 조합하여 학습하는 전략(Omni-Conditions Training Strategy)을 도입했습니다. 이 방법의 핵심 원칙은 다음과 같습니다.

  • 여러 입력 조건을 함께 학습하면 기존 모델들이 버릴 수밖에 없었던 데이터를 효과적으로 활용할 수 있음
  • 더 강한 조건(포즈 등)은 더 낮은 비율로 학습하여 모델이 특정한 조건에 과도하게 의존하지 않도록 함
  • 텍스트, 오디오, 포즈 등 다양한 신호를 함께 사용하여 보다 자연스럽고 유연한 애니메이션을 생성

OmniHuman 핵심 개념

OmniHuman 모델의 핵심 개념을 정리하면 다음과 같습니다.

  • 기존 애니메이션 모델들의 한계를 극복하기 위해 다양한 조건을 결합하여 학습
  • 데이터 확장을 위한 새로운 학습 전략 도입
  • 보다 자연스러운 사람의 움직임과 제스처 표현 가능
  • 텍스트, 오디오, 포즈 등 여러 입력 신호를 혼합하여 활용 가능

OmniHuman 핵심 세부 기술 

그림 : OmniHuman 프레임워크

1) Diffusion Transformer(DiT) 기반 모델

OmniHuman은 Diffusion Transformer(DiT)를 기반으로 한 모델로, 기존의 GAN(생성적 적대 신경망)이나 단순한 LSTM 기반 모델보다 더 정교한 움직임을 생성할 수 있습니다.

  • Diffusion 모델 : 노이즈를 점진적으로 제거하면서 현실적인 영상을 생성하는 방식
  • Transformer 기반 : 영상의 시간적 연속성을 효과적으로 학습 가능

2) 멀티모달 학습(텍스트, 오디오, 포즈)

OmniHuman은 텍스트, 오디오, 포즈를 혼합하여 학습하는 방식을 사용합니다.

  • 텍스트 : 장면 설명을 기반으로 기본적인 움직임 방향 제공
  • 오디오 : 발음과 연동된 입술 움직임 및 제스처 학습
  • 포즈 : 보다 정밀한 신체 움직임 조정

3) 조건 혼합 학습(Omni-Conditions Training)

기존의 애니메이션 모델들은 특정 조건(예: 오디오)만을 학습했기 때문에 데이터 활용률이 낮았습니다. OmniHuman은 강한 조건(포즈)과 약한 조건(텍스트)을 조합하여 학습하는 전략을 사용하여 데이터를 최대한 활용할 수 있도록 설계되었습니다.


OmniHuman의 제약사항 

OmniHuman 모델은 기존 모델에 비해 뛰어난 성능을 보이지만, 다음과 같은 제약이 존재합니다.

  • 학습 데이터가 많을수록 성능이 향상되므로 대규모 데이터셋이 필요
  • 연산 비용이 크기 때문에 실시간 애니메이션 생성에는 다소 어려움
  • 너무 강한 조건(예: 포즈) 위주로 학습하면 모델이 특정한 입력 조건에 과도하게 의존할 가능성

 

OmniHuman은 기존 인간 애니메이션 모델들이 가지던 데이터 활용 문제를 해결하고, 보다 다양한 입력 조건을 조합하여 자연스러운 움직임을 생성할 수 있는 모델입니다.

  • 기존 모델보다 더 현실적인 얼굴 표정과 몸 전체의 움직임을 생성할 수 있으며,
  • 입력 영상의 비율이나 스타일에 구애받지 않고 유연하게 대응할 수 있습니다.
  • 다양한 학습 조건을 조합하는 새로운 학습 방식(Omni-Conditions Training)을 도입하여 기존 방식의 한계를 극복했습니다.

향후 연구에서는 연산 비용을 줄이면서도 모델의 성능을 유지하는 방법을 연구하거나, 더욱 다양한 입력 조건을 조합하는 방식이 개발될 수 있을 것입니다.


참고자료

  • OmniHuman 프로젝트 사이트 (링크)
  • OmniHuman 논문 (링크)

Q&A

 

Q. OmniHuman은 어떤 분야에서 활용될 수 있나요?

게임, 영화, 가상 아바타, 메타버스, AI 기반 콘텐츠 생성 등 다양한 분야에서 활용될 수 있습니다.

 

Q. 기존 오디오 기반 애니메이션 모델과의 가장 큰 차이점은 무엇인가요?

기존 모델은 입술 움직임과 얼굴 표정에만 초점을 맞췄지만, OmniHuman은 전신 움직임과 포즈까지 자연스럽게 조정할 수 있습니다.

 

Q. OmniHuman의 학습 데이터는 얼마나 많아야 하나요?

실험에서는 약 18,700시간의 인간 영상 데이터를 활용했으며, 데이터가 많을수록 모델의 성능이 향상됩니다.