AI 탐구노트

KDTalker : 음성 기반 고화질 인물 영상 생성 본문

AI 기술

KDTalker : 음성 기반 고화질 인물 영상 생성

42morrow 2025. 3. 29. 15:42

 

디지털 콘텐츠 제작 기술이 발전함에 따라, 단 한 장의 사진과 음성만으로 실제 사람처럼 자연스럽게 말하는 얼굴 영상을 생성하는 기술이 주목받고 있습니다. 이 기술은 가상현실(VR), 디지털 휴먼, 영화 및 게임 제작에 활용되며, 콘텐츠의 몰입감을 크게 향상시킬 수 있습니다. 특히 사람의 입 모양이 음성과 정확히 맞아떨어지고, 고개 움직임이나 표정 변화까지 자연스럽다면, 사람들은 인공지능 캐릭터를 실제 인물처럼 느끼게 됩니다.

 

하지만 지금까지의 연구는 주로 입 모양 동기화(lip-sync)에만 집중해 왔기 때문에, 고개 움직임이 거의 없거나 표정이 단조로운 영상이 생성되기 일쑤였습니다. 최근에는 입 모양뿐 아니라 고개 움직임, 눈동자 방향, 미세한 표정 변화까지 반영된 더 현실적인 얼굴 애니메이션이 요구되고 있습니다. 이를 위해 다양한 접근 방식이 제안되고 있지만, 여전히 정체성 유지, 영상 품질, 연산 속도 등에서 한계를 드러내고 있습니다.

 

이 글에서는 이러한 한계를 뛰어넘기 위해 제안된 새로운 프레임워크 KDTalker에 대해 소개하고자 합니다. 이 모델은 ‘암시적 3D 키포인트’와 ‘시공간 확산 모델(spatiotemporal diffusion model)’을 결합하여, 더 정밀하고 자연스러운 얼굴 영상을 생성할 수 있도록 설계되었습니다.

 

그림 : KDTalker 개요 (오디오+한장의 이미지로 말하는 생생한 영상)


KDTalker

1) 기존 방식의 문제점

기존의 얼굴 영상 생성 기술은 크게 두 가지 방식으로 나뉩니다:

  • 키포인트 기반 방식 : 얼굴의 주요 지점을 3D 모델로 정의하고, 이 지점들의 움직임을 예측하여 얼굴 영상을 생성합니다. (예) SadTalker
  • 이미지 기반 방식 : 전체 이미지를 직접 생성하는 방식으로, Stable Diffusion 같은 강력한 이미지 생성기를 활용합니다. (예) AniPortrait

키포인트 방식의 문제점

  • 입, 눈, 얼굴 윤곽 등 주요 지점만 다루기 때문에 세밀한 표정 표현이 어렵습니다.
  • 기존 3D 모델(3DMM)에 기반하여 고정된 지점만 사용하므로 유연성이 떨어집니다.
  • 기존 생성 모델(VAE, GAN)은 음성과 움직임의 인과관계를 학습하기에 한계가 있습니다.

이미지 방식의 문제점:

  • 고품질 이미지를 생성하긴 하지만 계산량이 많고 속도가 느립니다.
  • 영상 프레임 간 정체성(Identity)이 유지되지 않아, 인물이 일관되게 보이지 않을 수 있습니다.
  • 고개 움직임 같은 포즈 제어가 어렵습니다.

2) 접근 방식

KDTalker는 위 문제들을 동시에 해결하기 위해 새로운 조합을 시도합니다. 핵심은 다음 두 가지 기술입니다:

  • 암시적 3D 키포인트(Implicit 3D Keypoints) : 기존처럼 고정된 지점이 아니라, 얼굴에서 정보가 많은 부분을 중심으로 자동으로 키포인트를 추출합니다. 이렇게 하면 더 자연스럽고 세밀한 표정 표현이 가능해집니다.
  • 시공간 확산 모델(Spatiotemporal Diffusion Model) : 기존 확산 모델을 시간 축까지 확장하여, 음성과 얼굴 움직임 간의 인과관계를 정교하게 학습합니다. 이 덕분에 입 모양은 물론, 고개 움직임과 표정까지 자연스럽게 조화됩니다.

 

3) 아키텍처

아래 그림은 KDTalker는 주요 구성 요소로 Motion Extractor, Spatiotemporal Diffusion, Face Render가 있습니다. 아래 그림에서 보여진 아키텍처는, 음성과 이미지가 들어가면 먼저 얼굴 모양을 파악하고, 움직임을 예측한 뒤, 그걸 영상으로 바꾸는 전 과정을 차례대로 보여주고 있습니다. 

 

그림 : KDTalker 아키텍처

 

 

 

4) 세부 적용 기술

1️⃣ 암시적 키포인트 기반 변형

  • 기존 3DMM이 아닌 LivePortrait라는 기술을 활용해 자동으로 키포인트를 추출합니다.
  • 이 키포인트들은 고정되어 있지 않고, 얼굴 정보 밀도에 따라 유동적으로 배치되어 더 자연스러운 모션을 표현할 수 있습니다.

2️⃣ 시공간 확산 모델 구조

  • 음성 신호는 Wav2Lip 기반의 인코더를 통해 특징을 추출합니다.
  • 이 특징은 시간 축 정보와 함께 결합되어 확산 모델의 조건으로 사용됩니다.
  • 확산 모델은 점점 노이즈를 제거하며 얼굴의 모션 파라미터(회전, 이동, 확대, 표정)를 생성합니다.
  • 최종적으로 이 파라미터들은 얼굴 렌더링 모듈을 통해 영상으로 출력됩니다.

3️⃣ 시공간 어텐션 네트워크 (Spatiotemporal-Aware Attention)

  • 시간에 따른 얼굴의 자연스러운 움직임을 유지하기 위해, 각 프레임 간의 연속성과 공간적 일관성을 동시에 고려합니다.
  • RoPE(Rotary Position Embedding) 기법을 사용하여 시간 정보를 효율적으로 반영합니다.
  • 이 구조는 입 모양과 오디오의 정확한 싱크, 그리고 부드러운 고개 움직임에 중요한 역할을 합니다.

그림 : Spatiotemporal-Aware Attention의 구조

 

Spatial Attention : 얼굴의 어디를 움직여야 할 지를 알려줍니다. 예를 들어, '오~' 소리가 난다면 입술 주변이 중요하겠죠?
Temporal Attention : 시간 흐름에 따라 이전 프레임과 어떻게 연결할 지 알려줍니다. 즉, 앞뒤 움직임이 자연스럽게 이어지도록 합니다. 

 

4️⃣ Face Rendering (LivePortrait 기반)

  • 예측된 키포인트 정보를 기반으로, 원본 이미지의 외형을 유지하면서 얼굴이 말하는 영상을 생성합니다.
  • 기존의 Face-vid2vid보다 정체성 유지와 입 모양 표현에서 뛰어난 성능을 보여줍니다.

5) 제약사항

  • 고품질 결과를 위해 정확한 키포인트 추출이 필수적이며, 얼굴이 부분적으로 가려지거나 복잡한 표정을 가진 경우 품질 저하가 발생할 수 있습니다.
  • 실시간 생성은 가능하지만, 여전히 확산 모델 특성상 연산량이 높아 저사양 기기에서는 어려움이 있을 수 있습니다.

 

KDTalker는 음성에 맞춰 말하는 얼굴 영상을 고화질로 빠르게 생성할 수 있는 새로운 방식을 제시합니다. 기존 기술들의 문제점을 해결하고, 입 모양뿐 아니라 고개 움직임과 표정까지도 자연스럽게 표현함으로써 디지털 휴먼의 리얼리즘을 한층 높였습니다. 특히, 암시적 키포인트를 도입함으로써 기존 3D 모델의 한계를 뛰어넘고, 시공간 확산 모델을 적용하여 자연스럽고 몰입감 있는 결과물을 도출할 수 있었습니다.

 

예전에 전시회에서 가상 아바타가 주어진 텍스트를 읽어주는 데모를 본 적이 있었습니다. Wave2Lip 모델을 적용했다고 들었는데 제작되어 나온 영상은 괜찮아보였는데, 현장에서 진행할 때는 어딘지 모르게 어색한 부분들이 보였었습니다. KDTalker도 아직은 직접 돌려보진 못해서 모르겠지만 그보다는 훨씬 나아졌을 거라 기대해 봅니다. 

 

향후 키포인트 검출 정확도 개선과 얼굴 가림 상황 대응이 가능해진다면, 방송, 교육, 게임, 메타버스 등 다양한 분야에서 폭넓게 활용될 수 있을 것입니다.


참고자료

  • 논문) Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait (링크)
  • 코드) KDTalker github rep (링크)
  • 데모) Hugging Face 데모 (링크) - 이외에도 연구팀의 공식 사이트에서도 데모를 제공합니다. (링크)

그림 : HuggngFace 상의 데모 페이지


Q&A

Q. KDTalker는 기존 SadTalker와 어떤 점이 다르나요?

KDTalker는 SadTalker가 사용하는 고정된 3D 키포인트 대신, 더 유연하고 세밀한 암시적 키포인트를 사용하여 표정과 움직임 표현이 풍부합니다. 또한 확산 모델을 활용해 음성과의 동기화 성능도 향상됩니다.

 

Q. 확산 모델은 왜 사용되었나요?

기존 GAN이나 VAE는 입 모양과 음성의 관계를 잘 모델링하지 못했습니다. 확산 모델은 점진적인 생성 과정을 통해 세밀한 제어와 높은 품질을 동시에 가능하게 합니다.

 

Q. 실시간 구현도 가능한가요?

최적화된 구조와 DDIM 샘플링을 통해 21.6 FPS로 동작하며, 이는 사실상 실시간 구현이 가능한 속도입니다.