AI 탐구노트

ACTalker : 오디오와 얼굴 모션을 동시에 제어하는 자연스러운 토킹 헤드 생성 기술 본문

AI 기술

ACTalker : 오디오와 얼굴 모션을 동시에 제어하는 자연스러운 토킹 헤드 생성 기술

42morrow 2025. 4. 11. 15:14

 

디지털 아바타 기술의 발전은 가상 인간, 메타버스, 그리고 디지털 휴먼 분야의 핵심을 이루고 있습니다. 특히, 사람의 음성이나 얼굴 표정을 입력으로 자연스러운 영상 속 얼굴 움직임을 생성하는 '토킹 헤드(Talking Head)' 생성 기술은 인터페이스와 콘텐츠 제작에서 중요한 역할을 하고 있습니다. 기존에는 음성이나 모션 중 하나의 입력만을 기반으로 얼굴 움직임을 제어하는 것이 일반적이었지만, 실제 환경에서는 이 두 가지가 동시에 작용합니다. 예를 들어, 사람은 말을 하면서 고개를 움직이고, 감정을 드러냅니다. 따라서 보다 실감 나는 아바타를 만들기 위해서는 오디오와 시각적 모션을 동시에 제어할 수 있는 기술이 요구됩니다.

 

최근 확산 모델(diffusion model)이 이미지와 영상 생성에서 우수한 성능을 보여주면서, 이를 기반으로 한 토킹 헤드 생성 기술도 활발히 연구되고 있습니다. 하지만 다중 입력 신호를 통합하여 자연스럽고 충돌 없이 제어하는 것은 여전히 어려운 문제입니다. 이러한 상황에서 오디오와 얼굴 모션이라는 두 가지 제어 신호를 효과적으로 통합하여 자연스럽고 사실적인 얼굴 영상을 생성할 수 있는 ACTalker라는 새로운 프레임워크가 제안되었습니다. 이 기술은 선택적 상태공간 모델과 마스크 드롭 전략을 통해 제어 충돌을 해결하며, 사용자가 원하는 방식으로 제어 가능한 얼굴 생성 모델을 구현합니다.

 


ACTalker

1) 기존 방식의 문제점

 

기존의 토킹 헤드 생성 기술들은 대부분 단일 입력 신호, 즉 오디오나 모션 중 하나만을 사용합니다.

  • 오디오 기반 방식은 입 모양의 동기화를 잘 수행하지만 감정이나 표정 전체를 표현하는 데 한계가 있으며,
  • 모션 기반 방식은 얼굴 전체의 표현은 가능하지만 음성과의 동기화가 어렵습니다.

일부 연구들은 여러 제어 신호를 허용하긴 하지만, 여전히 한 번에 하나의 신호만 사용할 수 있어 실시간 인터랙션에는 적합하지 않습니다. 또한 기존 확산 기반 영상 생성 모델에서는 시간과 공간 정보를 별도로 처리하여 두 정보 간 상호작용이 부족하고, 고해상도 영상에서는 토큰 수가 많아져 계산 복잡도가 증가하는 문제가 존재합니다.

 

2) 접근 방식

 

본 논문에서는 ACTalker라는 새로운 확산 기반 비디오 생성 프레임워크를 제안합니다. 이 모델은 두 가지 핵심 신호인 오디오와 얼굴 모션을 동시에 또는 각각 제어할 수 있습니다. ACTalker는 다음과 같은 세 가지 주요 아이디어에 기반합니다.

 

  • 선택적 상태공간 모델(Selective State Space Model, SSM)을 도입하여 공간-시간 특성을 동시에 고려한 효율적으로 피처 들을 융합합니다. 이는 기존의 어텐션 기반 방식보다 계산 효율이 높고 시공간 상호작용을 자연스럽게 통합합니다.
  • 마스크 드롭 전략(Mask-Drop Strategy)을 도입하여 각 제어 신호가 자신에게 할당된 얼굴 영역만을 제어하도록 합니다. 이를 통해 제어 충돌을 방지하고, 불필요한 정보 처리를 줄여 계산 효율도 개선합니다.
  • 패러렐 컨트롤 맘바(Parallel-Control Mamba) 구조를 통해 오디오와 얼굴 모션 각각에 대해 별도의 분기(branch)에서 제어를 수행합니다. 훈련 시에는 게이트(gate)를 통해 다양한 제어 모드(오디오만, 모션만, 둘 다)를 학습하여, 실제 응용에서 유연한 제어가 가능하도록 설계되어 있습니다.

3) 세부 적용 기술

1️⃣ 선택적 상태공간 모델 (Selective State Space Model, SSM) 🎶

SSM은 긴 거리의 의존성을 효율적으로 처리하기 위해 제안된 연속 제어 기반 모델로 이를 활용해 시공간적으로 펼쳐진 노이즈 특성과 제어 신호를 결합합니다. 기존 Transformer 구조의 어텐션 방식보다 계산량이 적고, 긴 시간에 걸쳐 자연스러운 영상 흐름을 유지할 수 있습니다. 

 

ACTalker에서는 얼굴의 시공간 정보를 하나로 평탄화하고 오디오나 모션같은 제어신호를 이 정보들과 함께 SSM 구조로 통합한 뒤 마스크를 활용해 각 신호가 조작할 영역만 골라서(예: 오디오는 입 주변만) 적용하는 방식입니다. 

2️⃣ 마스크 드롭 전략 (Mask-Drop Strategy) 

각 제어 신호에는 해당 신호가 제어할 얼굴 영역(예: 오디오는 입 주변, 모션은 눈이나 머리 움직임 등)에 대한 마스크가 존재합니다. 이 마스크를 기반으로 관련 없는 토큰은 드롭(Drop)하고, 신호에 따른 영역만을 선택적으로 처리하여 충돌을 피합니다. 이후에는 마스크 페이스트(Paste) 과정을 통해 결과를 원래 위치에 다시 합칩니다.

 

3️⃣ 패러렐 컨트롤 맘바 구조 (Parallel-Control Mamba Layer, PCM)

PCM은 이름 그대로 여러 개의 제어 신호를 병렬(Parallel)로 처리할 수 있는 구조입니다. 이 구조는 오디오와 얼굴 모션에 각각 특화된 분기(branch)를 두고, 각 분기는 자신에게 할당된 제어 마스크와 제어 신호를 사용합니다. 훈련 시 게이트를 열고 닫으며 다양한 제어 조합을 학습함으로써, 실제 응용에서 자유롭게 제어가 가능합니다. 게이트 설정은 수동으로 조절할 수 있어, 사용자 필요에 따라 제어 모드를 전환할 수 있습니다.

 

4️⃣ 정체성 보존 (Identity Embedding)

얼굴이 변형되더라도 동일한 인물로 인식될 수 있도록, ID 임베딩을 삽입하여 정체성을 유지합니다. 이 임베딩은 PCM 내부에서 노이즈 피처와 함께 사용되어 영상 내 동일 인물 표현을 유지합니다.

5️⃣ 학습과 추론 전략

훈련 시에는 Diffusion Loss와 함께 세 가지 제어 구성(오디오만, 모션만, 오디오+모션)을 무작위로 설정해 모델의 유연한 제어 능력을 학습시킵니다. 추론 시에는 사용자 지정 게이트로 원하는 제어 조합을 선택할 수 있습니다.

 

 

 

4) 제약사항

 

ACTalker는 다양한 제어 신호를 유연하게 처리할 수 있지만, 마스크의 품질에 따라 결과의 자연스러움이 달라질 수 있습니다. 현재는 제어 영역 마스크를 수동으로 지정하거나 제한된 자동화 방식에 의존하고 있어, 이를 자동화하거나 개선하는 후속 연구가 필요합니다.


 

본 논문에서 제안한 ACTalker는 오디오와 얼굴 모션이라는 두 가지 제어 신호를 충돌 없이 자연스럽게 통합하여 사실적인 토킹 헤드 영상을 생성할 수 있는 새로운 비디오 확산 모델입니다. 선택적 상태공간 모델과 마스크 드롭 전략, 그리고 패러렐 컨트롤 구조의 결합은 유연하면서도 정밀한 제어를 가능하게 하며, 정체성을 유지한 채 다양한 표정과 움직임을 반영할 수 있습니다.

 

향후에는 마스크 자동 생성 기술과 더 다양한 제어 신호(예: 감정, 텍스트 등)를 통합하는 연구로 확장 가능하며, 메타버스, 가상 교육, 디지털 방송, 비대면 커뮤니케이션 등의 다양한 분야에 활용될 수 있습니다.


참고자료

  • 논문) ACTalker: Audio-visual Controlled Video Diffusion (링크)
  • 코드) ACTaler github (링크) : 논문 제출 상태라 accept되면 코드가 공개될 것이라고 합니다.

 


Q&A

 

Q. ACTalker는 기존 오디오 기반 토킹 헤드 생성 모델과 어떤 점이 다르나요?

ACTalker는 오디오뿐 아니라 얼굴 모션도 동시에 제어할 수 있어, 더욱 자연스럽고 사실적인 영상 생성을 지원합니다. 특히 두 신호가 충돌하지 않도록 마스크 기반의 분리 처리 구조를 갖추고 있습니다.

 

Q. 제어 충돌 문제는 어떻게 해결하나요?

제어 영역을 명확히 구분한 마스크를 기반으로, 각 제어 신호가 담당하는 영역만을 조작하는 ‘마스크 드롭 전략’을 통해 제어 충돌을 방지합니다.

 

Q. 실시간 응용도 가능한가요?

현재는 고해상도 영상 생성이 가능하지만, 실시간 처리는 하드웨어 제약이나 최적화 여부에 따라 달라집니다. 다만 ACTalker는 게이트 기반으로 유연하게 제어할 수 있어, 사용자 맞춤형 인터페이스 구현에는 적합합니다.