AI 탐구노트

LatentSync : 오디오를 기반으로 정확한 입모양을 만드는 AI 기술 본문

AI 기술

LatentSync : 오디오를 기반으로 정확한 입모양을 만드는 AI 기술

42morrow 2025. 1. 9. 19:24

 

우리 주변에서 AI 기술은 빠르게 발전하며 일상에 큰 변화를 주고 있습니다. 립싱크 기술은 그 가운데 하나죠. 이 기술은 음성에 맞춰 사람의 입모양을 자연스럽게 만들어주는 것을 목표로 하며, 영화 더빙, 가상 캐릭터 제작, 화상회의 같은 여러 분야에서 유용하게 사용되고 있습니다. 최근에는 방문객들을 맞이하는 키오스크의 인간형 아바타에 이 기술이 접목되고 있습니다. 아무래도 말과 영상 속의 입모양이 다르면 사용자들은 '불편한 골짜기'를 경험할 수 밖에 없기 때문이죠.

 

지금까지의 립싱크 기술에는 몇 가지 한계가 있었습니다. 예를 들어, 기존에 주로 사용되던 AI 기술(GAN 기반 기술)은 훈련이 불안정하거나, 새로운 환경에서 잘 작동하지 않는 경우가 많았습니다. 또한, 최신 기술 중 일부는 입모양은 잘 맞췄지만 비디오가 끊기거나 부자연스럽게 보이는 문제가 있었습니다.

 

이번 논문에서 소개된 LatentSync는 이런 문제를 해결한 새로운 AI 모델입니다. 이 모델은 음성과 얼굴 영상의 복잡한 관계를 더 잘 이해해, 더 자연스럽고 매끄러운 립싱크 영상을 만들어냅니다. 특히 LatentSync는 Stable Diffusion이라는 최신 기술을 사용해 기존 기술보다 고화질의 영상을 빠르게 생성할 수 있습니다.

 


기존 립싱크 방식의 한계점

기존 립싱크 기술에는 두 가지 주요 문제가 있었습니다.

  • 불안정한 학습 : 기존 GAN 기반 립싱크 기술은 훈련이 불안정하고, 대규모 데이터에서 제대로 동작하지 않는 경우가 많았습니다.
  • 부자연스러운 움직임 : 확산 모델 기반 접근법은  입모양만 신경 쓰다 보니 영상을 보면 프레임이 어긋나거나 연결이 부자연스러워 보이는 문제가 있었습니다.

 

LatentSync의 접근법

LatentSync는 위의 문제들을  해결하기 위해 다음과 같은 새로운 접근 방식을 도입했습니다. 

 

  • 엔드 투 엔드 프레임워크 : 오디오 조건에 따라 잠재 확산 모델을 사용하여 중간에 불필요한 과정을 생략하고, 음성과 영상을 바로 연결해 학습합니다.
  • 잠재 공간 활용 : 영상 데이터를 압축한 잠재 공간(latent space)에서 작업하기 때문에 더 빠르고 고해상도의 결과를 만들어낼 수 있습니다.
  • Stable Diffusion 사용 : 최신의 성능 좋은 Stable Diffusion 모델을 활용해 더욱 정교하고 자연스러운 영상을 생성합니다.

 

그림 : 기존의 립싱크 기술과의 방식 비교

 

위 그림은 기존 방식과 LatentSync 간의 차이를 보여줍니다. 첫번째는 픽셀 공간 확산 (Pixel Space Diffusion)으로 오디오 입력을 받고 픽셀 단위로 영상을 생성하는 방식. 두번째는 2단계 생성 방식(Two-Stage Generation)으로 오디오에서 입모양을 모션으로 예측하고 이 모션 데이터로 얼굴 영상을 생성하는 방식. 마지막 세번째는 오디오와 영상데이터를 압축한 잠재공간에서 입모양과 영상을 동시에 생성하는 방식입니다. LatentSync는 세번째 방식을 적용하고 있습니다.  

 

LatentSync에 적용된 세부 기술 

  • Stable Diffusion 기반 구조 : 기존 SD 1.5의 파라미터를 초기화로 사용하며, Whisper 모델을 통해 오디오 임베딩을 추출하여 U-Net에 결합했습니다. 즉, Whisper를 음성 분석에 사용하고 이를 기반으로 영상 생성에 활용합니다. 
  • Temporal Representation Alignment (TREPA, 시간적 일관성) : 시간적 정보가 풍부한 대규모 자기 지도 학습 모델(VideoMAE-v2)을 사용해 생성된 프레임 간의 시간적 일관성을 개선, 즉 프레임 간 연결을 자연스럽게 만듭니다. 
  • SyncNet 개선: 입모양의 정확도를 높이기 위해, 기존 기술(SyncNet)을 최적화하여 학습 성능을 크게 향상시켰습니다.
  • 혼합 노이즈 모델 : 프레임 간 일관된 노이즈를 적용하여 시간적 정보 학습능력을 높였습니다. 
  • Affine 변환 : 데이터 전처리 단계에서 얼굴을 정면으로 정렬하여 필요한 부분만 학습하도록 데이터를 정리해서 학습 효율을 높였습니다. 

그림 : LatentSync의 전체 구조

 

 

그림 : HDTF와 VoxCeleb2 벤치마크에서 다른 모델들과의 비교

 


정리하며

최근에는 은행이나 대형 몰 같은 곳에 가면 사람 모양을 한 가상 아바타가 응대를 해 주는 경우를 간간히 볼 수 있습니다. 사람과 직접 마주 보며 의사소통을 하려고 할 때, 사용하는 사람들이 느끼게 되는 '불편한 골짜기'로 아바타의 외모도 있겠지만 (이건 최근엔 거의 실사 구분이 안 되는 수준까지 왔으니 조만간 개선될테고) 입 모양이 말하는 내용과 일치하지 않는 때일 것 같은데 그 부분에 대한 기술들이 많이 연구되고 있었습니다. 몇년 전만 해도 Wav2Lip 같은 모델을 이용해 가상 아바타의 말과 입모양을 맞추는 기술을 개발하고 있던 국내 기업들도 다수 있었죠. 

 

이런 상황에서 공개된 LatentSync는 기존 립싱크 기술의 한계를 극복해 고해상도와 시간적 일관성을 모두 달성한 모델입니다. 특히 TREPA 기법을 도입하여 립싱크 정확도와 시간적 일관성을 동시에 개선했다는 점은 주목을 받고 있죠. 아무쪼록 이런 기술들이 좀 더 고도화되어 저같은 단순 사용자의 입장에서 불편함이 없고 거꾸로 친근감을 가질 수 있는 서비스가 나오길 바랍니다. 

 


참고자료

  • 논문) LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync (링크)
  • 코드) LatentSync Github Repository
 

GitHub - bytedance/LatentSync: Taming Stable Diffusion for Lip Sync!

Taming Stable Diffusion for Lip Sync! Contribute to bytedance/LatentSync development by creating an account on GitHub.

github.com

  • 데모) HuggingFace (링크)

 

Q&A

Q. LatentSync는 기존 립싱크 모델과 어떤 점이 다른가요?

LatentSync는 중간 표현 없이 오디오 조건에 따라 잠재 확산 모델을 활용하여 엔드 투 엔드 방식으로 작동합니다. 이를 통해 고해상도 동영상 생성과 시간적 일관성을 모두 확보합니다.

Q. TREPA는 무엇인가요?

TREPA(Temporal Representation Alignment)는 대규모 자기 지도 학습 모델을 활용해 생성된 프레임 간 시간적 일관성을 개선하는 기법입니다.

Q. LatentSync의 주요 응용 분야는 무엇인가요?

LatentSync는 더빙, 가상 아바타 생성, 화상 회의 및 콘텐츠 제작 등에서 활용될 수 있습니다.