AI 탐구노트

X-Portrait 2 : 자연스럽고 사실적인 얼굴 애니메이션 생성 기술 본문

AI 기술

X-Portrait 2 : 자연스럽고 사실적인 얼굴 애니메이션 생성 기술

42morrow 2024. 11. 9. 07:44

 

1.서론

TikTok을 서비스하는 ByteDance에서 X-Portrait 2를 출시했습니다. 공개된 영상을 보고 한 판단이긴 하지만, 전작인 X-Portrait 1 대비 립싱크와 얼굴의 변화 부분에서 엄청난 발전을 이룬 것 같습니다. 이글에서는 공개된 내용과 영상 일부를 간단하게 소개해 드립니다.  

 

2.X-Portrait 2

2.1.기술 개요

X-Portrait 2는 정적인 인물 얼굴 이미지를 기반으로, 드라이빙 비디오(*)의 표정을 해당 이미지에 적용하여 생동감 넘치는 애니메이션을 생성하는 기술입니다. 크리에이터가 전문가의 도움을 최소로 한 상태에서 캐릭터를 이용한 애니메이션을 생성할 수 있도록 하는 기술이라고 보시면 될 것 같습니다.

드라이빙 비디오라는 것은 특정 인물이나 객체의 동작과 표정 정보를 담고 있는 짧은 동영상 클립 형태로, 머리의 움직임, 눈 깜박임, 입술 움직임 등 다양한 동작 정보를 추출해서 정적 이미지에 생동감을 불어넣는 역할을 하게 됩니다. 

 

 

영상 : 적용 예시 (영상 출처 : https://byteaigc.github.io/X-Portrait2/)

 

2.2.적용 기술

X-Portrait 2는 대규모 데이터셋을 활용하여 미세한 표정까지 인식하는 최첨단 표정 인코더를 만들었고, 이를 강력한 생성적 확산 모델과 결합하여 자연스럽고 표현력이 풍부한 영상을 만들어냅니다. 이를 통해 입술 내밀기, 혀 내밀기, 볼 부풀리기, 찡그리기 등 복잡한 표정도 정확하게 재현할 수 있습니다. 

 

사진 : 얼굴 표정과 함께 몸 동작 (자세포함)을 타 서비스 대비 훨씬 더 잘 표현함을 보여주는 예시

 

 

또한, X-Portrait 2는 외형과 동작을 분리하여 학습함으로써, 드라이빙 비디오의 표정 정보만을 정확하게 추출합니다. 이를 통해 현실적인 초상화뿐만 아니라 만화 이미지 등 다양한 스타일과 도메인에서도 사용할 수 있습니다. 

 

 

사진 : 다양한 스타일, 다른 도메인에도 적용 가능함을 보여주는 예시

2.3.기술의 특징

 

X-Portrait 2의 특징적인 몇 가지를 요약하면 다음과 같습니다. 

  • 기쁨, 놀람, 슬픔 등과 같은 감정 표현을 잘 포착하고 이를 표현합니다.
  • 과장된 얼굴 움직임이나 급격한 표정 변화도 잘 표현합니다.
  • 립싱크가 아주 자연스럽습니다.
  • 실사 사진 외 만화이미지 등도 잘 표현합니다. (크로스 도메인, 크로스 스타일 지원)
  • 생성된 영상은 뛰어난 일관성을 보입니다. 

 

3.결론

영상 전문가는 아니지만, 공개된 영상을 보면 결과물이 너무~ 훌륭합니다. 기존에도 HeyGan, RunwayML 등에서 유사한 서비스를 제공하고 있지만 이 정도는 아니었거든요... 게다가 그 서비스들과는 달리 전 버전처럼 무료로 공개가 된다면... TikTok이나 유튜브에 훨씬 더 풍부하고 획기적인 콘텐츠들이 대거 올라오지 않을까 기대됩니다. 무척요~

 

 


참고 정보

 

1.프로젝트 사이트

X-Portrait 2 프로젝트 사이트입니다. 논문, 코드 등이 아직은 공개되어 있지 않았습니다. 조만간 전 버전처럼 공개될 것으로 생각됩니다. 

 

 

X-Portrait 2: Highly Expressive Portrait Animation

Portrait animation technology provides a ultra-low cost and highly effective way to creating expressive, realistic character animations and video footages: users only need to provide a static portrait image and a driving performance video, and the model ca

byteaigc.github.io