AI 탐구노트

INFP : 대화에 맞춰 움직이는 얼굴을 생성하는 AI 기술 본문

AI 기술

INFP : 대화에 맞춰 움직이는 얼굴을 생성하는 AI 기술

42morrow 2024. 12. 26. 10:30

1. 서론

디지털 기술이 발전하면서 사람처럼 대화할 수 있는 AI 기술에 대한 관심이 커지고 있습니다. 특히, 얼굴 표정과 머리 움직임을 자연스럽게 구현하는 기술은 화상 회의, 가상 비서, 엔터테인먼트 등 다양한 분야에서 유용하게 쓰일 수 있기 때문에 많은 곳에서 연구를 진행하고 있습니다. 

 

이 논문에서는 INFP라는 새로운 기술을 소개하고 있는데, 이는 사람의 목소리를 듣고 적절한 얼굴 표정과 머리 움직임을 만들어냅니다. 중요한 점은, 이 기술이 사람처럼 대화 상황에 따라 자유롭게 '말하기'와 '듣기' 상태를 전환할 수 있다는 것입니다. 예를 들어 두 사람이 대화를 하는 상황이면 한 사람이 말을 하면 상대는 이를 듣는 동안 표정이나 움직임을 보인다는 거죠. 이는 기존 기술이 특정 역할(화자나 청자)에만 초점을 맞췄던 한계를 넘어섭니다.

 

그림 : INFP의 주요 기능과 적용 사례 소개


2. 본론

2.1. 기존 방식이 가지는 한계점

기존 기술들은 다음과 같은 한계가 있었습니다.

  • 말하기만 하거나 듣기만 하는 단방향 영상 생성만 가능했습니다. 
  • 화자와 청자 역할을 구분하고 전환하기 위해 많은 설정이 필요했고 이는 실제 대화의 자연스러움을 떨어뜨렸습니다.

2.2. INFP가 문제를 해결하는 방식

INFP는 크게 두 단계로 구성됩니다.

  • 모션 학습 단계 : 실제 대화 비디오에서 얼굴 움직임과 표정을 분석해 이를 간단한 데이터로 변환하고 저차원의 모션 잠재공간(Motion Latent Space)에 저장합니다. 
  • 음성 기반 생성 단계 : 사람의 목소리를 듣고 모션 잠재 코드를 생성를 생성해 그에 맞는 얼굴 표현과 머리 움직임을 만들어냅니다. 

INFP의 가장 큰 장점은 음성을 듣고 스스로 판단하여 화자와 청자의 역할을 자연스럽게 전환할 수 있다는 것입니다. 예를 들어, 누군가 말을 멈추고 대화 상대가 반응하면, AI는 듣는 표정에서 말하는 표정으로 바뀔 수 있습니다.

그림 : INFP의 전체적인 작업 흐름과 두 주요 단계

 

2.3. 기술적 구현

 

  • 얼굴 움직임 학습 : INFP는 먼저 다양한 대화 비디오를 학습해 '어떤 상황에서 어떤 표정과 움직임을 보여야 하는지'에 대한 패턴을 학습합니다. 이를 위해 모션 인코더를 사용합니다. 
    • 얼굴에서 눈과 입처럼 감정을 잘 나타내는 부분만 집중적으로 학습하고 머리 움직임과 얼굴 윤곽을 함께 분석하여 자연스러운 표정을 재현합니다.
    • 배경 노이즈를 제거해 학습 효율을 높였습니다.
  • 음성을 기반으로 한 생성 : 사람의 목소리를 듣고 다음을 수행합니다.
    • 목소리의 특징(말하기/듣기 상태)을 분석하고 
    • 학습가능한 메모리 뱅크(데이터베이스)에서 적합한 얼굴 표정과 움직임을 동적으로 조합한 후
    • 이를 이용해 목소리와 완벽히 맞는 애니메이션을 만들어냅니다.
  • DyConv 데이터셋 : INFP를 학습시키기 위해 200시간 분량의 대화 비디오 데이터(DyConv)가 사용되었습니다. 이 데이터는다양한 감정과 대화 상황을 포함하고 있기 때문에 이를 이용한 모델 학습을 통해 AI가 더 현실적인 표현을 학습할 수 있도록 도울 수 있을 것으로 예상됩니다. 

 

2.4. 제약사항

 

현재 INFP는 목소리에만 의존하고 있으며, 앞으로는 시각적 신호(예: 얼굴 제스처)나 텍스트 입력도 함께 활용할 수 있도록 발전시킬 필요가 있습니다. 제약이라고 언급은 했지만 사실 이 정도 수준으로도 실생활에서 응용하면 많은 도움을 줄 수 있을 것으로 생각됩니다.


3. 결론

INFP는 사람과의 대화를 흉내 내는 AI 기술의 새로운 가능성을 열었습니다. 이 기술은 말하기와 듣기를 자연스럽게 전환하며, 생생한 표정과 움직임을 제공하는데, 이는 화상 회의, 가상 캐릭터, 의료 상담 등 여러 분야에서 응용될 수 있습니다. 현 수준으로도 충분히 사실적인 움직임을 만들어 낼 수 있다고 생각되지만 더 다양한 데이터, 신체 움직임을 포함한 모델 학습 등이 이뤄진다면 실제와 생성된 영상의 구분이 거의 어렵지 않을까 하는 생각이 듭니다. 

 

 


4. 참고자료

  • INFP 프로젝트
 

INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations

Imagine having a conversation with a socially intelligent agent. It can attentively listen to your words and offer visual and linguistic feedback promptly. This seamless interaction allows for multiple rounds of conversation to flow smoothly and naturally.

grisoon.github.io

참고로 코드와 Dataset은 아직 정식 공개는 되지 않은 모양인지 프로젝트 사이트에서의 링크가 작동하지 않았습니다. 

 


5. Q&A

Q: INFP의 주요 차별점은 무엇인가요?

INFP는 화자와 청자의 역할을 명시적으로 전환하지 않고, 음성 데이터를 기반으로 동적으로 상태를 전환하며 자연스러운 대화를 가능하게 합니다.

Q: DyConv 데이터셋의 특징은 무엇인가요?

DyConv는 200시간 이상의 고품질 다중 턴 대화 데이터를 포함하며, 감정과 표현이 풍부하고 다양한 상호작용 시나리오를 제공합니다.

Q3 INFP의 실시간 성능은 어떻게 달성되었나요?

INFP는 경량화된 조건부 확산 변환기를 사용해 실시간으로 모션 코드를 생성할 수 있도록 설계되었습니다.