일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- tts
- 멀티모달
- OpenAI
- javascript
- 아두이노
- ubuntu
- ChatGPT
- 메타
- 티스토리챌린지
- LLM
- 오픈AI
- PYTHON
- 확산 모델
- 뉴럴링크
- 우분투
- AI
- 딥마인드
- 트랜스포머
- 서보모터
- 오블완
- 시간적 일관성
- LORA
- 일론 머스크
- ControlNet
- TRANSFORMER
- 생성형 AI
- 이미지 편집
- 인공지능
- 가상환경
- AI 기술
- Today
- Total
AI 탐구노트
X-Portrait 2 : 자연스럽고 사실적인 얼굴 애니메이션 생성 기술 본문
1.서론
TikTok을 서비스하는 ByteDance에서 X-Portrait 2를 출시했습니다. 공개된 영상을 보고 한 판단이긴 하지만, 전작인 X-Portrait 1 대비 립싱크와 얼굴의 변화 부분에서 엄청난 발전을 이룬 것 같습니다. 이글에서는 공개된 내용과 영상 일부를 간단하게 소개해 드립니다.
2.X-Portrait 2
2.1.기술 개요
X-Portrait 2는 정적인 인물 얼굴 이미지를 기반으로, 드라이빙 비디오(*)의 표정을 해당 이미지에 적용하여 생동감 넘치는 애니메이션을 생성하는 기술입니다. 크리에이터가 전문가의 도움을 최소로 한 상태에서 캐릭터를 이용한 애니메이션을 생성할 수 있도록 하는 기술이라고 보시면 될 것 같습니다.
드라이빙 비디오라는 것은 특정 인물이나 객체의 동작과 표정 정보를 담고 있는 짧은 동영상 클립 형태로, 머리의 움직임, 눈 깜박임, 입술 움직임 등 다양한 동작 정보를 추출해서 정적 이미지에 생동감을 불어넣는 역할을 하게 됩니다.
2.2.적용 기술
X-Portrait 2는 대규모 데이터셋을 활용하여 미세한 표정까지 인식하는 최첨단 표정 인코더를 만들었고, 이를 강력한 생성적 확산 모델과 결합하여 자연스럽고 표현력이 풍부한 영상을 만들어냅니다. 이를 통해 입술 내밀기, 혀 내밀기, 볼 부풀리기, 찡그리기 등 복잡한 표정도 정확하게 재현할 수 있습니다.
또한, X-Portrait 2는 외형과 동작을 분리하여 학습함으로써, 드라이빙 비디오의 표정 정보만을 정확하게 추출합니다. 이를 통해 현실적인 초상화뿐만 아니라 만화 이미지 등 다양한 스타일과 도메인에서도 사용할 수 있습니다.
2.3.기술의 특징
X-Portrait 2의 특징적인 몇 가지를 요약하면 다음과 같습니다.
- 기쁨, 놀람, 슬픔 등과 같은 감정 표현을 잘 포착하고 이를 표현합니다.
- 과장된 얼굴 움직임이나 급격한 표정 변화도 잘 표현합니다.
- 립싱크가 아주 자연스럽습니다.
- 실사 사진 외 만화이미지 등도 잘 표현합니다. (크로스 도메인, 크로스 스타일 지원)
- 생성된 영상은 뛰어난 일관성을 보입니다.
3.결론
영상 전문가는 아니지만, 공개된 영상을 보면 결과물이 너무~ 훌륭합니다. 기존에도 HeyGan, RunwayML 등에서 유사한 서비스를 제공하고 있지만 이 정도는 아니었거든요... 게다가 그 서비스들과는 달리 전 버전처럼 무료로 공개가 된다면... TikTok이나 유튜브에 훨씬 더 풍부하고 획기적인 콘텐츠들이 대거 올라오지 않을까 기대됩니다. 무척요~
참고 정보
1.프로젝트 사이트
X-Portrait 2 프로젝트 사이트입니다. 논문, 코드 등이 아직은 공개되어 있지 않았습니다. 조만간 전 버전처럼 공개될 것으로 생각됩니다.
'AI 기술' 카테고리의 다른 글
Reactive Resume : 이력서 작성 및 관리를 지원하는 오픈소스 도구 (4) | 2024.11.11 |
---|---|
URAvatar: 단일 스캔을 통한 현실감 있는 아바타 생성 기술 (1) | 2024.11.09 |
SplatOverflow : 비동기 원격 하드웨어 트러블 슈팅 기술 (1) | 2024.11.08 |
OmniParser : UI 스크린샷을 구조화된 요소로 변환하는 기술 (1) | 2024.11.08 |
HOVER : 여러 제어 방식을 통합한 범용 신경망 기반 전체 신체 제어기 (4) | 2024.11.05 |