Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ubuntu
- 우분투
- ControlNet
- 딥마인드
- 이미지 편집
- 서보모터
- 뉴럴링크
- 오블완
- 오픈AI
- 아두이노
- 메타
- AI
- TRANSFORMER
- OpenAI
- 시간적 일관성
- 가상환경
- 멀티모달
- 생성형 AI
- LLM
- PYTHON
- 인공지능
- 확산 모델
- ChatGPT
- 트랜스포머
- LORA
- AI 기술
- 티스토리챌린지
- tts
- 일론 머스크
- javascript
Archives
- Today
- Total
AI 탐구노트
AniTalker : 자연스럽게 말하는 대화 영상 생성 프레임워크 본문
자연스럽게 말하는 대화 영상을 생성하는 프레임워크
AniTalker는 입력 오디오와 참조할 얼굴사진을 이용해 자연스럽게 말하는 대화 영상을 생성하는 프레임워크입니다.
입술 동기화 등에 언어적인 부분에 초점을 맞춘 다른 모델과는 달리 AniTalker는 범용 모션 표현을 사용해 목소리의 속도, 높낮이, 감정에 따른 입술, 얼굴표정, 눈짓 등 미묘한 표정과 머리 움직임, 얼굴의 각도 및 방향 등을 생성하고 조작하는데 탁월한 성능을 보여줍니다. 확산 모델과 분산 어댑터를 통합해 상세하고 사실적인, 그러면서도 다양하고 제어 가능한 얼굴 움직임을 만듧니다. AniTalker가 움직임 표현을 향상시키는 두 가지 전략은, 동일 ID 내의 소스프레임에서 대상 비디오 프레임을 재구성해서 세밀한 동작 표현을 학습하는 것과 서로 다른 얼굴의 정보를 최소화해 모션을 인코딩하는 것입니다.
이 기술은 가상/증강 현실에서 사용되는 아바타나 애니메이션 캐릭터 혹은 비디오 내용의 편집/합성 등에 활용될 수 있는데 최근에 특히 이런 기술들이 많이 등장하고 있는 것 같습니다.
'AI 기술' 카테고리의 다른 글
AlphaFold 3 : 생체분자의 구조와 상호작용 예측 모델 (0) | 2024.08.15 |
---|---|
EgoPet : 개, 고양이 등 동물의 시점 영상 데이터셋 (0) | 2024.08.15 |
MistoLine : 손그림 입력을 지원하는 이미지 생성모델 (0) | 2024.08.15 |
HiDiffusion : 이미지의 해상도와 생성 속도 향상 기법 (0) | 2024.08.15 |
Phi-3-vision : Phi-3 기반 멀티모달 모델 (0) | 2024.08.15 |