일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- javascript
- AI 기술
- LORA
- 트랜스포머
- 오블완
- 멀티모달
- 생성형 AI
- LLM
- PYTHON
- OpenAI
- 서보모터
- 딥마인드
- tts
- 뉴럴링크
- 인공지능
- 일론 머스크
- 시간적 일관성
- 오픈AI
- 가상환경
- 티스토리챌린지
- ubuntu
- TRANSFORMER
- 우분투
- 메타
- ControlNet
- 아두이노
- 확산 모델
- ChatGPT
- 이미지 편집
- AI
- Today
- Total
목록Bytedance (2)
AI 탐구노트
1.서론TikTok을 서비스하는 ByteDance에서 X-Portrait 2를 출시했습니다. 공개된 영상을 보고 한 판단이긴 하지만, 전작인 X-Portrait 1 대비 립싱크와 얼굴의 변화 부분에서 엄청난 발전을 이룬 것 같습니다. 이글에서는 공개된 내용과 영상 일부를 간단하게 소개해 드립니다. 2.X-Portrait 22.1.기술 개요X-Portrait 2는 정적인 인물 얼굴 이미지를 기반으로, 드라이빙 비디오(*)의 표정을 해당 이미지에 적용하여 생동감 넘치는 애니메이션을 생성하는 기술입니다. 크리에이터가 전문가의 도움을 최소로 한 상태에서 캐릭터를 이용한 애니메이션을 생성할 수 있도록 하는 기술이라고 보시면 될 것 같습니다.드라이빙 비디오라는 것은 특정 인물이나 객체의 동작과 표정 정보를 담고..
오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 오디오 기반 영상 합성 모델 Loopy는 오디오 입력만으로 자연스러운 초상화 아바타 영상을 생성하는 새로운 오디오 기반 영상 합성 모델입니다. 기존 오디오 기반 초상화 영상 합성 방법들은 자연스럽지 않은 움직임을 보이거나, 머리 움직임과 표정을 제한하는 공간적 조건(예: 얼굴 위치나 속도 등)을 추가하여 제한된 움직임을 만들어내는데 이는 움직임의 자유로움과 다양성이 떨어지는 결과를 만듭니다. Loopy는 오디오 신호만으로 영상을 생성하며, 공간적 템플릿 없이도 자연스러운 움직임을 학습합니다. 이를 위해 긴 시간의 모션 의존성을 학습할 수 있는 inter-clip 및 intra-clip 시간적 모듈을 도입하고, 오디오 정보를 잠재공간(latent..