일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 생성형 AI
- 멀티모달
- 트랜스포머
- 아두이노
- TRANSFORMER
- OpenCV
- 오블완
- OpenAI
- 강화 학습
- 휴머노이드 로봇
- 티스토리챌린지
- tts
- ChatGPT
- 이미지 생성
- PYTHON
- 오픈AI
- 오픈소스
- AI
- LORA
- 우분투
- 다국어 지원
- 시간적 일관성
- LLM
- AI 기술
- 딥러닝
- 확산 모델
- 일론 머스크
- 인공지능
- 메타
- 실시간 렌더링
- Today
- Total
목록diffusion transformer (2)
AI 탐구노트

최근 몇 년 동안 인공지능(AI) 기반의 인간 애니메이션 기술이 급속도로 발전하고 있습니다. 특히 음성 기반의 얼굴 애니메이션 생성 기술은 가상 캐릭터, 디지털 아바타, 게임, 영화 산업 등 다양한 분야에서 활용되고 있습니다. 그러나 기존의 애니메이션 생성 기술은 대부분 제한적인 데이터셋을 활용하고 있어 현실적인 움직임을 생성하는 데 한계가 있었습니다. 세부적으로는 기존의 오디오 기반 애니메이션 생성 모델들은 다음과 같은 한계를 가지고 있었습니다.데이터 필터링 문제 : 오디오 기반 모델의 경우, 학습 데이터에서 배경 움직임, 조명 변화 등의 불필요한 요소를 제거해야 하는데, 이 과정에서 유용한 동작 데이터까지 손실되는 문제가 발생했습니다. 포즈 기반 모델의 경우, 특정한 촬영 환경에서 정적인 배경을 가진..

1. 서론영상 콘텐츠는 오늘날의 디지털 환경에서 광고, 교육, 엔터테인먼트와 같은 다양한 분야에 걸쳐 중요한 역할을 하고 있습니다. 특히 텍스트를 입력으로 사용해 동영상을 만드는 기술은 복잡한 영상 편집 없이도 창의적인 결과물을 얻을 수 있는 혁신적인 방법으로 환영받고 있죠. 얼마 전까지만 해도 전문가의 영역이라고 여겨지던 분야가 이제는 학생들도 약간의 창의성과 프롬프트만으로 영상을 만들어내는 일반인의 영역이 되고 있습니다. 그것도 아주아주 빨리! 하지만 여기에는 중요한 제약이 있습니다. 현재 대부분의 모델은 투명한 효과(예: 유리나 연기처럼 배경이 보이는 효과)를 처리할 수 없습니다. 투명도를 처리하려면 RGBA라는 특별한 비디오 형식이 필요합니다. 여기서 A는 "알파 채널"을 뜻하며, 이 채널이 투명..