일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 일론 머스크
- TRANSFORMER
- 우분투
- LORA
- 아두이노
- 멀티모달
- ControlNet
- ChatGPT
- 트랜스포머
- 서보모터
- PYTHON
- 이미지 편집
- 딥마인드
- 시간적 일관성
- AI 기술
- 생성형 AI
- 가상환경
- LLM
- AI
- 확산 모델
- 인공지능
- 뉴럴링크
- ubuntu
- 메타
- OpenAI
- javascript
- 오블완
- 오픈AI
- tts
- 티스토리챌린지
- Today
- Total
목록텍스트-비디오 생성 (2)
AI 탐구노트

1. 서론 : 스케치 애니메이션오늘날의 디지털 콘텐츠 제작은 고도의 전문성과 기술을 요구합니다. 특히, 스케치 애니메이션은 디자이너가 정적인 이미지를 동적으로 변환하여 창의적인 스토리텔링을 할 수 있도록 돕습니다. 그러나 이러한 작업은 여전히 많은 시간과 노력을 필요로 합니다. 인공지능의 발전은 이를 단순화할 수 있는 가능성을 열어줍니다. 최근 텍스트-비디오 생성 모델은 텍스트 설명만으로도 짧은 동영상을 생성할 수 있는 혁신적인 방법을 제시했습니다. 2. 본론2.1. 기존 방식의 문제점기존의 스케치 애니메이션 도구들은 사용자 주도의 작업을 필요로 합니다. 이는 특정 스케치에 대해 수작업으로 키프레임을 설정하거나, 스켈레톤 데이터를 기반으로 모션을 생성해야 했습니다. 이러한 과정은 시간 소모적일 뿐만 아니..

텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..