Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- ChatGPT
- OpenAI
- LORA
- javascript
- 가상환경
- 뉴럴링크
- 멀티모달
- 우분투
- AI
- 아두이노
- ControlNet
- 일론 머스크
- 생성형 AI
- 메타
- ubuntu
- tts
- 오픈AI
- 확산 모델
- AI 기술
- 서보모터
- LLM
- PYTHON
- 티스토리챌린지
- 오블완
- TRANSFORMER
- 이미지 편집
- 딥마인드
- 트랜스포머
- 인공지능
- 시간적 일관성
Archives
- Today
- Total
AI 탐구노트
CogVideoX : 길이가 긴 일관된 동영상 생성 모델 본문
텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델
CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.
기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다.
CogVideoX 모델은 다음과 같은 특징을 갖고 있습니다.
- 3D VAE: 영상을 시간적, 공간적으로 압축하여 처리 효율성을 높이고, 프레임 간의 연속성을 유지합니다.
- Expert Transformer: 텍스트와 비디오를 각각 따로 처리하면서, 둘 간의 정보가 일치하도록 정리해 줍니다.
- 프로세시브 트레이닝: 해상도와 동영상 길이를 점진적으로 증가시키며 모델을 훈련하여, 안정성과 성능을 향상시킵니다.
- 데이터 전처리: 고품질 비디오 데이터를 필터링하고, 정확한 텍스트 설명을 생성해 훈련 데이터의 질을 향상시킵니다.
CogVideoX의 전체 아키텍처는 3D VAE를 사용하여 입력된 비디오를 잠재 공간으로 압축한 후, 텍스트 임베딩과 결합하여 Expert Transformer에 입력하는 방식으로 구성됩니다. 이 트랜스포머는 텍스트와 비디오 간의 깊은 융합을 통해 최종적으로 일관성 있는 동영상을 생성합니다.
참고로 CogVideoX-2B의 경우, 10GB 이하의 GPU 메모리(VRAM) 에서 동작되며 최근 Apache 2.0 라이선스로 전환되었다고 합니다.
참고) 논문, 코드, 모델카드(허깅페이스)
'AI 기술' 카테고리의 다른 글
DEVA : 다양한 비디오에서 객체를 추적할 수 있는 기법 (0) | 2024.08.30 |
---|---|
InterTrack : 인간-객체 상호작용을 추적하는 방법 (0) | 2024.08.30 |
TokenFlow : 시간적 일관성있는 자연스런 영상 생성 모델 (0) | 2024.08.29 |
ProPainter : 비디오 영상에서 Inpainting을 제공하는 프레임워크 (0) | 2024.08.29 |
Pop2Piano : 피아노 연주용 미디 파일 생성 모델 (1) | 2024.08.29 |