Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- ubuntu
- LLM
- 오픈소스
- AI
- 메타
- 생성형 AI
- 강화 학습
- 오픈AI
- 우분투
- 다국어 지원
- OpenAI
- 휴머노이드 로봇
- 일론 머스크
- 인공지능
- AI 기술
- ChatGPT
- tts
- LORA
- 시간적 일관성
- 아두이노
- Stable Diffusion
- 멀티모달
- 딥러닝
- 오블완
- 티스토리챌린지
- 트랜스포머
- OpenCV
- 확산 모델
- TRANSFORMER
- PYTHON
Archives
- Today
- Total
목록3d vae (1)
AI 탐구노트

텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..
AI 기술
2024. 8. 29. 23:17