Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- PYTHON
- OpenCV
- Stable Diffusion
- 딥러닝
- 확산 모델
- OpenAI
- tts
- 다국어 지원
- 티스토리챌린지
- ChatGPT
- TRANSFORMER
- 아두이노
- LLM
- 멀티모달
- 메타
- 트랜스포머
- 시간적 일관성
- 오픈AI
- 우분투
- ubuntu
- 생성형 AI
- 휴머노이드 로봇
- 강화 학습
- 오블완
- AI
- 일론 머스크
- AI 기술
- LORA
- 인공지능
- 오픈소스
Archives
- Today
- Total
목록비디오 압축 (1)
AI 탐구노트

텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델 CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다. CogVideoX 모델은 다음과 같은 특징을 갖고 ..
AI 기술
2024. 8. 29. 23:17