CogVideoX : 길이가 긴 일관된 동영상 생성 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

CogVideoX : 길이가 긴 일관된 동영상 생성 모델 본문

AI 기술

CogVideoX : 길이가 긴 일관된 동영상 생성 모델

42morrow 2024. 8. 29. 23:17

텍스트 입력을 기반으로 장기간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델

CogVideoX는 텍스트 입력을 기반으로 장시간의 일관된 동영상을 생성하는 대규모 확산 트랜스포머 모델입니다.

기존 텍스트-비디오 생성 모델은 긴 지속시간 동안 일관성을 유지하는 영상 생성이 어려웠으며, 영상 데이터의 효율적 모델링과 텍스트-비디오의 의미적 정렬에 한계가 있었습니다. CogVideoX는 3D VAE(Variational Autoencoder)를 사용해 영상을 공간적, 시간적으로 압축하고, Expert Transformer를 도입해 텍스트와 비디오를 융합합니다. 또한, 다양한 데이터 전처리와 비디오 자막 생성 파이프라인을 통해 모델 성능을 극대화했습니다.

CogVideoX 모델은 다음과 같은 특징을 갖고 있습니다.

3D VAE: 영상을 시간적, 공간적으로 압축하여 처리 효율성을 높이고, 프레임 간의 연속성을 유지합니다.
Expert Transformer: 텍스트와 비디오를 각각 따로 처리하면서, 둘 간의 정보가 일치하도록 정리해 줍니다.
프로세시브 트레이닝: 해상도와 동영상 길이를 점진적으로 증가시키며 모델을 훈련하여, 안정성과 성능을 향상시킵니다.
데이터 전처리: 고품질 비디오 데이터를 필터링하고, 정확한 텍스트 설명을 생성해 훈련 데이터의 질을 향상시킵니다.

CogVideoX의 전체 아키텍처는 3D VAE를 사용하여 입력된 비디오를 잠재 공간으로 압축한 후, 텍스트 임베딩과 결합하여 Expert Transformer에 입력하는 방식으로 구성됩니다. 이 트랜스포머는 텍스트와 비디오 간의 깊은 융합을 통해 최종적으로 일관성 있는 동영상을 생성합니다.

참고로 CogVideoX-2B의 경우, 10GB 이하의 GPU 메모리(VRAM) 에서 동작되며 최근 Apache 2.0 라이선스로 전환되었다고 합니다.

참고) 논문, 코드, 모델카드(허깅페이스)

'AI 기술' 카테고리의 다른 글

EAGLE : 비전 인코더 결합으로 MLLM의 시각 능력을 최적화한 모델 (0)	2024.08.30
InterTrack : 인간-객체 상호작용을 추적하는 방법 (0)	2024.08.30
GameNGen : 신경망 기반의 게임 엔진 (0)	2024.08.29
MagicMan : 고품질의 인간 3D 재구성 모델 (0)	2024.08.28
DoubleTake : 기하학적 정보를 이용한 실시간 깊이 추정 (0)	2024.08.28

'AI 기술' Related Articles

AI 탐구노트

CogVideoX : 길이가 긴 일관된 동영상 생성 모델 본문

CogVideoX : 길이가 긴 일관된 동영상 생성 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바