일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- XAI
- 오픈소스
- 딥러닝
- Stable Diffusion
- 확산 모델
- 강화 학습
- 실시간 렌더링
- 티스토리챌린지
- tts
- 오블완
- LLM
- 생성형AI
- 자연어 처리
- ChatGPT
- 일론 머스크
- 인공지능
- PYTHON
- AI 기술
- 트랜스포머
- 다국어 지원
- 감정 표현
- 우분투
- 오픈AI
- OpenAI
- 휴머노이드 로봇
- 메타
- 이미지 생성
- 강화학습
- AI
- 멀티모달
- Today
- Total
AI 탐구노트
Wan 2.1 : 알리바바 그룹의 고품질 영상 생성 모델 본문
Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다.
Wan 2.1
Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.
- Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.
- 중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.
- Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해상도의 긴 영상도 효율적으로 처리할 수 있습니다.
Wan 2.1 모델 라인업
- Wan2.1-I2V-14B : 텍스트 기반 영상 생성 지원
- Wan2.1-T2V-14B :텍스트, 이미지 기반 영상 생성 기능까지 지원
Wan 2.1의 주요 특징
- 오픈소스 : Apache 2.0 라이선스를 따릅니다.
- 다양한 모델 라인업 : 해상도, 파라미터 크기에 따라 Wan2.1-I2V-14B, Wan2.1-T2V-14B, Wan2.1-T2V-1.3B의 세 가지 모델 라인업을 가지고 있습니다.
- SOTA급 성능 : 영상 생성 AI 평가 도구 브이벤치(Vbench)에서 이 모델은 총점 86.22%를 기록, 오픈AI의 소라(84.28%)와 루마(83.61%) 등 다른 모델들을 앞지르며 1위를 차지했습니다.
- 품질 높은 데이터셋 학습 : 1.5억개 영상과 10억 장의 이미지 수집 및 정제, 선별을 거친 고품질 데이터셋 구축과 이를 학습에 이용함
- 소비자용 GPU 지원 : 저사양 GPU를 지원합니다. (예) T2V-1.3B 모델(가장 가벼운)은 약 8.19GB의 VRAM 요구하며 RTX 4090 기준으로 최적화(예: 양자화) 없이도 5초짜리 480P 영상을 약 4분 만에 생성할 수 있을 정도로 효율적입니다.
- 다양한 활용성 : Text-to-Video(문장으로 영상 생성), Image-to-Video(이미지를 입력으로 애니메이션화), Video 편집, Text-to-Image(문장에서 이미지 생성), Video-to-Audio(영상에서 오디오를 생성) 등 다양한 작업이 가능합니다.
- 텍스트 생성 기능 : 영상 내부에 텍스트가 포함된 장면을 직접 만들어낼 수 있으며, 중국어와 영어 텍스트를 모두 생성할 수 있습니다.
- 강력한 Video VAE 도입 : Wan-VAE는 1080P 이상의 고해상도 영상을 길이에 제한 없이 빠르고 효율적으로 인코딩/디코딩할 수 있는 구조로 설계되어 있고 시간축(프레임 간 정보)도 잘 보존하여, 영상 생성 품질이 뛰어나면서도 처리 속도가 매우 빠릅니다.
- 기타 : 물리 법칙을 이해하며, 명령의 실행 정확도를 최적화함
적용된 세부 기술
(1) 3D 변분 오토인코더(VAE)
- 3D VAE 구조를 통해 영상의 공간+시간 정보를 압축하고, GPU 메모리를 최소화하며, 동영상 생성을 위한 특화된 설계를 적용했습니다.
- 영상 길이에 제한 없이 인코딩/디코딩할 수 있도록, Chunk(덩어리) 단위 처리와 Feature Cache 방식을 도입했습니다.
- 예: 1 + T/4(또는 1 + T) 등으로 나눈 프레임 묶음을 순차적으로 처리해 GPU 메모리 오버플로우를 방지.
- 기존 SOTA VAE(HunYuanVideo)에 비해 재구성 속도가 2.5배 빨라, 고해상도에서 특히 더 큰 차이를 보입니다.
(2) Video Diffusion DiT
- Flow Matching 기법을 결합한 Diffusion Transformer(줄여서 DiT) 구조를 사용합니다.
- 텍스트 인코더로 T5를 활용하여, 입력 문장을 Transformer 블록의 크로스 어텐션 형태로 녹여냅니다.
- 시간 정보(프레임 순서 등)를 모델에 전달하기 위해서 Linear+SiLU 모듈로 6개의 매개변수를 예측하는 방식을 적용, 이를 모든 Transformer 블록에서 공유하되 블록마다 다른 바이어스를 학습합니다.
- 1.3B 모델과 14B 모델에서 공통적으로 사용되는 핵심 구조로, 같은 파라미터 규모 대비 성능 향상에 기여합니다.
(3) 모델 규모 및 병렬화(훈련 및 추론)
- 훈련 시에는 FSDP(Full State Sharding)와 Context Parallel(이하 CP)을 결합하는 방식을 사용합니다.
- FSDP: 모델 파라미터를 여러 GPU에 분산(샤딩)해 메모리를 절약하고, 병렬 처리를 가능케 함.
- CP: 입력 시퀀스(문장 길이, 프레임 길이 등)에 따라 여러 GPU에 나누어 처리.
- 추론 시에는 단일 영상 생성 시간을 줄이기 위해 CP를 유지하고, 대형 모델(예: 14B)은 모델 자체를 여러 GPU에 나누는 FSDP 방식도 적용합니다.
- 이중 14B처럼 큰 모델은 시퀀스가 길어질 때 통신량이 커지지만, FSDP를 사용하면 통신 과정을 어느 정도 겹치면서 높은 효율을 낼 수 있습니다.
(4) Image-to-Video (I2V)
- 하나의 이미지를 입력받고, 이를 첫 프레임으로 삼아 나머지 프레임을 새로 생성함으로써 영상으로 확장하는 작업입니다.
- 3D VAE로 이미지를 먼저 인코딩한 뒤, 나머지 프레임은 ‘마스크(0) 처리’된 상태에서 Diffusion Transformer로 생성합니다.
- CLIP 이미지 인코더로 입력 이미지를 추가 분석해 전역적 컨텍스트를 추출하고, 이를 DiT에 크로스 어텐션 형태로 결합해 구체적인 애니메이션을 구현합니다.
Wan2.1은 영상 생성 분야에서 오픈소스로 공개된 가장 강력하고 폭넓은 기능을 갖춘 모델 중 하나입니다. 단순 문장 입력부터 복잡한 이미지/영상 편집까지 지원하며, 대규모 병렬화를 통해 훈련과 추론 모두 높은 효율을 보장합니다. 특히 텍스트 생성(한·영), 고해상도 처리, GPU 메모리 절약 측면에서 주목할 만한 혁신을 이루었고, 성능 역시 기존 최첨단(SOTA) 모델을 능가하거나 대등한 수준입니다.
참고자료
Q&A
Q. 'Wan'은 어떤 입력을 통해 비디오를 생성하나요?
'Wan'은 텍스트나 이미지 입력을 기반으로 비디오를 생성합니다. 사용자가 간단한 설명이나 이미지를 제공하면, 이를 분석하여 적합한 비디오 콘텐츠를 자동으로 만들어줍니다.
Q. 'Wan'을 사용하기 위해 전문적인 지식이 필요한가요?
아니요, 'Wan'은 비전문가도 손쉽게 사용할 수 있도록 설계되었습니다. 복잡한 비디오 제작 과정 없이도 간단한 입력만으로 고품질의 비디오를 생성할 수 있습니다.
Q. 생성된 비디오는 상업적으로 활용할 수 있나요?
생성된 비디오의 상업적 활용 가능 여부는 'Wan'의 이용 약관에 따라 다를 수 있습니다. 사용 전에 해당 약관을 확인하시기 바랍니다.
'AI 기술' 카테고리의 다른 글
NotaGen : 클래식 음악을 작곡하는 심볼릭 음악 생성 모델 (0) | 2025.03.05 |
---|---|
olmOCR: PDF에서 자연어 처리를 위한 최적의 텍스트 추출 솔루션 (0) | 2025.03.04 |
Mercury: 상업 규모의 첫 확산 기반 대형 언어 모델 (1) | 2025.03.02 |
ART (익명 영역 변환기) : 쉽고 빠른 다층 이미지를 생성하는 기법 (0) | 2025.03.02 |
RealCam-I2V: 실세계 이미지-비디오 생성 기술과 상호작용적 카메라 제어 (0) | 2025.03.01 |