AI 탐구노트

MAGI-1: 자기회귀 방식의 확장 가능한 비디오 생성 모델 본문

AI 기술

MAGI-1: 자기회귀 방식의 확장 가능한 비디오 생성 모델

42morrow 2025. 4. 25. 20:21

 

 

인공지능 기술은 이미지 생성에서 시작해 이제는 비디오 생성으로 그 영역을 넓혀가고 있습니다. 특히 현실과 같은 장면을 텍스트나 이미지로부터 자동으로 생성해내는 기술은 영화, 게임, 가상현실 등 다양한 분야에서 큰 관심을 받고 있습니다. 이러한 기술은 단순히 시각적인 만족감을 주는 것을 넘어서, 인간의 상상력과 표현력을 기계가 이해하고 구현하는 방향으로 발전하고 있습니다.

 

최근에는 ‘자기회귀 방식’을 기반으로 하는 모델들이 주목받고 있습니다. 자기회귀란 시간의 흐름에 따라 순차적으로 데이터를 예측해가는 방식으로, 특히 비디오처럼 시간에 따른 변화가 중요한 데이터에 적합합니다. MAGI-1은 이러한 자기회귀 방식을 기반으로 고화질, 고일관성의 영상을 실시간으로 생성할 수 있는 모델로, 기존의 전통적인 방식이 가지던 여러 제약을 해결합니다. 본 글에서는 MAGI-1의 핵심 원리와 기술을 쉽게 풀어보며, 이 모델이 어떤 방식으로 비디오를 생성하고 어떤 장점을 가지는지 알아보겠습니다.


MAGI-1

1) 기존 방식의 문제점

기존의 비디오 생성 모델들은 주로 전체 영상을 한 번에 처리하는 방식이었습니다. 이 방식은 영상의 시작부터 끝까지 모든 프레임에 동일한 수준의 노이즈를 적용하고, 전체 시퀀스를 한꺼번에 처리하는 구조로 되어 있었습니다. 그러나 이러한 접근은 다음과 같은 문제를 가지고 있습니다:

  • 시간 순서 무시 : 영상의 시간적 흐름을 고려하지 않기 때문에, 실시간 생성이나 연속된 움직임을 자연스럽게 구현하는 데 한계가 있습니다.
  • 높은 계산 비용 : 전체 시퀀스를 동시에 처리하려면 메모리 사용량과 계산량이 커져, 실시간 생성에는 적합하지 않습니다.
  • 일관성 부족 : 장면 전환이나 오브젝트 움직임에서 시간적 일관성이 깨지기 쉬워 시청자에게 어색하게 느껴질 수 있습니다.

2) MAGI-1의 접근 방식

MAGI-1은 위의 문제들을 해결하기 위해 ‘청크(chunk)’ 단위 자기회귀 생성 방식을 사용합니다. 청크란 일정 길이(예: 1초)로 나눠진 연속된 영상 프레임 묶음입니다. 모델은 전체 영상을 한 번에 처리하는 것이 아니라, 이전에 생성한 청크를 참고하면서 다음 청크를 예측해나갑니다.

 

이러한 방식은 다음과 같은 장점을 가집니다:

  • 시간적 순서 보장 : 왼쪽에서 오른쪽으로 흐르는 시간 순서를 엄격히 따르므로, 자연스러운 영상 흐름을 구현할 수 있습니다.
  • 스트리밍 가능 : 생성된 청크부터 바로 보여줄 수 있어 실시간 영상 생성에도 적합합니다.
  • 계산 비용 고정 : 전체 영상 길이와 관계없이 청크 단위로만 계산하므로, 메모리 및 연산 자원 사용량이 일정하게 유지됩니다.

3) 세부 적용 기술

 

1️⃣ 청크 단위 생성과 블록 인과적 마스크
MAGI-1은 각 청크가 이전 청크들을 참조할 수 있도록 설계된 블록 인과적(attention mask) 구조를 사용합니다. 이를 통해 시간적 일관성을 유지하면서도 청크 간 병렬 처리를 가능하게 합니다.

 

그림 : 청크 단위 비디오 생성

블록 인과적 마스크
시간 순서를 강제하면서도 여러 구간을 동시에 처리할 수 있도록 제한된 범위에서만 주의를 기울이는 방식

 

2️⃣ Transformer 기반 VAE 구조
MAGI-1은 고해상도 영상을 효율적으로 처리하기 위해, Transformer 기반의 VAE(Variational Auto-Encoder)를 사용합니다. 이는 기존의 CNN 기반보다 빠르고 해상도에 덜 민감하며, 훈련 효율이 뛰어납니다.

 

3️⃣ 자기회귀 디퓨전 모델 구조
기존의 양방향(bidirectional) 모델과 달리, MAGI-1은 청크별로 점점 덜 깨끗한(더 노이즈가 많은) 청크를 처리하게 합니다. 이렇게 하면 자연스럽게 과거를 바탕으로 미래를 예측하는 방식이 구현됩니다.

 

그림 : Auto-Regressive Denoising Model의 아키텍처

 

4️⃣ 병렬 주의 메커니즘 및 GQA(Grouped-Query Attention)
MAGI-1은 여러 GPU에서 효율적으로 작동하도록, 병렬 계산을 위한 주의(attention) 구조와 메모리 절약형 GQA를 사용합니다. 이를 통해 모델 크기가 커져도 안정적으로 훈련할 수 있습니다.

 

5️⃣ 디퓨전 가이드와 시간별 보정
텍스트 조건이나 이전 청크와의 연관성을 조절하는 파라미터를 통해 영상의 흐름이나 주제 일관성을 높입니다. 예를 들어 wprev를 높이면 청크 간 매끄러운 연결이 이루어지고, wtext로는 텍스트 조건의 강도를 조절할 수 있습니다.

 

그림 : 다양한 생성 작업을 하나의 프레임워크로 생성

 

위의 그림은 텍스트 to 비디오, 이미지 to 비디오, 영상 이어 붙이기 작업이 하나의 모델 안에서 이뤄지는 것을 설명하고 있습니다. 

 

4) 제약사항

  • 초기 훈련 비용: 24억 개의 파라미터를 가진 대형 모델로, 초기 훈련에는 고성능 인프라가 필요합니다.
  • 고속 스트리밍 실현에는 별도의 인프라 구성 필요: 실시간 응답성을 위해 전용 시스템이 요구됩니다.
  • 프롬프트 품질 의존성: 사용자가 제공하는 텍스트의 품질에 따라 생성되는 영상의 퀄리티가 크게 달라집니다.

 

MAGI-1은 비디오 생성 기술의 새로운 기준을 제시하는 혁신적인 모델입니다. 기존의 전체 영상 처리 방식에서 벗어나, 시간의 흐름에 따라 한 청크씩 순차적으로 생성하는 자기회귀 구조를 채택함으로써, 시간 일관성, 생성 속도, 계산 효율성이라는 세 가지 측면에서 모두 우수한 성능을 보여줍니다. 특히 텍스트 기반의 명령을 통해 영상 생성뿐만 아니라, 이미지 기반의 연장 영상 생성(image-to-video), 영상 이어붙이기(video continuation)까지 다양한 작업을 하나의 모델에서 처리할 수 있는 점은 매우 큰 장점입니다.

 

실생활에 적용될 경우, MAGI-1은 광고 제작, 게임 시네마틱 자동 생성, 교육 콘텐츠 생성, 가상 캐릭터 영상 제작 등 다양한 분야에서 사람의 손을 거치지 않고 고품질 영상을 자동으로 생성해낼 수 있는 가능성을 보여줍니다. 또한 chunk-wise 텍스트 컨트롤 기능은 인터랙티브 스토리텔링과 같이 사용자의 입력에 따라 영상 흐름이 바뀌는 콘텐츠 제작에 매우 유용할 것입니다.

 

향후 제약사항으로 언급된 고비용 훈련 및 인프라 의존성이 해결된다면, MAGI-1은 대중적인 영상 생성 도구로 널리 활용될 수 있을 것입니다. 특히 모델 경량화나 프롬프트 해석력 향상과 같은 후속 기술이 적용된다면, 일반 사용자도 자유롭게 영상을 만들 수 있는 시대가 현실로 다가올 것입니다.


참고자료

  • 논문) MAGI-1: Autoregressive Video Generation at Scale (Sand AI) (링크)
  • 코드) MAGI-1 github repository (링크)
  • 영상) MAGI-1 소개 및 데모 영상 (링크)

Q&A

 

Q. MAGI-1은 어떤 방식으로 시간 일관성을 유지하나요?

MAGI-1은 영상을 일정 길이의 청크로 나눈 후, 이전 청크들을 참조하면서 다음 청크를 생성합니다. 이 과정에서 ‘블록 인과적 주의 메커니즘’을 사용해 시간 순서에 따라 생성이 이루어지도록 강제합니다.

 

Q. 기존 모델과 비교했을 때 가장 큰 차이점은 무엇인가요?

기존 모델들은 전체 영상을 한꺼번에 처리하는 방식이지만, MAGI-1은 영상 전체를 청크로 나누어 순차적으로 생성합니다. 이 방식은 실시간 처리와 메모리 효율 면에서 매우 유리합니다.

 

Q. 텍스트 조건을 영상 중간에 바꿔가며 생성할 수 있나요?

가능합니다. MAGI-1은 각 청크마다 별도의 텍스트 조건을 설정할 수 있어, 장면마다 다른 설명을 주어 복잡한 스토리의 영상도 만들 수 있습니다.