AI 탐구노트

MirageLSD : 길이 제한이 없이 실시간 AI 비디오 생성을 위한 기술 본문

AI 기술

MirageLSD : 길이 제한이 없이 실시간 AI 비디오 생성을 위한 기술

42morrow 2025. 7. 22. 09:32

 

오늘날 인공지능 영상 기술은 큰 발전을 이루었지만, 여전히 실시간(interactive) 환경에서의 활용에는 한계가 있었습니다. 보통 AI 영상 모델은 10초 이상의 딜레이, 그리고 510초 정도의 고정된 클립만 생성할 수 있었습니다. 이는 사용자와 즉각적으로 상호작용하거나 라이브스트림을 통해 즉시 반영되는 마법 같은 경험을 제공하는 데 제약이 있었습니다. 

 

하지만 MirageLSD는 이러한 한계를 넘어섭니다. ‘라이브‑스트림 디퓨전(LSD)’이라는 완전히 새로운 접근을 도입하면서, 기존의 영상 생성을 넘어 전례 없는 실시간 반응성과 무한 생성 능력을 갖추게 되었습니다.

이 기술 발전은 단순히 속도만의 문제가 아닙니다. 실시간 영상 생성이 가능해지기 위해서는 프레임 간 시간적 일관성을 유지하면서도 지연(latency)을 없애야 합니다. MirageLSD는 이를 위해 ‘Diffusion Forcing’ 기법과 ‘history augmentation’을 결합해 영상 전달 과정에서 발생하는 미세한 오류조차 스스로 교정하며, CUDA 기반의 고성능 GPU 최적화구조적 모델 경량화를 통해 40ms 이내 응답속도를 달성했습니다. 

 


MirageLSD

1) 기존 방식의 문제점

  • 클립 길이 제한 : 대부분의 기존 모델은 20~30초 이상 생성 시 품질 저하 문제가 발생함
  • 고정-구간 생성 : 전체 클립을 한번에 생성하는 방식이라 지연(latency)이 크고 실시간 인터랙티브 적용 불가능
  • 오토리그레시브 모델의 오류 누적 : 이전 프레임의 작은 실수들이 누적되어 몇 초 내에 영상이 흐트러짐

2) 접근 방식

MirageLSD에서는 기존의 문제를 해결하기 위해 다음과 같은 방식으로 접근했습니다. 

  • Diffusion Forcing : 매 프레임을 독립적으로 노이즈 제거하면서 생성할 수 있도록 사전학습 진행
  • History augmentation : 프레임 생성 시 '잡음이 있는 과거 프레임'을 일부러 입력하여, 모델이 오류를 교정하도록 학습 진행

이 두 가지를 결합함으로써, 영상의 순차 생성 시 오류 누적을 막고, 무한히 연속적이며 안정적인 생성이 가능해졌습니다.

 

그림 : 생성가능한 최대 영상 길이의 모델 별 비교

 

 

3) 세부 적용 기술

 

1️⃣ Diffusion Forcing

  • 노이즈 제거 (denoising) 과정을 프레임마다 독립적으로 수행하도록 학습하는 기법입니다. 즉, 각 영상 프레임을 하나의 사진처럼 보고, '노이즈를 하나하나 지워서 완전한 화면을 만들어라'라고 가르치는 방식입니다.

그림 : LSD의 프레임 생성 구조 (Casual Loop 구조)

 

위의 그림은 MirageLSD가 한 프레임을 어떻게 생성하는지를 보여주는 시간 순서 기반의 피드백 루프입니다. 이 구조는 과거 프레임과 사용자의 요구를 기반으로 다음 영상을 생성하는 연속적인 대화형 생성 루프입니다. 

 

 

2️⃣ History Augmentation

  • 오차를 인위적으로 섞은 입력 프레임으로 훈련하여 모델이 스스로 보정하도록 유도합니다. '조금 흐릿한 그림에서도 다시 정확하게 복원하도록 연습시키는 방식'인 셈입니다. 

3️⃣ 최적화 기법 적용 

  • CUDA Mega Kernels (Hopper GPU 최적화) : NVIDIA의 Hopper 아키텍처에 맞춘 긴 커널(Mega Kernel)로 병목을 줄이고 연산 지연을 최소화합니다. 
  • 모델 프루닝과 구조 최적화 : 사용하지 않는 파라미터를 제거(sparsity)하고 GPU 특성에 맞춘 경량화합니다. 
  • Shortcut Distillation : 큰 모델의 복잡한 학습 경로를 작은 모델에게 간략하게 전달해, 적은 계산으로 비슷한 성능을 내도록 합니다. 선생님이 직접 샘 플링 과정을 보여주면, 작은 모델이 '이런 식으로 하면 된다'를 배우는 방식입니다.

4) 제약사항

  • 현재는 과거 프레임 윈도우가 짧아(long-term memory 부족), 얼굴 식별이나 장면 일관성 유지에 한계가 있습니다. 
  • 정밀한 공간 제어(Object control) 기능은 아직도 제한적이며, 향후 키포인트나 어노테이션 기반 인터페이스 통합이 필요합니다.
  • 극단적인 스타일 전환 시 물체의 구조 왜곡 가능성이 존재합니다.

 

MirageLSD는 속도(40ms 이하), 무한 생성, 그리고 실시간 인터랙션을 동시에 달성했다는 점에서 매우 중요한 성과입니다. GPU 최적화, 모델 경량화, 그리고 Distillation까지 결합한 엔드‑투‑엔드 솔루션은 앞으로 라이브 비디오 편집, AR/VR, 실시간 스트리밍 기반 창작 도구 등에 커다란 변화를 가져다줄 수 있을 것으로 기대됩니다. 


 

참고자료

  • 사이트) MirageLSD 의 공식 사이트 (링크)
  • 블로그) MirageLSD의 기술리포트 (링크)
  • 데모 영상) MirageLSD가 적용된 다양한 데모 비디오 영상 (링크)
  • 데모) MirageLSD를 이용해서 카메라 영상으로 실시간 테스트 (링크)

 


Q&A

 

Q.MirageLSD가 어떻게 ‘무한’ 영상을 생성할 수 있나요?

Diffusion Forcing과 History augmentation 덕분에 오류가 누적되지 않고, 매 프레임의 노이즈와 과거 프레임 오류를 스스로 교정합니다.

 

Q.왜 GPU 최적화가 중요한가요?

실시간 24FPS 생성을 위해 각 프레임은 40ms 내에 만들어져야 합니다. 이를 위해 CUDA mega kernel, 파라미터 프루닝, Distillation을 통해 연산량과 지연을 줄였습니다.

 

Q.현재 시스템의 한계는 무엇인가요?

과거 기억 유지가 짧고, 얼굴 등의 일관성 유지, 정밀한 객체 제어가 제한적입니다. 또한, 극단적 스타일 전환 시엔 구조 왜곡이 발생할 수 있습니다.