AI 탐구노트

The Matrix : 사실적 세계 시뮬레이션을 위한 실시간, 프레임 레벨 컨트롤 본문

AI 기술

The Matrix : 사실적 세계 시뮬레이션을 위한 실시간, 프레임 레벨 컨트롤

42morrow 2024. 11. 24. 10:06

1. 서론

최근 나오는 기술들을 보면, 가상 현실(VR) 및 증강 현실(AR)을 넘어 현실과 가상 세계의 경계가 모호하게 느껴질 정도입니다. 그리고 그것의 바탕에는 현실과 유사한 환경을 지속적으로 생성할 수 있는 기술들이 점점 더 중요해지고 있죠. 게임 엔진, 시뮬레이터, 그리고 딥러닝 기술의 발전은 가상 세계의 정밀도와 몰입도를 크게 향상시키며, 동시에 다양한 산업과 일상생활에서 활용 가능한 새로운 가능성을 제시해 주고 있습니다. 

 

특히, 인공지능을 활용한 '세계 생성' 기술은 단순히 시각적인 요소를 넘어 사용자와 실시간으로 상호작용할 수 있는 환경을 만들어내는 데 주목받고 있습니다. 이번에 소개하는 'The Matrix'는 유명 영화 제목과 동일한 명칭을 사용한 의도에서 느껴지듯, 가상 세계를 만들기 위해 필요한 기술을 제공합니다. 무한한 길이의 고화질 비디오를 실시간으로 생성하며, 사용자의 움직임을 즉각적으로 반영할 수 있는 세계 시뮬레이션을 제공하죠.

 

사진 : The Matrix의 전반적인 기능과 결과에 대한 시각적 요약 (무제한 길이의 고화질 시뮬레이션, 실시간 상호작용)

 


2. 본론

2.1. 기존 방식의 문제점

기존의 세계 생성 기술은 다음과 같은 문제점을 가지고 있었습니다.

  • 짧은 시뮬레이션 길이: 기존 기술은 일반적으로 1분 이내의 짧은 비디오를 생성하는 데 그쳤습니다.
  • 제한된 상호작용: 프레임 단위의 세밀한 제어가 부족해 사용자가 자연스럽게 환경과 상호작용하는 데 한계가 있었습니다.
  • 낮은 해상도 및 성능: 기존의 대부분 모델은 360p나 480p 정도의 해상도와 12FPS 수준의 느린 속도를 보였습니다. 

 

2.2. 접근 방식

 

주요 기술적 접근 방식

The Matrix는 위의 문제점을 해결하기 위해 두 가지 주요 접근 방식을 도입했습니다.

  • Swin-DPM(Shift-Window Denoising Process Model): 기존의 비디오 생성 기술 한계를 넘어, 무한히 확장 가능한 고화질 비디오를 자동 회귀방식으로 생성합니다.
  • SCM(Stream Consistency Model): 실시간 속도(8~16 FPS)로 시뮬레이션을 가능하게 하는 효율적인 샘플링 방식을 제공합니다.

 

모델 훈련의 3단계


The Matrix의 모델 훈련 3단계는 다음과 같습니다. 

그림 : The Matrix 모델의 훈련 과정과 아키텍처에서 사용되는 주요 기술 요소

 

 

1단계: DiT(Video Diffusion Transformer) 모델의 사전 학습과 초기 워밍업

  • 사전에 학습된 Video DiT 모델을 기반으로 사용하며, 이 모델은 비디오 생성에서 기본적인 프레임 구조와 품질을 담당합니다.
  • 초기 훈련에서는 게임 데이터  현실 환경 데이터를 사용해 워밍업되며 LoRA 가중치를 미세 조정하여 기본적인 시뮬레이션 능력을 학습합니다.
  • 게임 데이터와 실제 세계 데이터를 결합한 새로운 데이터셋(Source)을 생성하여 학습에 활용하며, 이 과정에서 라벨링 비용을 줄이고 데이터 품질을 높이는 기술을 사용했습니다. 
  • 이 단계에서는 주로 시각적 요소보다 움직임 데이터를 모델링하는 데 중점을 둡니다.

2단계: Interactive Module 학습

  • 프레임 단위 제어 기능 강화
    • Interactive Module은 사용자의 입력(예: 키보드, 마우스)을 자연어로 변환한 뒤, 이를 기반으로 비디오를 생성합니다.
    • 이 단계에서는 모델이 사용자 입력을 반영하여 자연스러운 움직임을 생성하도록 세밀하게 조정됩니다.

3단계: Swin-DPM 및 Stream Consistency Model(SCM) 학습

  • Swin-DPM(Shift-Window Denoising Process Model)
    • 시뮬레이션을 위한 프레임 단위의 윈도우 방식 노이즈 제거 모델로, 무한히 확장 가능한 비디오를 생성하는 핵심 기술입니다.  
    • 특정 시간 윈도우 내에서 프레임을 처리하며, 이를 통해 연속적인 시뮬레이션을 가능하게 합니다.
    • 이전 프레임 데이터를 캐시에 저장하여 새로운 프레임과의 연속성을 유지합니다.
  • SCM(Stream Consistency Model):
    • 실시간 렌더링 속도를 달성하기 위해 Swin-DPM과 결합하여 샘플링 과정을 최적화합니다.
    • Diffusion 기반 모델의 성능을 10배 이상 향상시켜, 실제 시뮬레이션 환경에서도 활용 가능하게 합니다. 

 

2.4. 제약사항

 

현재 모델은 GPU 메모리 사용량이 많아 저사양 환경에서는 원활히 작동하지 않을 수 있으며, 매우 높은 품질의 라벨링된 데이터가 필요합니다.


3. 결론

 

The Matrix는 무한히 확장 가능한 고화질 비디오 생성과 실시간 제어 기능을 결합하여 기존의 세계 생성 기술의 한계를 극복했습니다. 이는 게임, 영화, 도시 설계, 심지어 자율주행 시뮬레이션까지 다양한 산업에 큰 영향을 미칠 수 있을 것으로 예상됩니다. 

 

비록 진짜 현실은 아니더라도, 컴퓨터나 오큘러스 등 VR, AR 기기를 통해 접속한 가상 세계가 실제 세계를 아주 잘 표현하고 있다면, 그 속에서 돌아다니며 가상 세계 내의 객체와 상호 작용을 하는 플레이어는 이건 가상이야 현실이 아냐 하는 생각을 언제까지 할 수 있을까요? 사람의 뇌는 약간은 자신을 속이는 속성이 있다보니 현실과 구분할 수 없는 가상을 현실로 받아들이는 단계가 올 수도 있을 것 같습니다. 실제 영화 매트릭스에서, 더 나아보이는 가상 세계를 현실 세계 대신 선택하고 그 안에서 부귀영화를 약속 받으며 주인공 네오를 배신했던 사이퍼(Cipher)의 사례처럼 말입니다. 

 

여튼 인공지능 기술의 급격한 발전은 지금은 허무맹랑해 보이는 이러한 고민을 서서히 현실로 만들고 있습니다. 우리 앞에도 조만간 결정을 내려야 할 시기가 오겠죠...

 


4. 참고자료

  • 프로젝트 사이트

 

 

The Matrix

Current state-of-the-art DiT-based video generation models (e.g., CogVideo, Open-Sora) are limited to producing videos just a few seconds long, making them insufficient for creating an infinite-horizon world. The Matrix overcomes this limitation by introdu

thematrix1999.github.io

 

참고) 아직 테스트 가능한 코드, 데모 등은 공개되어 있지 않습니다. 하지만 조만간 나올 예정이라고 합니다. 

 


5. Q&A

Q: The Matrix의 주요 특징은 무엇인가요?
무한 길이의 고화질 비디오를 실시간으로 생성하며, 사용자의 입력에 즉각적으로 반응하는 기능을 제공합니다.

 

Q: Swin-DPM은 어떤 역할을 하나요?
무한히 확장 가능한 비디오를 자동 회귀적으로 생성하며, 시뮬레이션의 연속성을 유지합니다.

 

Q: 이 기술은 어떤 산업에 적용될 수 있나요?
게임, 영화 제작, 도시 계획, 자율주행 등 다양한 분야에서 활용될 수 있습니다.