AI 탐구노트

GAIA-2 : 자율주행을 위한 혁신적인 비디오 생성 세계 모델 본문

AI 기술

GAIA-2 : 자율주행을 위한 혁신적인 비디오 생성 세계 모델

42morrow 2025. 4. 2. 12:20

 

현대의 자율주행 기술은 놀라운 속도로 발전하고 있지만, 여전히 넘어야 할 큰 장벽이 존재합니다. 그 중에서도 가장 중요한 문제 중 하나는 현실적인 운전 시나리오의 시뮬레이션입니다. 현실 세계에서 데이터를 수집하는 것은 시간과 비용이 많이 들 뿐만 아니라, 드물고 위험한 상황을 반복적으로 수집하는 것은 사실상 불가능합니다. 이러한 한계를 극복하기 위해 최근 인공지능 분야에서는 생성형 모델, 특히 비디오 생성 모델을 활용한 가상 세계 시뮬레이션이 주목받고 있습니다.

 

하지만 일반적인 생성형 비디오 모델은 자율주행의 고유한 요구사항 (예를 들어 다중 에이전트 간의 상호작용, 시간적·공간적 일관성, 그리고 여러 카메라 뷰의 조화 등)을 만족시키기 어렵습니다. 이러한 현실적인 문제를 해결하기 위해 제안된 모델이 바로 GAIA-2입니다. 이 모델은 자율주행에 특화된 조건부 비디오 생성 모델로서, 다양한 주행 환경과 동적 에이전트의 행동을 제어하면서 고해상도 비디오를 생성할 수 있습니다.


 

GAIA-2

1) 기존 방식의 문제점

기존의 비디오 생성 모델은 대부분 일반적인 영상 데이터를 대상으로 설계되었기 때문에, 도로 환경, 차량 행동, 날씨 등 다양한 조건을 정밀하게 제어하는 데 어려움이 있었습니다. 특히, 다중 카메라 뷰를 동시에 처리하거나, 자율주행 차량의 행동을 기반으로 상황을 시뮬레이션하는 기능이 부족했습니다. 일부 모델은 특정 조건부 제어 기능을 갖추었지만, 여전히 다중 카메라 일관성, 고해상도 처리, 세밀한 시간적 흐름 재현 등 다양한 측면에서 제약이 있었습니다.

 

2) GAIA-2 개요

Wayve가 최근 공개한 GAIA-2자율주행 및 운전자 보조 시스템(ADAS)을 위한 최첨단 비디오 생성 세계 모델로, 합성 데이터 생성의 새로운 기준을 제시합니다. GAIA-2는 2025년 3월 26일에 발표되었으며, 이전 모델인 GAIA-1의 성공을 바탕으로 더욱 향상된 다양성, 현실성, 그리고 제어 가능성을 제공합니다. 이 모델은 자율주행 AI 시스템의 훈련과 검증을 가속화하기 위해 설계되었으며, 실세계 데이터 수집의 한계를 넘어 안전하고 확장 가능한 솔루션을 제공합니다. GAIA-2는 다중 카메라 뷰의 시공간적 일관성을 유지하며, 다양한 지리적 환경과 주행 조건을 생성할 수 있는 능력으로 주목받고 있습니다.

 

3) 접근 방식

GAIA-2는 이러한 한계를 극복하기 위해 연속형 잠재 공간 기반의 확산 모델(latent diffusion model)을 활용합니다. 모델은 크게 두 가지 주요 컴포넌트로 구성되어 있습니다: 비디오 토크나이저(video tokenizer)세계 모델(world model)입니다.

  • 비디오 토크나이저는 고해상도 비디오를 의미론적 정보가 풍부한 잠재 공간으로 압축하여 효율적인 학습을 가능하게 합니다.
  • 세계 모델은 과거 상태, 차량 동작, 환경 조건 등을 바탕으로 미래의 잠재 상태를 예측하고, 이를 다시 비디오로 복원하는 구조입니다.

이 구조는 다중 카메라 시점, 다양한 운전 조건, 주변 객체의 배치 등을 정밀하게 제어할 수 있어, 실제 자율주행 시스템의 학습과 테스트에 적합한 가상의 운전 환경을 생성할 수 있습니다.

 

4) 세부 적용 기술

 

1️⃣ 비디오 토크나이저 구조

 

비디오 토크나이저는 고해상도 비디오를 공간 및 시간적으로 압축된 잠재 표현(latent representation)으로 변환합니다. 이 과정에서 공간 압축 비율은 32배, 시간 압축은 8배에 이르며, 이는 고해상도 비디오도 효율적으로 다룰 수 있게 합니다. 아래 그림은 비디오 토크나이저 구조를 보여주며 입력 프레임이 어떻게 잠재 벡터로 변환되고 다시 원래 비디오로 복원되는지를 보여줍니다.

 

그림 : 비디오 토크나이저 구조

 

 

 

그림 : 시나리오 임베딩(Scenario Embedding) 기반 조건 제어

 

잠재 공간(latent space) : 원본 데이터를 압축해 표현하는 고차원 벡터 공간
Factorized Transformer : 공간과 시간 정보를 분리해서 효율적으로 처리하는 트랜스포머 구조

 

 

2️⃣ 조건부 제어 구조 (Conditioning)

 

GAIA-2는 다양한 형태의 조건을 기반으로 장면을 생성합니다. 예를 들어, 차량의 속도와 회전 정도(곡률), 주변 객체(다른 차량, 보행자 등)의 위치와 방향, 도로의 종류와 날씨 등의 정보를 교차 어텐션(cross-attention)Adaptive LayerNorm 방식으로 처리합니다.

  • Dynamic Agent 제어 : 주변 객체는 3D 바운딩 박스를 사용해 표현되며, 각 객체의 위치, 방향, 종류 등을 개별적으로 조정할 수 있습니다.
  • CLIP 임베딩 : 텍스트나 이미지에서 추출한 의미 정보를 바탕으로 시맨틱한 장면 제어도 가능합니다.

3️⃣ 다중 카메라 일관성

 

GAIA-2는 최대 5개 카메라 시점을 동시에 다루며, 공간적/시간적 일관성을 유지한 채 비디오를 생성합니다. 이는 실제 자율주행 차량의 센서 구성과 유사하며, 다양한 차량 타입(스포츠카, SUV, 밴 등)에 대응 가능합니다.

 

4️⃣ 다양한 추론 모드

 

모델은 다음과 같은 다양한 추론 방식으로 활용될 수 있으며 이는 기존 영상 데이터를 기반으로 다양한 시나리오 생성 및 증강을 가능하게 합니다.

  • 처음부터 생성 (from scratch)
  • 기존 영상 기반 예측 (rollout)
  • 부분 수정 (inpainting)
  • 장면 편집(scene editing)

 

 

그림 : GAIA-2 전체 아키텍처

 

 

5) GAIA-2의 주요 특징과 차별화된 점

GAIA-2는 일반적인 텍스트-비디오나 이미지-비디오 생성 모델과 달리, 자율주행이라는 특정 도메인에 특화된 설계로 차별화됩니다. 다음은 GAIA-2의 주요 강점입니다.

  • 향상된 정밀 제어 : GAIA-2는 에고 차량(ego-vehicle)의 행동, 다른 도로 사용자들의 움직임, 그리고 도로 구성(차선 구조, 교차로 등), 날씨, 시간대와 같은 환경 요소를 세밀하게 제어할 수 있습니다. 이는 개발자가 특정 시나리오를 의도적으로 설계하고 테스트할 수 있게 해줍니다.
  • 확장된 다양성 : 영국, 미국, 독일 등 여러 국가의 대규모 데이터셋 다양한 차량 플랫폼(승용차, 밴 등)을 기반으로 훈련된 GAIA-2는 지역적 특성과 극단적인 코너 케이스(corner cases)를 반영한 합성 데이터를 생성합니다. 이는 모델의 적응성과 현실성을 크게 높입니다.
  • 다중 카메라 일관성 : GAIA-2는 다중 카메라 뷰 간의 공간적, 시간적 일관성을 보장하며, 현대 소프트웨어 정의 차량의 서라운드 뷰 시스템을 모방합니다. 이는 실제 차량의 멀티 카메라 설정을 반영하여 AI의 인식 및 의사결정 능력을 강화합니다.
  • 안전 중심 시나리오 생성 : 실세계에서 드물게 발생하는 안전-critical 상황(예: 미국에서 53만 5천 마일당 한 번 발생하는 충돌 사고나 0.064% 확률의 나무와의 충돌)을 대량으로 시뮬레이션할 수 있어, 위험한 상황을 실제 도로에서 테스트하지 않고도 모델을 검증할 수 있습니다.

이러한 특징들은 GAIA-2를 단순한 비디오 생성 도구가 아닌, 자율주행 개발의 핵심적인 오프보드 AI 툴로 자리 잡게 합니다. 특히, Wayve의 최고 과학자인 Jamie Shotton은 "GAIA-2는 안전-critical 엣지 케이스를 체계적이고 제어 가능하게 테스트할 수 있는 가상 환경을 제공한다"고 강조하며, 실세계 테스트의 한계를 넘어서는 이 모델의 가치를 역설했습니다.

 

그림 : GAIA-2가 생성한 장면 다양성의 예시 (다양한 지역/조명/날씨조건)

 

 

6) Tesla의 실세계 영상 데이터 기반 학습과의 비교

Tesla는 자율주행 시스템 개발에서 방대한 실세계 영상 데이터를 활용하는 것으로 유명합니다. Tesla의 접근법은 차량에 탑재된 카메라를 통해 수집된 수십억 마일의 주행 데이터를 기반으로 모델을 훈련시키며, 이를 통해 Full Self-Driving(FSD) 시스템을 지속적으로 개선하고 있습니다.

 

아래는 가상 데이터를 사용하지 않고 실세계 영상 데이터만 사용할 경우의 한계점으로 들 수 있는 것입니다. 

  • 데이터 의존성 : 실세계 데이터에만 의존할 경우, 드물게 발생하는 엣지 케이스(예: 극단적인 날씨나 예측 불가능한 보행자 행동)를 충분히 포착하기 어렵습니다.
  • 제어 가능성 : 실제 운전 상황을 반영하지만, 특정 변수(예: 특정 시간대의 안개 낀 도로)를 의도적으로 조작하기 어렵습니다. 
  • 비용과 시간 효율성 : 실세계 영상 데이터를 수집하기 위해서는 대규모의 차량들과 장기간의 수집 작업이 요구되며, 이는 비용과 시간이 많이 듭니다.

 

실제 Tesla도 실세계 영상만으로는 특이 엣지케이스 등에 대한 대응이 어렵기 때문에, 가상 생성한 물리 세계에서 만들어진 영상 데이터를 추가로 학습에 이용하고 있다고 알려져 있습니다. 즉, 대량의 실세계 영상 데이터 + 가상 세계의 엣지 케이스 영상 데이터 이렇게 이용하고 있는 것이죠. 

 

사진 : 테슬라가 자율주행 기술 개발을 위해 사용했다는 가상 영상 기반 시뮬레이션 (출처 : Two Minute Papers)

 

7) GAIA-2가 가지는 의미

위의 비교만 보면 두 방식을 다 하고 있고 방대한 실세계 데이터를 보유하고 있는 Tesla의 완승 같아 보입니다. 실제 도로 상의 자동차에 적용되는 현실화 부분에서는 정말 그럴지도 모릅니다. 하지만, Tesla가 아닌 '다른 브랜드의 차량에도 적용할 수 있는가' 라는 측면에서 본다면 얘기가 다를 것 같습니다. 

 

GAIA-2는 다음과 같은 측면에서 유리한 점이 있다고 판단됩니다. 

  • 합성 데이터가 실세계의 미묘한 뉘앙스를 완벽히 재현하지 못할 가능성은 여전히 남아 있긴 하지만, 합성 데이터의 현실성을 높이기 위해 UK, US, 독일의 실세계 데이터를 기반으로 훈련되었습니다.
  • 학습 속도가 빠르고 경량화된 구조를 가지고 있어 다양한 차량에 적용할 수 있는 유연성이 이습니다. 
  • 데이터 수집,처리에 드는 비용이 낮으며, 효율적인 연산 구조로 에너지 효율성이 뛰어납니다. 

 

자율 주행 기술의 발전은 우리의 일상에 큰 변화를 가져올 것으로 예상됩니다. 그러나 이러한 기술이 안전하고 신뢰성 있게 작동하기 위해서는 다양한 상황에 대한 철저한 검증이 필수적입니다. GAIA-2와 같은 첨단 비디오 생성 모델은 이러한 검증 과정을 보다 효과적으로 수행할 수 있도록 도와줄 것입니다. 

 

GAIA-2는 자율주행을 위한 생성형 비디오 모델의 새로운 가능성을 보여줍니다. 특히 다중 시점 카메라, 다양한 조건 기반 생성, 장면 편집 기능을 통합한 유일한 모델로서, 현실에 가까운 시뮬레이션 환경을 제공합니다. 이는 자율주행 시스템의 학습과 평가에서 데이터 다양성 확보, 희귀 상황 재현, 시스템 강건성 평가 등의 측면에서 큰 효과를 줄 수 있습니다.

 

앞으로 이러한 기술이 더욱 발전하여, 우리가 자율 주행 차량을 더욱 신뢰하고 편리하게 이용할 수 있는 날이 오길 기대해 봅니다.


참고자료

  • 논문) GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving (링크)
  • 블로그) GAIA-2: Pushing the Boundaries of Video Generative Models for Safer Assisted and Automated Driving (링크)

Q&A

Q. GAIA-2는 어떤 조건을 기반으로 운전 시나리오를 생성하나요?

GAIA-2는 차량 속도, 곡률, 도로 환경, 날씨, 시간대, 주변 객체의 위치 및 행동 등 다양한 조건을 바탕으로 시나리오를 생성합니다.

 

Q. 이 모델은 실제 자율주행 차량 시스템과 어떻게 연동될 수 있나요?

GAIA-2는 생성된 영상이 실제 자율주행 차량의 인지 및 계획 모듈과 연동될 수 있도록, 의미론적으로 일관된 형태의 입력을 제공합니다.

 

Q. 기존 생성 모델과 비교해 GAIA-2의 차별점은 무엇인가요?

GAIA-2는 다중 카메라 일관성, 세부 조건 제어, CLIP 및 시나리오 임베딩 지원 등 다양한 고급 기능을 통합한 점에서 기존 모델보다 우수한 제어성과 현실감을 제공합니다.