AI 탐구노트

GameGen-O : 오픈월드 비디오 게임 생성 모델 본문

AI 기술

GameGen-O : 오픈월드 비디오 게임 생성 모델

42morrow 2024. 9. 16. 09:50
오픈월드 비디오 게임 생성을 위한 Diffusion 기반 Transformer 모델

 

GameGen-O는 오픈월드 비디오 게임 생성을 위한 최초의 확산 변환기 모델으로 다양한 게임 엔진 기능을 시뮬레이션하여 고품질의 게임 콘텐츠를 생성합니다. 

 

'오픈월드'는 플레이어가 자유롭게 탐험할 수 있는 광대한 게임 세계를 의미하죠. 오픈월드 게임으로 잘 알려진 것으로는 '울티마', '디아블로', '월드 오프 워크래프트' 그리고 최근 아이들이 많이 하는 '마인크래프트' 같은 것들이 포함된다고 합니다. 제가 게임을 많이 해 보지 않아 아는 것이 몇 되지 않았습니다. ^^;

 

기존의 게임 생성 방식은 미리 정의된 이벤트나 퀘스트들이 한정되어 있고, 게임 내 환경 자체도 단조로운 경우가 많아 플레이어가 상호작용할 수 있는 범위가 상당히 제한적이었습니다. 게다가 스토리도 예측 가능하게 나오는 경우가 많았죠. 물론 모든 게임들이 그렇다는 얘기는 아닙니다. ^^; 

 

GameGen-O는 이런 문제를 해결하기 위해 우선 OGameData라는 대규모 오픈월드 게임 데이터셋을 구축했습니다. 32,000개의 비디오를 수집해서 다양한 방식으로 거르고 걸러 만든 것이죠. 

사진 : 데이터셋 생성 파이프라인

 

2단계 학습

앞서 만들어진 데이터셋을 이용해 아래와 같이 2단계로 학습을 진행했고 이를 통해 게임을 생성과 상호작용을 제어할 수 있는 기능을 제공할 수 있게 되었습니다. 

  • 기초 사전 훈련
    2+1D VAE(Magvit-v2)를 사용해 클립을 압축하고, 도메인 적응을 위해 디코더를 조정. 프레임 속도와 해상도를 다양하게 해서 모델이 다양한 상황에 일반화되도록 했고, 마스킹 주의 메커니즘을 이용해 텍스트-비디오 생성과 비디오 지속 기능을 제공함
  • 지침 튜닝
    InstructNet
    을 통해 다양한 멀티모달 입력을 허용하고, 현재 콘텐츠를 기반으로 미래 콘텐츠를 예측하고 수정하는 기능을 제공

 

사진 : GameGen-O의 프레임워크

 

결과적으로, GameGen-O는 텍스트 기반의 영상 생성 영상 지속(기존 영상의 맥락이나 스타일을 유지하면서 새로운 프레임을 생성하는 것)을 지원하며, 사용자가 다양한 멀티모달 입력을 통해 콘텐츠를 제어할 수 있도록 개발되었습니다. 

 

 

참고) 프로젝트, 코드, 영상