일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- ubuntu
- OpenAI
- 오블완
- LLM
- ChatGPT
- ControlNet
- 이미지 편집
- 트랜스포머
- AI 기술
- 멀티모달
- PYTHON
- 생성형 AI
- javascript
- 티스토리챌린지
- 뉴럴링크
- 우분투
- AI
- 일론 머스크
- tts
- 확산 모델
- LORA
- 오픈AI
- TRANSFORMER
- 메타
- 시간적 일관성
- 딥마인드
- 아두이노
- 서보모터
- 가상환경
- 인공지능
- Today
- Total
AI 탐구노트
GameGen-O : 오픈월드 비디오 게임 생성 모델 본문
오픈월드 비디오 게임 생성을 위한 Diffusion 기반 Transformer 모델
GameGen-O는 오픈월드 비디오 게임 생성을 위한 최초의 확산 변환기 모델으로 다양한 게임 엔진 기능을 시뮬레이션하여 고품질의 게임 콘텐츠를 생성합니다.
'오픈월드'는 플레이어가 자유롭게 탐험할 수 있는 광대한 게임 세계를 의미하죠. 오픈월드 게임으로 잘 알려진 것으로는 '울티마', '디아블로', '월드 오프 워크래프트' 그리고 최근 아이들이 많이 하는 '마인크래프트' 같은 것들이 포함된다고 합니다. 제가 게임을 많이 해 보지 않아 아는 것이 몇 되지 않았습니다. ^^;
기존의 게임 생성 방식은 미리 정의된 이벤트나 퀘스트들이 한정되어 있고, 게임 내 환경 자체도 단조로운 경우가 많아 플레이어가 상호작용할 수 있는 범위가 상당히 제한적이었습니다. 게다가 스토리도 예측 가능하게 나오는 경우가 많았죠. 물론 모든 게임들이 그렇다는 얘기는 아닙니다. ^^;
GameGen-O는 이런 문제를 해결하기 위해 우선 OGameData라는 대규모 오픈월드 게임 데이터셋을 구축했습니다. 32,000개의 비디오를 수집해서 다양한 방식으로 거르고 걸러 만든 것이죠.
2단계 학습
앞서 만들어진 데이터셋을 이용해 아래와 같이 2단계로 학습을 진행했고 이를 통해 게임을 생성과 상호작용을 제어할 수 있는 기능을 제공할 수 있게 되었습니다.
- 기초 사전 훈련
2+1D VAE(Magvit-v2)를 사용해 클립을 압축하고, 도메인 적응을 위해 디코더를 조정. 프레임 속도와 해상도를 다양하게 해서 모델이 다양한 상황에 일반화되도록 했고, 마스킹 주의 메커니즘을 이용해 텍스트-비디오 생성과 비디오 지속 기능을 제공함 - 지침 튜닝
InstructNet을 통해 다양한 멀티모달 입력을 허용하고, 현재 콘텐츠를 기반으로 미래 콘텐츠를 예측하고 수정하는 기능을 제공
결과적으로, GameGen-O는 텍스트 기반의 영상 생성과 영상 지속(기존 영상의 맥락이나 스타일을 유지하면서 새로운 프레임을 생성하는 것)을 지원하며, 사용자가 다양한 멀티모달 입력을 통해 콘텐츠를 제어할 수 있도록 개발되었습니다.
'AI 기술' 카테고리의 다른 글
Seed-Music : 정교한 스타일 적용이 가능한 음악 생성 시스템 (0) | 2024.09.21 |
---|---|
DrawingSpinUp : 스케치 to 3D 애니메이션 생성 시스템 (1) | 2024.09.17 |
GOT : 다양한 문자 인식 작업을 지원하는 모델 (1) | 2024.09.13 |
Reshot AI : AI 기반의 안면 3D 사진 편집 도구 (0) | 2024.09.11 |
YOLOv9 : 새로운 Yolo 시리즈 객체 탐지 모델 (0) | 2024.09.10 |