일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오픈소스
- 확산 모델
- 오픈AI
- 아두이노
- 인공지능
- 다국어 지원
- OpenAI
- TRANSFORMER
- AI
- 메타
- ubuntu
- ChatGPT
- PYTHON
- LORA
- LLM
- tts
- 생성형 AI
- 이미지 생성
- AI 기술
- 실시간 렌더링
- 휴머노이드 로봇
- 일론 머스크
- 트랜스포머
- 우분투
- 티스토리챌린지
- 딥러닝
- 오블완
- 시간적 일관성
- OpenCV
- 강화 학습
- Today
- Total
AI 탐구노트
SynCity : 텍스트만으로 만드는 자유로운 3D 세상 본문
최근 인공지능 기술은 단순한 이미지 생성에서 나아가, 3D 객체와 장면까지 자동으로 생성해내는 수준에 도달했습니다. 특히 게임, 메타버스, 시뮬레이션, 영화 특수효과 등에서 고품질 3D 콘텐츠에 대한 수요는 꾸준히 증가하고 있습니다. 그러나 이처럼 정교한 3D 세상을 만드는 일은 여전히 시간과 비용이 많이 드는 작업입니다. 그렇기 때문에 인공지능 기술을 활용해 이를 자동화하고, 창의적인 작업에 더 많은 시간을 쓸 수 있도록 하는 시도가 활발히 이어지고 있습니다.
특히 주목할 만한 점은, 최근에는 텍스트만 입력하면 AI가 상상력을 발휘해 3D 공간을 생성해주는 기술들이 속속 등장하고 있다는 점입니다. 그러나 기존의 많은 기술들은 개별 객체 생성에 머물거나, 생성된 공간이 정적인 '버블'에 가깝다는 한계를 가지고 있습니다. 즉, 사용자가 그 공간을 자유롭게 탐험하거나 걷는 등의 상호작용이 어려운 경우가 많았죠.
이러한 한계를 넘어서기 위해, 'SynCity'라는 새로운 접근법을 제시되었습니다. 이 기술은 사전 학습된 언어, 2D 이미지, 3D 생성 모델들을 결합하여, 별도의 추가 학습 없이도 크고 복잡한 3D 세계를 자유롭게 생성할 수 있게 해줍니다.
SynCity
1) 기존 방식의 문제점
기존의 3D 생성 기술들은 대부분 '객체 중심'으로 설계되어 있습니다. 다시 말해, 의자 하나, 집 하나처럼 개별적인 3D 객체를 생성하는 데 초점을 맞추고 있었고, 그 결과 거대한 장면이나 도시와 같은 ‘세계’는 만들기 어려웠습니다.
또한, 일부 방법은 2D 이미지를 점차 확장해가는 방식으로 3D 장면을 만들어내지만, 이 경우 카메라가 벗어나는 순간 일관성이 무너지거나 구조가 이상해지는 문제가 있었습니다. 즉, '그럴듯한 장면'은 만들 수 있지만, 그 속을 자유롭게 걷거나 둘러보는 것은 매우 제한적이었습니다.
2) 접근 방식
SynCity는 기존 기술들의 장점을 조합해 다음과 같은 접근을 제안합니다:
- 학습이 필요 없는(training-free) 방식 : 사전 학습된 생성 모델들을 그대로 사용합니다. 따라서 별도의 데이터 준비나 훈련이 필요 없습니다. 이때 사전 생성 모델로는 2D 이미지 생성을 위한 Flux와 3D 생성을 위한 Trellis라는 모델이 사용되었습니다.
- 타일 기반 생성 : 전체 3D 세계를 작은 정사각형 ‘타일’ 단위로 나눠 하나씩 생성한 뒤, 이를 이어붙이는 방식을 사용합니다.
- 프롬프트 엔지니어링 : 언어 모델, 2D 이미지 생성기, 3D 생성기를 효과적으로 연결하기 위해 각 단계를 정교하게 설계했습니다.
3) 세부 적용 기술
1️⃣ 언어 프롬프트 분해(Language Prompting)
전체 세계를 설명하는 텍스트 하나를 입력하면, 이를 여러 개의 타일별 설명으로 나눕니다. 예를 들어 "중세 도시"라는 입력이 있으면, "시장", "성벽", "마을 입구" 같은 세부 설명이 자동으로 생성됩니다.
2️⃣ 2D 이미지 생성과 인페인팅(Image Prompting & Inpainting)
각 타일에 대해 2D 이미지 생성기를 사용하여 '등각(isometric)' 시점의 이미지를 생성합니다. 이전에 생성된 타일과 자연스럽게 연결되도록 '이미지 인페인팅(빈 공간을 채우는 기법)'이 활용됩니다.
3️⃣ 3D 생성과 리베이싱(Rebasing)
생성된 2D 이미지를 바탕으로 3D 타일을 생성합니다. 이때, '바닥(base)'을 덧붙이는 리베이싱을 통해 각 타일이 정확한 높이와 구조를 갖추도록 합니다. 이 과정에서는 TRELLIS라는 3D 생성 모델을 사용합니다.
4️⃣ 3D 블렌딩과 정합성 확보(3D Blending)
각 타일이 따로 생성되기 때문에, 경계가 부자연스러울 수 있습니다. 이를 해결하기 위해, 이웃 타일 간의 경계 부분을 다시 생성해 부드럽게 연결합니다. 특히 3D 공간에서의 정확한 정합성을 위해 고유한 조정 방식이 사용됩니다.
5️⃣ 업샘플링과 정렬(Upsampling & Alignment)
생성된 3D 데이터는 해상도가 낮기 때문에, 이를 높은 해상도로 변환하면서도 세부 구조를 유지하는 기술이 추가로 적용됩니다.
4) 제약사항
- 타일 단위 생성이기 때문에, 아주 복잡하고 긴 구조물을 만들기에는 제한이 있습니다.
- 사용된 모델들(Flux, TRELLIS)의 성능에 따라 결과의 품질이 영향을 받을 수 있습니다.
- 타일 간 연결은 후처리를 통해 보정되지만, 완벽하게 자연스럽지는 않을 수 있습니다.
SynCity는 별도의 학습 없이도 텍스트만으로 정교하고 확장 가능한 3D 세계를 생성할 수 있는 프레임워크입니다. 특히 타일 기반 접근은 장면 전체에 대한 정밀한 제어와 확장성을 제공하며, 생성된 공간은 단순히 '보기만 하는' 장면이 아니라 실제로 탐험 가능한 '세계'로서의 가능성을 보여줍니다. 향후 모델을 직접 미세 조정하거나, 타일 구조를 더 자유롭게 만드는 등의 발전이 이뤄진다면, 더 큰 스케일과 자유도를 가진 가상 세계 구현이 가능해질 것입니다.
참고자료
- 논문) SynCity: Training-Free Generation of 3D Worlds (링크)
- 사이트) SynCity 프로젝트 (링크)
- SynCity라는 용어는 게임 'SimCity'에서 영감을 받은 것일 겁니다. (일종의 오마쥬? ^^;) 아시는 분들은 아시겠지만 SimCity는 자신이 원하는 도시를 시장이 되어 직접 가꾸고 경영하는 시뮬레이션 게임입니다.
Q&A
Q. SynCity는 어떤 경우에 가장 유용하게 활용될 수 있나요?
게임 맵 제작, 메타버스 공간 설계, 가상 도시 시뮬레이션 등에서 복잡한 3D 세계를 자동으로 만들고자 할 때 매우 효과적입니다.
Q. SynCity는 왜 사전 학습이 필요 없나요?
SynCity는 이미 학습된 언어 모델, 이미지 생성 모델, 3D 생성 모델을 조합하기 때문에 별도의 재학습 없이 사용할 수 있습니다.
Q. 3D 타일 간 경계 문제는 어떻게 해결되나요?
이미지 인페인팅과 3D 라티언트 블렌딩을 통해 타일 간 자연스러운 연결을 도와줍니다.
'AI 기술' 카테고리의 다른 글
Murre: 한 장의 사진으로 3D 공간을 만드는 새로운 기술 (2) | 2025.03.26 |
---|---|
InfiniteYou : 얼굴은 그대로, 사진은 자유롭게 바꾸는 AI 기술 (5) | 2025.03.25 |
Neural Path Representation을 활용한 Text-to-Vector 생성 (0) | 2025.03.22 |
RI3D : 소수의 이미지로 3D 장면을 재구성하는 확산 모델 기반 기술 (0) | 2025.03.21 |
Personalize Anything : 디퓨전 트랜스포머로 개인화된 이미지 생성하기 (2) | 2025.03.20 |