일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 우분투
- 다국어 지원
- 멀티모달
- OpenAI
- ChatGPT
- 메타
- 일론 머스크
- PYTHON
- 오픈소스
- Stable Diffusion
- 생성형AI
- 강화 학습
- LLM
- 트랜스포머
- 실시간 렌더링
- 인공지능
- 오픈AI
- 오블완
- AI 기술
- 감정 표현
- tts
- XAI
- 강화학습
- 티스토리챌린지
- 자연어 처리
- 휴머노이드 로봇
- 확산 모델
- AI
- 이미지 생성
- 딥러닝
- Today
- Total
AI 탐구노트
VideoScene : 두 장의 사진으로 빠르게 3D 장면을 만드는 신기술 본문
게임이나 영화, 가상현실 같은 분야에서는 현실처럼 보이는 3D 공간을 만들어내는 기술이 매우 중요합니다. 예를 들어, 게임 속에 등장하는 건물이나 거리, 또는 AR(증강현실)에서 보이는 가상의 물체들도 모두 이런 3D 기술 덕분에 만들어집니다. 그런데 이런 3D 장면을 만들려면 보통 수십 장 이상의 사진이 필요합니다. 사진이 많을수록 다양한 각도에서 정보를 얻을 수 있기 때문이죠.
하지만, 현실에서는 그렇게 많은 사진을 찍기가 어렵습니다. 그래서 최근에는 단 몇 장의 사진, 심지어는 두 장의 사진만으로도 3D 장면을 만들어보려는 연구가 활발하게 이루어지고 있습니다.
VideoScene이라는 기술은 이런 배경에서 나오게 되었습니다. 단 두 장의 이미지를 입력하면, 마치 카메라가 장면 사이를 날아다니며 촬영한 것처럼 자연스럽고 입체감 있는 동영상을 만들어주는 이 기술은 기존 방식의 느린 처리 속도나 부정확한 구조 문제를 해결하면서도, 빠르고 일관된 결과를 만들어내는 것이 가장 큰 장점입니다.
VideoScene
1) 기존 방식의 문제점
예전에는 3D 장면을 만들기 위해 수십 장의 사진이 필요했습니다. 그래야 다양한 방향에서 사물을 볼 수 있었고, 정확한 입체 구조를 계산할 수 있었기 때문입니다. 하지만 그렇게 많은 사진을 찍는 건 시간도 오래 걸리고, 장비도 필요하고, 일반 사람들에게는 어려운 일이었죠.
그래서 최근에는 적은 수의 사진, 특히 두 장만으로도 3D 공간을 만들 수 있는 방법들이 등장했습니다. 그런데 이 방법들은 대체로 다음과 같은 단점이 있었습니다.
- 다단계 복원 과정의 비효율성 : 결과를 얻기까지 시간이 오래 걸림 (수십 번 계산을 반복해야 함)
- 3D 구조에 대한 제약 부족 : 생성된 비디오는 보기에는 자연스러우나 실제 3D 공간 구조와는 맞지 않는 경우가 많음
2) 접근 방식
VideoScene은 위 문제들을 해결하기 위해 두 가지 핵심 아이디어를 사용합니다.
- 3D-Aware Leap Flow Distillation 기법을 도입해 영상 생성 모델의 비효율적인 디노이징 과정을 뛰어넘어, 빠르고 일관된 3D 구조를 생성할 수 있게 합니다. 이를 위해 우선 MVSplat이라는 빠른 3D 추정 모델을 활용하여 초기 3D 정보를 만들어냅니다.
- DDPNet(Dynamic Denoising Policy Network)이라는 정책 네트워크를 통해 현재 상태에 맞는 최적의 디노이징 타이밍을 선택함으로써, 품질 저하 없이 효율성을 높입니다. 이 네트워크는 입력된 장면의 품질에 따라 필요한 노이즈의 정도를 판단해 학습합니다.
3) 세부 적용 기술
위의 그림은 VideoScene 3D의 전체 파이프라인을 설명하고 있습니다. 입력된 두 장의 이미지에서 MVSplat 모델이 3D 구조를 추정한 뒤, 이를 기반으로 생성된 영상에 노이즈를 추가하고, 이후 디노이징 과정을 통해 최종 영상을 생성합니다. 모든 과정은 학습된 consistency 모델과 DDPNet에 의해 조절됩니다.
1️⃣ 3D 구조를 미리 만드는 과정
두 장의 사진을 입력하면, 컴퓨터는 그 안에 담긴 입체 구조를 대충 예측합니다. 예를 들어, 벽이 어디 있고, 창문은 어디 있는지를 대략적으로 파악하죠. 이때 MVSplat이라는 모델로 생성한 3D 정보를 생성합니다.
2️⃣ Leap Flow Distillation
원래 방식은 처음부터 완전히 랜덤한 이미지에서 시작해서 조금씩 다듬어가는 방식이었습니다. 하지만 이 논문에서는 '중간에서 시작하자'는 방법을 씁니다. 즉, 앞서 만들어진 3D 정보를 바탕으로 초기 렌더링된 비디오 (해상도는 낮지만 중요한 3D 구조 정보를 담고 있음)를 사용합니다. 이를 출발점으로 삼아서 더 빠르고 정확하게 결과를 만드는 거죠.
3️⃣ Consistency Distillation
복잡하고 여러 번 계산해야 했던 영상 생성 과정을 한 번의 계산으로 줄이면서, 결과의 '일관성'은 그대로 유지하는 똑똑한 학습 방식입니다. 기존의 확산 기반 영상 생성모델은 노이즈에서 시작해 점점 더 선명하게 다듬어 가는 수십번의 과정을 거쳐 최종 결과를 만듭니다. Consistency Distillation은 어느 시점에서 계산해도 결과가 같아야 한다는 규칙을 학습시켜 한번만 계산해도 완성된 영상이 나오도록 하는 방식입니다.
4️⃣ DDPNet (Dynamic Denoising Policy Network )
어떤 장면은 아주 선명하고, 어떤 장면은 흐릿할 수도 있습니다. 그래서 그때그때 상황에 맞게 '얼마나 손을 봐야 하는지'를 자동으로 정해주는 네트워크가 필요합니다. 이게 바로 강화학습 기반의 정책 모델인 DDPNet입니다. 이 네트워크는 입력된 영상의 품질을 보고, "이건 조금만 손 보면 돼" 또는 "이건 많이 수정해야겠어"를 판단해줍니다.
5️⃣ 영상 생성 과정
최종적으로는 이 모든 기술이 합쳐져서 단 두 장의 사진으로 마치 드론이 장면 속을 자유롭게 날아다니며 찍은 것처럼 자연스럽고 입체감 있는 영상을 만들어냅니다.
4) 제약사항
VideoScene은 매우 빠르고 일관된 결과를 제공하지만, 초기 MVSplat 모델이 생성하는 3D 구조가 지나치게 단순하거나 부정확할 경우, 전체 품질에 영향을 줄 수 있습니다. 또한, 현재는 2개의 뷰(view)에 특화되어 있어 다중 이미지 입력 확장에 대한 연구가 필요합니다.
VideoScene은 단 두 장의 사진만으로도 입체감 있는 3D 영상을 빠르게 만들어주는 놀라운 기술입니다. 기존보다 훨씬 빠르고, 결과도 더 자연스럽고 정확하죠. 상용 서비스로 나오게 된다면 스마트폰 AR/VR 콘텐츠 생성을 통해 가구 배치, SNS 필터에 3D 공간 자동 생성, 혹은 부동산 인테리어 미리 보기, 쇼핑몰의 3D 상품 뷰어 등에 활용될 수 있을 것으로 생각됩니다.
참고자료
- 사이트) VideoScene 프로젝트 사이트 (링크)
- 논문) VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step (링크)
- 코드) VideoScene github repository (링크)
Q&A
Q. VideoScene은 어떤 상황에서 특히 유용한가요?
두 장의 이미지밖에 없는 환경, 예를 들어 스마트폰으로 빠르게 사진을 찍고 3D 장면을 생성하고자 할 때 매우 유용합니다.
Q. VideoScene이 다른 영상 생성 모델보다 우수한 점은 무엇인가요?
한 번의 추론만으로 결과를 얻을 수 있어 빠르고, 생성된 비디오가 3D 구조 일관성을 잘 유지합니다.
Q. 이 기술은 일반 사용자에게도 적용될 수 있나요?
네, 향후 상용화가 된다면 스마트폰 앱이나 AR/VR 플랫폼 등에서도 쉽게 사용할 수 있을 것으로 기대됩니다.
'AI 기술' 카테고리의 다른 글
ACTalker : 오디오와 얼굴 모션을 동시에 제어하는 자연스러운 토킹 헤드 생성 기술 (0) | 2025.04.11 |
---|---|
YOLOE : 모든 것을 실시간으로 탐지하고 분할하는 통합 모델 (0) | 2025.04.10 |
AKD, 텍스트로부터 실제같은 3D 캐릭터 동작을 만들다 (0) | 2025.04.07 |
DreamActor-M1 : 하이브리드 제어로 구현한 정교하고 표현력 있는 사람 이미지 애니메이션 (0) | 2025.04.06 |
NeuralGS : NeRF와 3DGS의 융합으로 구현한 고효율 3D 장면 표현 (0) | 2025.04.05 |