AI 탐구노트

RI3D : 소수의 이미지로 3D 장면을 재구성하는 확산 모델 기반 기술 본문

AI 기술

RI3D : 소수의 이미지로 3D 장면을 재구성하는 확산 모델 기반 기술

42morrow 2025. 3. 21. 11:03

 

최근 3D 기술이 발전하면서, 사진 몇 장만으로도 새로운 시점을 만들어내는 기술이 주목받고 있습니다. 특히, 뉴럴 레디언스 필드(NeRF)3D 가우시안 스플래팅(3DGS) 같은 방법이 많이 사용됩니다. NeRF는 장면을 신경망으로 학습하여 새로운 시점을 만들어내는 기술이고, 3DGS는 수많은 가우시안 점을 배치하여 장면을 표현하는 방식입니다. 3DGS는 NeRF보다 빠르게 장면을 생성할 수 있다는 장점이 있어 최근 많은 연구가 진행되고 있습니다.

 

하지만, 기존의 방법들은 보통 여러 장의 사진이 있어야만 정확한 3D 장면을 만들 수 있습니다. 만약 사진이 몇 장밖에 없다면, 보이지 않는 부분을 제대로 채우지 못해 장면이 엉성하게 복원되거나, 보이지 않는 부분을 자연스럽게 채우는 것이 어렵습니다. 이런 문제를 해결하기 위해 RI3D라는 새로운 방법이 제안되었습니다.

 

RI3D는 '복원(Repair)'과 '인페인팅(Inpainting)' 확산 모델을 활용하여 3D 장면을 보다 정밀하게 재구성합니다. 먼저, 보이는 부분을 정확하게 복원한 후, 보이지 않는 부분을 자연스럽게 채우는 방식으로 진행됩니다. 이를 통해 기존 방법들보다 훨씬 정교한 결과를 얻을 수 있습니다.

 

 


RI3D

1) 기존 방식의 문제점

기존의 3D 장면 재구성 기술들은 주어진 사진에서 장면을 만들어내지만, 다음과 같은 문제가 있습니다.

  • 입력 이미지 부족 문제 : 기존 방법들은 여러 장의 사진이 필요합니다. 사진이 적으면 보이지 않는 부분을 채우기 어렵습니다.
  • 세밀한 디테일 부족 : 
    • NeRF 기반 방법들은 보이지 않는 부분을 부드럽게 처리하지만, 너무 흐릿한 결과가 나올 수 있습니다.
    • 3DGS는 빠른 속도를 제공하지만, 보이지 않는 부분을 채울 때 부자연스러운 결과가 나올 수 있습니다.
  • 렌더링 속도의 한계 : 
    • NeRF 기반 방법들은 학습과 렌더링 속도가 느려 실시간 응용이 어렵습니다.
    • 3DGS는 속도가 빠르지만, 매우 적은 입력 이미지로는 정확한 결과를 얻기 어렵습니다.

이러한 문제를 해결하기 위해 RI3D에서는 복원 모델인페인팅 모델을 활용한 새로운 접근 방식을 제안합니다.

 

2) 접근 방식

그림 : RI3D의 3D 재구성 과정

 

RI3D는 3DGS를 기반으로 하되, 위의 그림과 같이 두 가지 확산 모델을 추가하여 더 정확한 장면을 재구성하는 방식을 사용합니다.

 

  • 복원(Repair) 모델
    • 먼저, 입력 이미지를 바탕으로 보이는 부분을 최대한 정확하게 재구성합니다.
    • 기존 3DGS 결과가 흐릿하거나 노이즈가 많은 경우, 이를 보정하는 역할을 합니다.

그림 : RI3D의 개요, 복원 과정을 설명

  • 인페인팅(Inpainting) 모델
    • 복원된 장면에서 보이지 않는 부분을 자연스럽게 채웁니다.
    • 기존 방법들은 이 과정에서 흐릿한 결과를 만들지만, RI3D는 높은 품질의 세부 묘사를 유지할 수 있습니다.
  • 두 단계 최적화 과정
    • 먼저, 복원 모델을 이용해 보이는 부분을 정밀하게 복구합니다.
    • 그다음, 인페인팅 모델을 이용해 보이지 않는 부분을 채운 후, 다시 복원 모델을 적용하여 장면을 정리합니다.
    • 이렇게 두 단계에 걸쳐 최적화하여 더 선명하고 자연스러운 결과를 얻습니다.

 

3) 세부 적용 기술

 

3D 가우시안 초기화

  • RI3D에서는 3D 가우시안들을 초기화할 때, 깊이 정보(Depth Information)를 이용합니다. 이를 위해 다음 두 가지 방법을 결합해 더 정확한 3D 초기 장면을 생성합니다. 
    • 멀티뷰 스테레오(MVS) 기반 깊이 추정: 여러 장의 사진을 활용해 깊이 정보를 얻습니다.
    • 단안(depth) 추정 모델: 하나의 이미지에서 상대적인 깊이를 추정하여 부족한 정보를 보완합니다.

복원(Repair) 확산 모델

  • 기본적으로 ControlNet 기반 모델을 활용합니다.
  • 입력 이미지에서 노이즈잘못된 부분을 보정하여 더 선명한 결과를 만들어냅니다.
  • 이 모델을 3D 장면의 각 시점에서 활용하여 최적의 학습 데이터를 생성합니다.

인페인팅(Inpainting) 확산 모델

  • Stable Diffusion 기반 모델을 사용하여 보이지 않는 영역을 자연스럽게 채웁니다.
  • 기존 방법보다 더 정교하고 사실적인 결과를 제공합니다.

 

4) 제약사항

  • RI3D의 성능은 초기 깊이 정보의 정확도에 영향을 받습니다.
  • 매우 적은 입력 이미지(예: 한 장)만으로는 학습이 어렵습니다.
  • 복원과 인페인팅을 위한 모델 학습이 필요하여 계산량이 증가할 수 있습니다.

 

RI3D는 소수의 입력 이미지만으로도 고품질 3D 장면을 재구성할 수 있도록 설계되었습니다. 이를 위해 복원 모델인페인팅 모델을 활용하여 보이는 영역을 정밀하게 복원하고, 보이지 않는 영역을 자연스럽게 보완합니다. 이 기술을 활용하면 VR, AR, 영화 제작, 게임 등 다양한 분야에서 더 현실감 있는 3D 장면을 빠르게 생성할 수 있습니다. 특히, 기존의 NeRF 기반 방법보다 빠르면서도 높은 품질을 제공하여 실용성이 뛰어납니다. 


참고자료

  • 논문) RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors (링크)
  • 사이트) RI3D 프로젝트 사이트 (링크)
  • 영상) RI3D 소개 영상 (링크)
  • 코드는 아직 공개되어 있지 않지만 'Comming Soon'으로 소개되어 있습니다. 

Q&A

Q. RI3D는 기존 3D 재구성 기술과 무엇이 다른가요?

기존 기술들은 보통 많은 사진이 필요하며, 일부 영역이 흐리거나 보이지 않는 부분이 부자연스럽게 복원됩니다. RI3D는 확산 모델(복원 + 인페인팅)을 활용하여 이런 문제를 해결하고, 더 적은 사진으로도 높은 품질의 장면을 재구성합니다.

 

Q. RI3D를 어떤 분야에서 활용할 수 있나요?

RI3D는 가상 현실(VR), 증강 현실(AR), 게임 개발, 영화 제작, 건축 시각화 등에서 활용할 수 있습니다. 예를 들어, 몇 장의 사진만으로도 3D 환경을 생성하여 가상 공간에서 활용할 수 있습니다.

 

Q. RI3D를 사용하려면 어떤 데이터가 필요한가요?

최소 3장의 사진이 필요하며, 이 사진들의 카메라 위치 정보(예: 촬영 각도)가 제공되어야 합니다. 이렇게 하면 더 정밀한 3D 장면을 재구성할 수 있습니다.