AI 탐구노트

Flex3D : 고품질의 3D 콘텐츠를 생성하는 모델 본문

AI 기술

Flex3D : 고품질의 3D 콘텐츠를 생성하는 모델

42morrow 2024. 10. 6. 18:55

 

 

FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다.

 

기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다. 

 

 

FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다. 

 

 

그림 : FLEX3D 개요 설명

 

위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로, 텍스트나 이미지를 기반으로 다양한 각도의 시점을 생성하고 그중 높은 품질과 일관성을 가진 시점만을 선별합니다. 두 번째 단계에서는 선택된 시점들을 기반으로 유연한 재구성 모델(FlexRM) 다중 입력을 받아 3D 객체를 가우시안 포인트로 표현한 후 빠른 속도로 고품질의 3D 객체를 생성하게 됩니다. 

 

 

사진 : Flex3D 적용 결과 예시

 

 

 

FLEX3D의 특징은 다음과 같이 요약될 수 있습니다. 

  • 다양한 시점 생성 및 선별: 확산 모델을 통해 많은 후보 시점을 생성한 후, 품질 검사와 일관성 검증을 통해 최적의 시점만을 선택합니다.
  • 유연한 재구성 모델: 선택된 시점들을 활용하여 FlexRM 모델이 3D 가우시안 포인트를 출력하는 방식으로 고품질 3D 객체를 효율적으로 생성합니다. 이 모델은 입력되는 시점의 수가 가변적일 수 있으며, 빠르고 메모리 효율적인 방식으로 작동합니다.
  • 노이즈 시뮬레이션: 입력 시점들에 약간의 노이즈를 추가하여 모델이 불완전한 시각 정보에도 적응하도록 학습시킵니다.

 

 

참고) 프로젝트, 논문