일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 다국어 지원
- 오픈AI
- 3d 재구성
- 생성형 AI
- 티스토리챌린지
- LLM
- 트랜스포머
- Stable Diffusion
- 생성형AI
- tts
- 딥러닝
- ubuntu
- 시간적 일관성
- 확산 모델
- 인공지능
- 일론 머스크
- 우분투
- AI
- 실시간 렌더링
- AI 기술
- 오픈소스
- PYTHON
- LORA
- 휴머노이드 로봇
- 코딩
- 오블완
- OpenCV
- 강화 학습
- 메타
- OpenAI
- Today
- Total
목록3d 재구성 (5)
AI 탐구노트

우리가 사는 세상을 컴퓨터 속에서 그대로 재현하는 기술은 자율주행차, 게임, 로봇 등 다양한 분야에서 꼭 필요합니다. 이때 가장 많이 쓰이는 방법 중 하나가 ‘여러 장의 사진’을 이용해 실제 공간의 모양을 3D로 복원하는 기술입니다. 하지만 이 방식은 계산이 복잡하고, 비슷한 각도에서 찍은 사진이 많아야 잘 작동합니다. 그런데 최근에는 한 장의 사진만으로도 그 안에 담긴 거리(깊이)를 알아내는 '단안 깊이 추정(Monocular Depth Estimation)' 기술이 빠르게 발전하고 있죠. 여기에 'Diffusion Model'이라는 똑똑한 인공지능이 등장하면서, 한 장의 사진만으로도 꽤 정확한 3D 정보를 만들어낼 수 있게 되었습니다. 이러한 최신 기술들을 조합해서 만든 새로운 방법이 'Murre'입..

최근 3D 기술이 발전하면서, 사진 몇 장만으로도 새로운 시점을 만들어내는 기술이 주목받고 있습니다. 특히, 뉴럴 레디언스 필드(NeRF)와 3D 가우시안 스플래팅(3DGS) 같은 방법이 많이 사용됩니다. NeRF는 장면을 신경망으로 학습하여 새로운 시점을 만들어내는 기술이고, 3DGS는 수많은 가우시안 점을 배치하여 장면을 표현하는 방식입니다. 3DGS는 NeRF보다 빠르게 장면을 생성할 수 있다는 장점이 있어 최근 많은 연구가 진행되고 있습니다. 하지만, 기존의 방법들은 보통 여러 장의 사진이 있어야만 정확한 3D 장면을 만들 수 있습니다. 만약 사진이 몇 장밖에 없다면, 보이지 않는 부분을 제대로 채우지 못해 장면이 엉성하게 복원되거나, 보이지 않는 부분을 자연스럽게 채우는 것이 어렵습니다. 이런 ..

최근 이미지에서 비디오를 생성하는 기술이 빠르게 발전하면서, 사용자가 원하는 대로 카메라 움직임을 조정할 수 있는 기능이 중요한 연구 주제가 되었습니다. 일반적으로 텍스트 기반의 비디오 생성 방식은 사용이 간편하지만, 카메라의 움직임을 정밀하게 제어하기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해 카메라 궤적(trajectory)을 기반으로 한 영상 생성 기법이 등장했지만, 실제 환경에서 적용하기 어려운 경우가 많았습니다. 카메라 궤적 기반의 기존 기술은 상대적인 스케일(relative scale)에서 작동하여 현실적인 3D 깊이(depth) 정보를 반영하기 어려웠습니다. 이로 인해 사용자는 특정 장면에서 정확한 카메라 움직임을 설계하는 데 어려움을 겪었습니다. 예를 들어, 깊이 정보가 없는 ..

FLEX3D는 다수의 시각적 입력을 활용해 텍스트 또는 이미지로부터 고품질의 3D 콘텐츠를 생성하는 모델입니다. 기존 다중 뷰 확산 모델은 다중 뷰 이미지를 합성하되 적은 수의 뷰만을 사용하고 이후 다시 3D 재구성을 위한 피드포워드 프로세스르 사용합니다. 이로 인해 생성된 시점들의 품질이 낮을 경우엔 최종 3D 재구성 결과물의 품질이 떨어지는 문제가 있었습니다. FLEX3D는 이런 문제를 후보 뷰 생성 및 큐레이션 파이프라인 소개, 유연한 FlexRM 아키텍처 설계, 모델의 견고성을 향상시키기 위해 불완전한 입력 뷰를 시뮬레이션하는 새로운 교육 전략 등을 적용해 해결하고 있습니다. 위 그림을 보면 FLEX3D는 두 단계로 나누어 동작합니다. 첫 번째 단계에서는 후보 시점 생성 및 선별 과정으로..

실시간으로 깊이 추정을 개선하는 모델 DoubleTake는 이전 프레임에서 얻은 3D 기하학적 정보를 활용하여 실시간으로 깊이 추정을 개선하는 모델입니다.기존의 깊이 추정 모델들은 실시간으로 깊이를 예측하는 과정에서 정확도가 떨어질 수 있으며, 특히 이전 프레임의 정보나 장면의 전체적인 기하학적 구조를 충분히 활용하지 못했습니다. 이런 문제를 해결하기 위해 DoubleTake는 이전 프레임에서 생성된 3D 기하학적 정보를 현재 프레임의 입력으로 사용하여 깊이 예측을 개선합니다. 이를 위해 Hint MLP를 도입해, 다중 뷰 스테레오(MVS) 기반의 코스트 볼륨에 이전의 기하학적 정보를 결합합니다.* 다중 뷰 스테레오(MVS)는 여러 각도에서 찍은 사진들을 비교해서 물체까지의 거리를 측정하는 기술이고 코스..