일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 메타
- ubuntu
- 휴머노이드 로봇
- PYTHON
- 우분투
- LORA
- TRANSFORMER
- OpenCV
- AI
- AI 기술
- 다국어 지원
- 오블완
- 일론 머스크
- 티스토리챌린지
- 확산 모델
- 인공지능
- LLM
- tts
- 딥러닝
- ChatGPT
- 트랜스포머
- 시간적 일관성
- 오픈AI
- Stable Diffusion
- OpenAI
- 오픈소스
- 멀티모달
- 아두이노
- 생성형 AI
- 강화 학습
- Today
- Total
목록깊이 추정 (3)
AI 탐구노트

최근 이미지에서 비디오를 생성하는 기술이 빠르게 발전하면서, 사용자가 원하는 대로 카메라 움직임을 조정할 수 있는 기능이 중요한 연구 주제가 되었습니다. 일반적으로 텍스트 기반의 비디오 생성 방식은 사용이 간편하지만, 카메라의 움직임을 정밀하게 제어하기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해 카메라 궤적(trajectory)을 기반으로 한 영상 생성 기법이 등장했지만, 실제 환경에서 적용하기 어려운 경우가 많았습니다. 카메라 궤적 기반의 기존 기술은 상대적인 스케일(relative scale)에서 작동하여 현실적인 3D 깊이(depth) 정보를 반영하기 어려웠습니다. 이로 인해 사용자는 특정 장면에서 정확한 카메라 움직임을 설계하는 데 어려움을 겪었습니다. 예를 들어, 깊이 정보가 없는 ..

1. 서론 단일 이미지를 보고 그 안에 있는 물체와 환경의 3D 깊이를 알아내는 기술은 요즘 다양한 분야에서 중요한 역할을 하고 있습니다. 이 기술은 가상현실, 영화 제작, 게임 디자인뿐 아니라 자율 주행 차량, 로봇 공학 등에서도 활용됩니다. 하지만 이 기술을 제대로 구현하려면 기존에는 특정 데이터나 카메라 정보가 꼭 필요했기 때문에 일반적으로 사용하기 어려운 경우가 많았습니다. 이런 한계를 극복하기 위해 나온 모델이 Depth Pro입니다. Depth Pro는 이미지를 찍은 카메라의 정보 없이도 단일 이미지에서 정확하고 세밀한 깊이 정보를 빠르게 추출할 수 있습니다. 특히, 카메라 초점 거리 등의 메타데이터 없이도 2.25메가픽셀(약 200만 화소)의 고화질 깊이 맵을 단 0.3초 만에 생성할 수 있..

실시간으로 깊이 추정을 개선하는 모델 DoubleTake는 이전 프레임에서 얻은 3D 기하학적 정보를 활용하여 실시간으로 깊이 추정을 개선하는 모델입니다.기존의 깊이 추정 모델들은 실시간으로 깊이를 예측하는 과정에서 정확도가 떨어질 수 있으며, 특히 이전 프레임의 정보나 장면의 전체적인 기하학적 구조를 충분히 활용하지 못했습니다. 이런 문제를 해결하기 위해 DoubleTake는 이전 프레임에서 생성된 3D 기하학적 정보를 현재 프레임의 입력으로 사용하여 깊이 예측을 개선합니다. 이를 위해 Hint MLP를 도입해, 다중 뷰 스테레오(MVS) 기반의 코스트 볼륨에 이전의 기하학적 정보를 결합합니다.* 다중 뷰 스테레오(MVS)는 여러 각도에서 찍은 사진들을 비교해서 물체까지의 거리를 측정하는 기술이고 코스..