Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- AI
- 트랜스포머
- AI 기술
- ubuntu
- ChatGPT
- LLM
- 서보모터
- 확산 모델
- LORA
- PYTHON
- tts
- javascript
- 메타
- 인공지능
- 아두이노
- 이미지 편집
- 뉴럴링크
- 멀티모달
- 딥마인드
- 시간적 일관성
- 우분투
- ControlNet
- TRANSFORMER
- 일론 머스크
- 가상환경
- 티스토리챌린지
- OpenAI
- 생성형 AI
- 오블완
- 오픈AI
Archives
- Today
- Total
AI 탐구노트
DoubleTake : 기하학적 정보를 이용한 실시간 깊이 추정 본문
실시간으로 깊이 추정을 개선하는 모델
DoubleTake는 이전 프레임에서 얻은 3D 기하학적 정보를 활용하여 실시간으로 깊이 추정을 개선하는 모델입니다.
기존의 깊이 추정 모델들은 실시간으로 깊이를 예측하는 과정에서 정확도가 떨어질 수 있으며, 특히 이전 프레임의 정보나 장면의 전체적인 기하학적 구조를 충분히 활용하지 못했습니다. 이런 문제를 해결하기 위해 DoubleTake는 이전 프레임에서 생성된 3D 기하학적 정보를 현재 프레임의 입력으로 사용하여 깊이 예측을 개선합니다. 이를 위해 Hint MLP를 도입해, 다중 뷰 스테레오(MVS) 기반의 코스트 볼륨에 이전의 기하학적 정보를 결합합니다.
* 다중 뷰 스테레오(MVS)는 여러 각도에서 찍은 사진들을 비교해서 물체까지의 거리를 측정하는 기술이고 코스트 볼륨은 이 과정에서 각 지점이 얼마나 일치하는지를 계산해 놓은 데이터를 의미합니다.
DoubleTake 모델의 특징은 다음과 같습니다.
- 기하학적 힌트 사용: 이전에 생성된 3D 장면 데이터를 깊이 추정에 활용하여 정확도를 높임.
- Hint MLP: 이전 프레임의 기하학적 힌트와 현재 프레임의 코스트 볼륨을 결합하여 깊이 맵을 생성.
- 실시간 성능: 이전 프레임의 정보를 활용하면서도 실시간으로 동작할 수 있는 성능을 보장.
DoubleTake는. 입력된 RGB 이미지 시퀀스와 이전에 생성된 3D 기하학적 데이터를 활용하여 깊이 맵을 추정하는데, 이를 위해 TSDF(Truncated Signed Distance Function)라는 형식을 사용해 기하학적 정보를 관리하며, 새로운 프레임에서 깊이 맵을 예측할 때 이러한 정보를 활용하여 보다 정밀한 예측을 수행합니다.
'AI 기술' 카테고리의 다른 글
MagicMan : 고품질의 인간 3D 재구성 모델 (0) | 2024.08.28 |
---|---|
EMO : 오디오 기반 초상화 비디오 생성 (0) | 2024.08.28 |
Phi-1.5 : 고품질 학습 데이터로 학습한 sLM (0) | 2024.08.27 |
Multi-LoRA Switch & Composite : 복수 LoRA 통합의 새로운 방식 (0) | 2024.08.27 |
ChatMusician : 텍스트로 음악을 이해하고 생성하는 모델 (0) | 2024.08.27 |