Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- LLM
- ChatGPT
- 트랜스포머
- TRANSFORMER
- LORA
- 멀티모달
- 오블완
- 우분투
- 시간적 일관성
- 확산 모델
- 인공지능
- 오픈AI
- ControlNet
- 티스토리챌린지
- 가상환경
- 딥마인드
- 생성형 AI
- tts
- AI
- PYTHON
- javascript
- 서보모터
- AI 기술
- 일론 머스크
- OpenAI
- 이미지 편집
- ubuntu
- 뉴럴링크
- 아두이노
- 메타
Archives
- Today
- Total
AI 탐구노트
FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 본문
2D 이미지 모델의 성능을 향상시키기 위해 3D 정보에 기반한 미세조정 기법
FiT3D는 2D 비전 모델의 성능을 향상시키기 위해 3D 정보를 활용한 미세 조정 기법입니다.
대부분의 2D 비전 모델은 순수하게 2D 이미지 데이터로 학습되며 이로 인해 물체와 장면의 3D 구조를 제대로 이해하지 못합니다.
즉, 다양한 각도에서 찍힌 이미지들 사이에서 공통된 정보를 잘 찾아내기 어렵고, 한 장의 이미지로는 물체나 장면의 정확한 모양을 파악하기 힘든 경우가 많죠.
FiT3D 기법에서는, 먼저 2D 이미지 특징을 3D Gaussian 표현으로 변환해, 여러 뷰에서 일관된 3D 특징을 학습한 후, 이 3D 인지 특징을 활용하여 2D 비전 모델을 미세 조정(fine-tuning)합니다. 이렇게 생성된 3D 인지 특징은 선형 프로빙(linear probing)을 통해 하향식 작업(예: 의미 분할, 깊이 추정)에서 더 나은 성능을 제공합니다.
위의 그림을 보면 FiT3D에서는 두 단계로 나뉜 파이프라인으로 되어 있습니다.
- 3D 특징 학습 : 다중 뷰 이미지에서 2D 특징을 추출하고, 이를 3D Gaussian 표현으로 변환하여 여러 장면에 대해 일관된 3D 특징을 생성함
- 3D 인지 미세 조정 : 이 3D 특징을 사용하여 2D 모델을 미세 조정하며, 학습된 3D 정보가 2D 모델의 성능을 향상시킴
FiT3D 기법의 특징을 정리해 보면 다음과 같습니다.
- 2단계 접근법: 2D 특징을 3D Gaussian 표현으로 변환한 후, 이를 사용해 2D 모델을 미세 조정합니다.
- 범용성: 이 3D 인지 미세 조정 방식은 DINOv2, CLIP, MAE, DeiT-III 등 다양한 2D 모델에 적용 가능하며, 여러 데이터셋에서 성능 향상을 보여줍니다.
- 효율성: 이 방법은 작은 학습률과 적은 에폭으로도 2D 모델의 성능을 크게 향상시킬 수 있으며, 추가적인 네트워크 구성 요소를 필요로 하지 않습니다.
- 일반화 능력: 실내뿐만 아니라 실외 데이터셋(예: KITTI)에서도 성능 개선을 보여, 3D 인지 특징이 다양한 도메인에서 적용 가능합니다.
'AI 기술' 카테고리의 다른 글
Firecrawl : 웹사이트 데이터 크롤링 API 서비스 (1) | 2024.10.01 |
---|---|
LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1) | 2024.09.30 |
MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 (8) | 2024.09.27 |
Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0) | 2024.09.27 |
APGCC : 보조지점 안내 기반의 군중 카운팅 (2) | 2024.09.24 |