FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 본문

AI 기술

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법

42morrow 2024. 9. 30. 10:21

2D 이미지 모델의 성능을 향상시키기 위해 3D 정보에 기반한 미세조정 기법

FiT3D는 2D 비전 모델의 성능을 향상시키기 위해 3D 정보를 활용한 미세 조정 기법입니다.

대부분의 2D 비전 모델은 순수하게 2D 이미지 데이터로 학습되며 이로 인해 물체와 장면의 3D 구조를 제대로 이해하지 못합니다.

즉, 다양한 각도에서 찍힌 이미지들 사이에서 공통된 정보를 잘 찾아내기 어렵고, 한 장의 이미지로는 물체나 장면의 정확한 모양을 파악하기 힘든 경우가 많죠.

사진 : FiT3D를 통해 다운스트림 작업의 성능이 개선된 것을 보여주는 예시

FiT3D 기법에서는, 먼저 2D 이미지 특징을 3D Gaussian 표현으로 변환해, 여러 뷰에서 일관된 3D 특징을 학습한 후, 이 3D 인지 특징을 활용하여 2D 비전 모델을 미세 조정(fine-tuning)합니다. 이렇게 생성된 3D 인지 특징은 선형 프로빙(linear probing)을 통해 하향식 작업(예: 의미 분할, 깊이 추정)에서 더 나은 성능을 제공합니다.

위의 그림을 보면 FiT3D에서는 두 단계로 나뉜 파이프라인으로 되어 있습니다.

3D 특징 학습 : 다중 뷰 이미지에서 2D 특징을 추출하고, 이를 3D Gaussian 표현으로 변환하여 여러 장면에 대해 일관된 3D 특징을 생성함
3D 인지 미세 조정 : 이 3D 특징을 사용하여 2D 모델을 미세 조정하며, 학습된 3D 정보가 2D 모델의 성능을 향상시킴

FiT3D 기법의 특징을 정리해 보면 다음과 같습니다.

2단계 접근법: 2D 특징을 3D Gaussian 표현으로 변환한 후, 이를 사용해 2D 모델을 미세 조정합니다.
범용성: 이 3D 인지 미세 조정 방식은 DINOv2, CLIP, MAE, DeiT-III 등 다양한 2D 모델에 적용 가능하며, 여러 데이터셋에서 성능 향상을 보여줍니다.
효율성: 이 방법은 작은 학습률과 적은 에폭으로도 2D 모델의 성능을 크게 향상시킬 수 있으며, 추가적인 네트워크 구성 요소를 필요로 하지 않습니다.
일반화 능력: 실내뿐만 아니라 실외 데이터셋(예: KITTI)에서도 성능 개선을 보여, 3D 인지 특징이 다양한 도메인에서 적용 가능합니다.

참고) 프로젝트, 논문, 코드, 데모

'AI 기술' 카테고리의 다른 글

Firecrawl : 웹사이트 데이터 크롤링 API 서비스 (1)	2024.10.01
LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1)	2024.09.30
MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 (8)	2024.09.27
Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0)	2024.09.27
APGCC : 보조지점 안내 기반의 군중 카운팅 (2)	2024.09.24

'AI 기술' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI 탐구노트

AI 탐구노트

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 본문

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법

'AI 기술' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역