AI 탐구노트

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 본문

AI 기술

FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법

42morrow 2024. 9. 30. 10:21
2D 이미지 모델의 성능을 향상시키기 위해 3D 정보에 기반한 미세조정 기법

 

 

FiT3D는 2D 비전 모델의 성능을 향상시키기 위해 3D 정보를 활용한 미세 조정 기법입니다.

 

대부분의 2D 비전 모델은 순수하게 2D 이미지 데이터로 학습되며 이로 인해 물체와 장면의 3D 구조를 제대로 이해하지 못합니다.

즉, 다양한 각도에서 찍힌 이미지들 사이에서 공통된 정보를 잘 찾아내기 어렵고, 한 장의 이미지로는 물체나 장면의 정확한 모양을 파악하기 힘든 경우가 많죠.

 

사진 : FiT3D를 통해 다운스트림 작업의 성능이 개선된 것을 보여주는 예시

 

 

FiT3D 기법에서는, 먼저 2D 이미지 특징을 3D Gaussian 표현으로 변환해, 여러 뷰에서 일관된 3D 특징을 학습한 후, 이 3D 인지 특징을 활용하여 2D 비전 모델을 미세 조정(fine-tuning)합니다. 이렇게 생성된 3D 인지 특징은 선형 프로빙(linear probing)을 통해 하향식 작업(예: 의미 분할, 깊이 추정)에서 더 나은 성능을 제공합니다.

 

 

사진 : FiT3D의 전체 파이프라인

 

 

위의 그림을 보면 FiT3D에서는 두 단계로 나뉜 파이프라인으로 되어 있습니다. 

  • 3D 특징 학습 : 다중 뷰 이미지에서 2D 특징을 추출하고, 이를 3D Gaussian 표현으로 변환하여 여러 장면에 대해 일관된 3D 특징을 생성함
  • 3D 인지 미세 조정 : 이 3D 특징을 사용하여 2D 모델을 미세 조정하며, 학습된 3D 정보가 2D 모델의 성능을 향상시킴

 

FiT3D 기법의 특징을 정리해 보면 다음과 같습니다.

  • 2단계 접근법: 2D 특징을 3D Gaussian 표현으로 변환한 후, 이를 사용해 2D 모델을 미세 조정합니다.
  • 범용성: 이 3D 인지 미세 조정 방식은 DINOv2, CLIP, MAE, DeiT-III 등 다양한 2D 모델에 적용 가능하며, 여러 데이터셋에서 성능 향상을 보여줍니다.
  • 효율성: 이 방법은 작은 학습률과 적은 에폭으로도 2D 모델의 성능을 크게 향상시킬 수 있으며, 추가적인 네트워크 구성 요소를 필요로 하지 않습니다.
  • 일반화 능력: 실내뿐만 아니라 실외 데이터셋(예: KITTI)에서도 성능 개선을 보여, 3D 인지 특징이 다양한 도메인에서 적용 가능합니다.

 

 

참고) 프로젝트, 논문, 코드, 데모