AI 탐구노트

3D-LLM : 다양한 3D 작업을 수행하는 모델 본문

AI 기술

3D-LLM : 다양한 3D 작업을 수행하는 모델

42morrow 2024. 9. 6. 11:50
3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행하는 모델 

 

3D-LLM은 3D 포인트 클라우드와 그 특징을 입력으로 받아 영상에 대한 다양한 3D 관련 작업을 수행할 수 있도록 해 줍니다. 소개 영상에서는, 마치 메타포트사(Matterport)의 스캔 카메라로 촬영된 듯한 3차원 방 객체(인형의집(dollhouse)라  불리기도 함)에서 특정한 물체를 찾도록 시키거나, 영상 속 공간 의 특정한 위치로 가상으로 이동시킨 다음 거기서 주어지는 임무를 수행하게 하는  예시를 볼 수 있습니다. 즉, 3차원 공간 정보를 주고 그 속에서 LLM을 이용해서 대화 형태로 임무를 지시해서 수행시키는 것이죠.

 

지원되는 세부 기능은 다음과 같습니다.

  • 3D Grounding, 3D Captioning
  • 3D Question Answering , Task Decomposition
  • 3D Assisted Dialog, 3D Dense Captioning
  • Object navigation, Vision-Language Navigation, Embodied QA

 

사진 : 3D LLM 모델의 파이프라인

 

 

 

사진 : 지원되는 기능

 

참고) 논문깃헙프로젝트