AI 탐구노트

InterTrack : 인간-객체 상호작용을 추적하는 방법 본문

AI 기술

InterTrack : 인간-객체 상호작용을 추적하는 방법

42morrow 2024. 8. 30. 10:25
객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법

 

 

InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다.

 

기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다. 

 

InterTrack는 4D 추적 문제를 프레임별 포즈 추정정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 객체 포즈 추정기(TOPNet)를 사용하여 추적의 일관성을 보장합니다.

 

 

InterTrack 모델의 특징은 다음과 같습니다. 

  • 인간과 객체를 분리하여 3D 포인트 클라우드로 복원한 후 시간적으로 일관된 형태로 최적화합니다.
  • 객체 템플릿 없이 동적 객체의 회전을 예측하는 Transformer 기반의 TOPNet을 제안합니다.
  • 3D 모델의 정규화된 공간에서 객체의 형태를 최적화하고, 프레임별 객체 변환을 통해 일관된 추적을 수행합니다.
  • 합성된 비디오 데이터를 생성해 훈련 데이터셋인 ProciGen-Video을 제공하여, 현실 비디오에서도 잘 일반화될 수 있도록 합니다.

 

사진 : InterTrack 처리 방식 개요

 

 

InterTrack의 아키텍처를 보면 다음의 두 가지 기법이 사용되고 있습니다. 

  • CorrAE : 인간의 포즈와 형태를 예측하기 위한 자동 인코더로, 프레임별로 비정렬된 3D 포인트 클라우드를 정렬된 포인트 클라우드로 변환합니다.
  • TOPNet : Transformer 기반의 네트워크로, 비디오 시퀀스에서 객체의 회전을 예측합니다. 이 네트워크는 시간 정보를 활용하여 객체의 가려짐이 있어도 부드럽고 일관된 회전 추정치를 제공합니다.

 

참고) 프로젝트, 논문, 영상