AI 탐구노트

TAPTR 본문

AI 기술

TAPTR

42morrow 2024. 8. 8. 20:42
TAPTR(Tracking Any Point with TRansformer)은 비디오의 모든 점을 트랜스포머를 사용하여 효율적으로 추적하는 프레임워크입니다.

 

기존의 Optical Flow 추정 방식은 두 연속된 프레임 간의 상관 관계를 추적할 수 있도록 했지만, 장기적인 시간 정보를 처리하지 못해 추적 대상이 가려지거나 하는 경우에 이를 제대로 처리하지 못하는 문제가 있었습니다. 뿐만 아니라, 기존 방법들은 서로 다른 프레임의 추적 점들의 정보가 서로 교환되지 않기 때문에 같은 객체에 속한 점들 간에도 상관관계가 무시되는 한계가 있었습니다. 
 
TAPTR은 이런 문제를 DETR(Detection Transformer) 모델에서 영감을 받아,  비디오 프레임의 각 추적점을 포지션과 콘텐츠로 나눠 쿼리로 표현하고, 이러한 쿼리를 시간 축을 따라 self-attention을 통해 정보를 교환하게 하여 장기적인 시간 정보를 처리합니다. 또한, Optical Flow 모델의 cost volume (*1) 개념을 채택하여, 더 긴 시간 정보를 제공하면서 특징 드리프트(*2) 문제를 완화합니다. 
 

*1) 이미지의 두 점 사이의 시각적 유사성을 측정하는 매트릭스. 인접한 두 프레임 간의 움직임을 추정하는 데 사용되며 특정 위치에 있는 점과 모든 가능한 이동 위치 간의 매칭 비용을 계산하여 최적의 이동 방향을 예측할 때 사용

*2) 특징 드리프트(Feature Drift) : 시간이 지나면서 추적 대상의 위치나 모습이 변함에 따라 모델이 추적 대상을 잃어버리는 문제

 

참고) 프로젝트, 논문, 코드, 데모(영역 트래킹), 데모(포인트 궤적 추적)

 

 

사진 : TAPTR 개요 설명 (출처: TAPTR 논문)

 

 

'AI 기술' 카테고리의 다른 글

CLASI  (0) 2024.08.09
SF3D  (0) 2024.08.08
Flux.1  (0) 2024.08.08
SA-DVAE  (0) 2024.08.05
SkateFormer  (0) 2024.08.05