Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 딥마인드
- 트랜스포머
- 생성형 AI
- 인공지능
- 우분투
- 멀티모달
- 가상환경
- 오픈AI
- ChatGPT
- ubuntu
- 확산 모델
- PYTHON
- TRANSFORMER
- 뉴럴링크
- 티스토리챌린지
- 서보모터
- 메타
- 시간적 일관성
- 아두이노
- AI
- 일론 머스크
- tts
- 이미지 편집
- javascript
- LLM
- OpenAI
- 오블완
- LORA
- ControlNet
- AI 기술
Archives
- Today
- Total
AI 탐구노트
InterTrack : 인간-객체 상호작용을 추적하는 방법 본문
객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법
InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다.
기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다.
InterTrack는 4D 추적 문제를 프레임별 포즈 추정과 정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 객체 포즈 추정기(TOPNet)를 사용하여 추적의 일관성을 보장합니다.
InterTrack 모델의 특징은 다음과 같습니다.
- 인간과 객체를 분리하여 3D 포인트 클라우드로 복원한 후 시간적으로 일관된 형태로 최적화합니다.
- 객체 템플릿 없이 동적 객체의 회전을 예측하는 Transformer 기반의 TOPNet을 제안합니다.
- 3D 모델의 정규화된 공간에서 객체의 형태를 최적화하고, 프레임별 객체 변환을 통해 일관된 추적을 수행합니다.
- 합성된 비디오 데이터를 생성해 훈련 데이터셋인 ProciGen-Video을 제공하여, 현실 비디오에서도 잘 일반화될 수 있도록 합니다.
InterTrack의 아키텍처를 보면 다음의 두 가지 기법이 사용되고 있습니다.
- CorrAE : 인간의 포즈와 형태를 예측하기 위한 자동 인코더로, 프레임별로 비정렬된 3D 포인트 클라우드를 정렬된 포인트 클라우드로 변환합니다.
- TOPNet : Transformer 기반의 네트워크로, 비디오 시퀀스에서 객체의 회전을 예측합니다. 이 네트워크는 시간 정보를 활용하여 객체의 가려짐이 있어도 부드럽고 일관된 회전 추정치를 제공합니다.
'AI 기술' 카테고리의 다른 글
EAGLE : 비전 인코더 결합으로 MLLM의 시각 능력을 최적화한 모델 (0) | 2024.08.30 |
---|---|
DEVA : 다양한 비디오에서 객체를 추적할 수 있는 기법 (0) | 2024.08.30 |
CogVideoX : 길이가 긴 일관된 동영상 생성 모델 (0) | 2024.08.29 |
TokenFlow : 시간적 일관성있는 자연스런 영상 생성 모델 (0) | 2024.08.29 |
ProPainter : 비디오 영상에서 Inpainting을 제공하는 프레임워크 (0) | 2024.08.29 |