일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- tts
- 멀티모달
- 딥러닝
- LLM
- 오픈소스
- 강화 학습
- 티스토리챌린지
- XAI
- Stable Diffusion
- AI 기술
- ChatGPT
- AI
- 우분투
- 오블완
- OpenAI
- 자연어 처리
- 생성형AI
- 인공지능
- PYTHON
- 다국어 지원
- 메타
- 강화학습
- 휴머노이드 로봇
- 오픈AI
- 이미지 생성
- 감정 표현
- 일론 머스크
- 트랜스포머
- 확산 모델
- 실시간 렌더링
- Today
- Total
목록객체추적 (2)
AI 탐구노트

스마트폰이나 태블릿 같은 모바일 기기에서도 인공지능 기반의 영상 분석 기능을 사용하는 시대가 도래했습니다. 하지만 이러한 장치의 처리 능력은 서버 수준의 고성능 장비에 비해 한계가 있기 때문에, 실시간 영상 분석이나 객체 추적 같은 복잡한 작업을 원활히 실행하기는 어렵습니다. 특히 영상 내 객체를 탐지하고 추적하는 비디오 세분화(video segmentation) 작업은 연산량이 많아 모바일 환경에서는 매우 도전적인 과제였습니다. Meta Reality Labs와 난양기술대학교(NTU)의 연구팀은 이러한 문제를 해결하기 위해 EdgeTAM(Edge Track Anything Model)이라는 새로운 모델을 제안했습니다. 이 모델은 기존의 고성능 비디오 세분화 모델인 SAM 2(Segment Anythin..

객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법 InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다. 기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다. InterTrack는 4D 추적 문제를 프레임별 포즈 추정과 정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 ..