일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 아두이노
- ChatGPT
- 일론 머스크
- 확산 모델
- OpenAI
- 뉴럴링크
- TRANSFORMER
- 인공지능
- 가상환경
- 티스토리챌린지
- ControlNet
- 메타
- 딥러닝
- LLM
- LORA
- 트랜스포머
- 오블완
- 오픈AI
- 딥마인드
- 우분투
- ubuntu
- 생성형 AI
- tts
- PYTHON
- 시간적 일관성
- 서보모터
- AI
- AI 기술
- 멀티모달
- 휴머노이드 로봇
- Today
- Total
AI 탐구노트
DEVA : 다양한 비디오에서 객체를 추적할 수 있는 기법 본문
영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법
영상분석에서 많이 사용되는 방식으로 분류, 감지, 분할, 트래킹 등등이 있는데 이 가운데 분할(segmentation)은 학습데이터를 만드는데 객체감지(detection)의 경우에 비해 많은 시간과 비용이 듭니다. 데이터 가공을 할 때 이미지마다 대상이 되는 객체의 윤곽을 따라 적게는 십수개에서 많게는 수백개의 점을 가지는 폴리곤 라벨링 작업을 해야 하기 때문이죠. 비디오 영상이 수많은 프레임을 가지고 있다는 것을 생각하면 흠... 결코 쉽고 짧은 작업은 아닙니다. 정리해보면 비디오 분할 작업을 위해 각 작업마다 비디오 데이터를 사용하여 훈련하는 것은 데이터 주석 비용이 높아 새로운 작업으로의 확장이 어렵다는 것이죠.
DEVA는 영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법으로 제안된 기법입니다. 이미지 분할과 작업/클래스에 무관한 양방향 시간적 전파를 결합한 분리된 비디오 분할 방식으로 말입니다. 이미지 데이터로 훈련된 모델을 사용하고 일반화 가능한 시간적 전파 모델을 활용하여, 비디오 데이터가 부족한 상황에서도 효과적으로 객체를 추적할 수 있도록 하고 있습니다.
요약하면 DEVA 의 특징은 다음과 같습니다.
- 이미지 분할과 시간적 전파를 분리하여 훈련 부담을 줄임
- 양방향 전파 알고리즘을 사용해 시간적으로 일관된 결과 생성
- 다양한 비디오 분할 작업에서 기존 방식보다 우수한 성능을 보여줌
위의 아키텍처 그림을 보면, 첫 번째 프레임에서 이미지 분할 모델로 초기화된 결과를 사용하여 시간적 전파를 통해 나머지 프레임을 분할합니다. 양방향 전파 방식으로 과거의 전파 결과와 미래의 이미지 분할 결과를 병합하여 일관된 비디오 분할을 생성하게 됩니다.
'AI 기술' 카테고리의 다른 글
SAHI : 다양한 스케일 객체를 효과적으로 감지하기 위한 기법 (0) | 2024.08.31 |
---|---|
EAGLE : 비전 인코더 결합으로 MLLM의 시각 능력을 최적화한 모델 (0) | 2024.08.30 |
InterTrack : 인간-객체 상호작용을 추적하는 방법 (0) | 2024.08.30 |
CogVideoX : 길이가 긴 일관된 동영상 생성 모델 (0) | 2024.08.29 |
TokenFlow : 시간적 일관성있는 자연스런 영상 생성 모델 (0) | 2024.08.29 |