AI 탐구노트

DEVA : 다양한 비디오에서 객체를 추적할 수 있는 기법 본문

AI 기술

DEVA : 다양한 비디오에서 객체를 추적할 수 있는 기법

42morrow 2024. 8. 30. 18:57

 

영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법

 

영상분석에서 많이 사용되는 방식으로 분류, 감지, 분할, 트래킹 등등이 있는데 이 가운데 분할(segmentation)은 학습데이터를 만드는데 객체감지(detection)의 경우에 비해 많은 시간과 비용이 듭니다. 데이터 가공을 할 때 이미지마다 대상이 되는 객체의 윤곽을 따라 적게는 십수개에서 많게는 수백개의 점을 가지는 폴리곤 라벨링 작업을 해야 하기 때문이죠. 비디오 영상이 수많은 프레임을 가지고 있다는 것을 생각하면 흠... 결코 쉽고 짧은 작업은 아닙니다. 정리해보면 비디오 분할 작업을 위해 각 작업마다 비디오 데이터를 사용하여 훈련하는 것은 데이터 주석 비용이 높아 새로운 작업으로의 확장이 어렵다는 것이죠.

 

DEVA영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법으로 제안된 기법입니다. 이미지 분할과 작업/클래스에 무관한 양방향 시간적 전파를 결합한 분리된 비디오 분할 방식으로 말입니다. 이미지 데이터로 훈련된 모델을 사용하고 일반화 가능한 시간적 전파 모델을 활용하여, 비디오 데이터가 부족한 상황에서도 효과적으로 객체를 추적할 수 있도록 하고 있습니다. 

 

 

요약하면 DEVA 의 특징은 다음과 같습니다. 

  • 이미지 분할과 시간적 전파를 분리하여 훈련 부담을 줄임
  • 양방향 전파 알고리즘을 사용해 시간적으로 일관된 결과 생성
  • 다양한 비디오 분할 작업에서 기존 방식보다 우수한 성능을 보여줌

 

사진 : DEVA 모델의 아키텍처

 

 

위의 아키텍처 그림을 보면, 첫 번째 프레임에서 이미지 분할 모델로 초기화된 결과를 사용하여 시간적 전파를 통해 나머지 프레임을 분할합니다. 양방향 전파 방식으로 과거의 전파 결과와 미래의 이미지 분할 결과를 병합하여 일관된 비디오 분할을 생성하게 됩니다. 

 

사진 : DEVA 모델의 적용 예시

 

 

참고) 프로젝트, 논문, 코드