AI 탐구노트

SAMURAI : 동적 환경에서의 객체 추적 본문

AI 기술

SAMURAI : 동적 환경에서의 객체 추적

42morrow 2024. 11. 23. 21:21

 

1. 서론

 

시각적 객체 추적은 비디오 데이터를 분석하고 추적해야 하는 다양한 애플리케이션에서 필수적인 기술로 자리 잡고 있습니다. 자율 주행, 비디오 감시, 스포츠 분석 등에서 객체를 정확히 추적하는 기술은 주변 상황의 이해와 그 속에 있는 객체들의 행동 예측을 가능하게 만듭니다. 하지만 복잡한 배경, 객체 간의 가려짐, 그리고 객체들의 빠른 움직임은 전통적인 추적 시스템에 심각한 제약을 초래합니다. 이러한 문제를 해결하기 위해 인공지능 기반의 기술은 지속적으로 발전하고 있으며, 특히 세그멘테이션 중심의 접근 방식은 정교한 결과를 제공합니다.

 

최근에는 메타가 공개한 Segment Anything Model(SAM)이 세그멘테이션 분야에서 주목할 만한 성과를 거두었습니다. SAM은 다양한 입력 프롬프트를 활용하여 이미지 내 객체를 정확히 구분할 수 있지만, 동영상과 같은 연속적인 데이터에서는 추적 과정에서 오류가 누적되는 한계를 드러냅니다. 특히, 기존 SAM 2 모델은 고정된 메모리 창(window)을 사용해 이전 정보를 저장하지만, 이 방식은 가려진 객체를 처리하거나 빠르게 움직이는 상황에서 비효율적일 수 있습니다.

 

이 글에서는 SAM 2의 문제점을 개선한 SAMURAI 모델에 대해 논의합니다. SAMURAI는 동작 인식 기반 메모리 선택 기법을 도입해 객체의 움직임과 연속적인 변화에 더 적합한 추적 성능을 제공합니다. 이를 통해 SAMURAI는 복잡한 동적 환경에서도 신뢰할 수 있는 객체 추적을 실현합니다.

 

사진 : SAM 2를 이용하는 경우, 객체 추적에 실패하는 예시

 


2. 본론

2.1. 기존 방식의 문제점

SAM 2는 영상 객체 세그멘테이션에서 우수한 성능을 보였지만, 객체 추적 시 다음과 같은 한계를 보였습니다:

  1. 혼잡한 장면에서의 혼란 : 유사한 외형을 가진 객체가 많은 상황에서 추적 실패가 발생합니다.
  2. 고정 메모리 창의 한계 : 고정된 메모리 크기를 사용해 불필요하거나 품질이 낮은 정보가 저장됨으로써 오류가 누적됩니다.

이러한 한계는 SAM 2가 단순히 시각적 유사성에 의존하여 추적 결과를 생성하기 때문입니다.

 

2.2. 접근 방식

 

 

SAMURAI는 이러한 문제를 해결하기 위해 다음 두 가지 핵심 기술을 도입했습니다:

  1. 동작 기반 모델링(Motion Modeling)
    • 칼만 필터(Kalman Filter)를 활용해 객체의 위치와 크기를 예측하고, 이를 마스크 선택에 반영합니다.
    • 빠른 이동이나 불규칙한 움직임에서도 객체를 안정적으로 추적할 수 있습니다.
  2. 동작 인식 메모리 선택(Motion-Aware Memory Selection)
    • 기존 고정 창 메모리 방식 대신 객체의 동작과 관련된 프레임만을 선택적으로 메모리 뱅크에 저장합니다.
    • 마스크 친화도(Affinity), 객체 점수(Object Score), 동작 점수(Motion Score)를 결합한 하이브리드 스코어링 시스템을 사용합니다.

그림 : SAMURAI의 Visual Object Tracker 개요

 

2.3. 세부 적용 기술

  • 칼만 필터 기반 동작 점수
    칼만 필터를 통해 프레임 간 객체의 궤적을 예측하고, 마스크와의 교집합 비율(IoU)을 계산해 신뢰할 수 있는 마스크를 선택합니다.
  • 메모리 뱅크 최적화
    • 기존 SAM 2가 모든 프레임을 저장하는 방식에서 벗어나, 품질 점수가 높은 프레임만 저장합니다. 
    • 객체의 이동 및 가려짐 상황에서도 중요한 정보를 유지하도록 개선합니다.
  • 실시간 성능 보장
    • 제안된 기법은 추가 학습 없이 SAM 2에 통합 가능하며, GPU 환경에서 실시간 처리가 가능합니다.

 

2.4. 제약사항

  • 현재 모델은 객체의 극단적 가려짐이 지속되는 경우 동작 예측 정확도가 떨어질 수 있습니다. 
  • 고해상도 비디오 처리 시 메모리 관리 최적화가 추가로 필요합니다.

3. 결론

SAMURAI는 기존 SAM 2 모델의 단점을 극복하고, 동작 기반 예측 및 메모리 선택 기법을 통해 복잡한 동적 환경에서도 뛰어난 성능을 발휘합니다. 추가 학습 없이도 다양한 데이터셋에서 안정적인 추적 성능을 입증하며, 자율 주행, 감시 시스템, 의료 영상 등 실생활 응용 가능성도 높아 보이구요. 프로젝트 사이트에 게시된 데모 영상을 보면 그동안 다른 객체추적 모델들이 폐색, 중첩 등으로 인해 객체를 놓치던 현상을 상당히 개선한 것으로 보입니다. 

 


4. 참고자료

  • SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory (논문 원문)
  • 프로젝트 사이트
 

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fix

yangchris11.github.io

  • 코드 (깃헙)
 

GitHub - yangchris11/samurai: Official repository of "SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking wit

Official repository of "SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory" - yangchris11/samurai

github.com

 


5. Q&A

Q: SAMURAI 모델이 기존 SAM 2와 다른 점은 무엇인가요?
SAMURAI는 동작 인식 기반 메모리 선택과 칼만 필터를 추가하여, 추적 오류를 줄이고 객체의 움직임을 더 정확히 예측합니다.

 

Q: 이 모델은 추가 학습이 필요한가요?
아니요, SAMURAI는 추가 학습 없이 기존 SAM 2에 바로 통합될 수 있습니다.

 

Q: 모델의 주요 응용 분야는 무엇인가요?
자율 주행, 비디오 감시, 스포츠 분석, 의료 영상 등 움직임 추적이 필요한 다양한 분야에 활용될 수 있습니다.