AI 탐구노트

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델 본문

AI 기술

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델

42morrow 2025. 1. 14. 10:39

 

1. 서론

오늘날 인공지능 기술은 이미지를 분석하거나 질문에 답하는 등 다양한 작업에서 큰 성과를 내고 있습니다. 하지만 기존의 인공지능 모델은 특정 작업에만 초점이 맞춰져 있어, 여러 가지를 동시에 처리하는 데 한계가 있었습니다. 예를 들어, 비디오에서 특정 사람을 찾으면서 동시에 그 사람이 무엇을 하고 있는지 대화로 설명하는 것은 어려웠습니다.

 

Sa2VA라는 새로운 모델은 이러한 문제를 해결하기 위해 만들어졌습니다. Sa2VA는 이미지와 비디오를 모두 잘 이해할 수 있도록 설계된 모델로, 사람이 원하는 정보를 더 정확히 찾아주고 대화형으로 설명해 줄 수 있습니다. 예를 들어, "빨간 모자를 쓴 사람을 찾아주세요"라고 하면, 이 사람을 화면에서 찾아 마스크로 표시하거나 관련 설명을 제공할 수 있습니다.

 


2. 본론

2.1 Sa2VA의 제약사항

기존 모델들은 다음과 같은 한계가 있었습니다.

  • 제한된 작업 능력 : 비디오에서 움직이는 객체를 추적하거나, 언어로 묘사된 객체를 이해하는 작업 중 하나에만 특화되었습니다. 결국 이 둘을 함께 하려면 개별 모델들을 결합해서 사용하는 것이 필요했습니다. 
  • 작은 데이터셋 : 복잡한 상황(예: 물체가 가려지는 상황)을 학습하기 위한 데이터가 부족했습니다.
  • 균형 문제 : 모델이 언어를 잘 이해하도록 학습시키면 비디오 분석 성능이 떨어지는 등 두 가지를 동시에 잘하기 어려웠습니다.

 

2.2 Sa2VA 의 접근 방법 

Sa2VA는 이를 위해 최신 기술을 조합해 하나의 통합된 모델로 설계되었습니다. 또한, 더 복잡한 상황을 테스트하기 위해 새로운 데이터셋인 Ref-SAV도 함께 개발되었습니다. 

그림 : Sa2VA 모델의 기능 소개

 

 

 

Sa2VA 모델은 크게 두 가지 구성 요소로 나뉩니다. LLaVA 기반 모델과 SAM-2 기반모듈인데, 각각 테스트/이미지/비디오를 한데 모아 분석하는 작업과 특정 객체를 분할하는 마스크를 생성하는 역할을 합니다. 

그림 : Sa2VA 모델의 구조

 

 

Sa2VA는 이런 한계를 해결하기 위해 다음과 같은 새로운 접근 방식을 사용했습니다.

  • 통합 학습 : 이미지와 비디오 작업(객체 추적, 질문 응답 등)을 하나의 학습 과정으로 통합해 학습했습니다.
  • 모듈 설계 : 기존 기술(SAM-2와 LLaVA)의 강점을 유지하며, 모듈화 설계를 통해 쉽게 업그레이드할 수 있도록 설계되었습니다.
  • 새로운 데이터셋 : Ref-SAV라는 복잡한 비디오 상황을 위한 데이터셋을 만들어, 다양한 작업에서 모델의 성능을 높였습니다.

 

2.3 적용된 세부 기술

  • [SEG] 토큰 사용
    Sa2VA는 '[SEG]'라는 특수한 명령어를 사용하여, 비디오나 이미지에서 원하는 부분을 찾아 마스크로 표시합니다. 예를 들어, '파란 옷을 입은 사람'이라고 하면, '[SEG]' 토큰을 통해 그 사람의 위치를 정확히 찾아낼 수 있습니다.
  • Ref-SAV 데이터셋
    Ref-SAV는 가림 현상, 긴 텍스트 설명, 복잡한 객체 관계 등을 포함한 비디오 데이터를 제공합니다. 이를 통해 Sa2VA는 현실에서 흔히 발생하는 상황도 잘 처리할 수 있게 됩니다. 아래 그림은 Ref-SAV 데이터셋의 생성 과정을 설명하고 있는데, 객체/부준 수준, 장면 수준, 비디오 수준의 3단계로 나뉘어 생성되었습니다. 

그림 : Ref-SAV 데이터셋 생성 과정

 

  • 멀티태스크 학습
    Sa2VA는 이미지와 비디오 데이터로 동시에 학습하며, 질문 응답, 객체 추적, 대화 생성 등의 다양한 작업에서 우수한 성능을 보여줍니다.

 

2.4 테스트

 

이미지나 비디오에 대한 이해와 그 내용을 기반으로 한 대화, 이미지/비디오 캡셔닝과 객체 세그멘테이션 등 다양한 기능이 어느 정도 수준까지 제공되는지 궁금했습니다. 하지만, 일일이 다 해 볼 수는 없어서, 최근에 관심있는 동물에 대한 분할 부분만 테스트 해 보기로 합니다. 영상은 제대로 된 것을 가진 것이 없어서 일단 이미지만 가지고 진행했습니다. Flux 혹은 SD에서 제공했던 샘플 이미지를 가지고 'fox'만 추출해 봤습니다. 왠만한 크기의 객체는 문제가 없는 것 같습니다. 

 

다음으로 비둘기들을 분할하도록 해 봤습니다. 사진 상의 비둘기들은 크기가 어느 정도 되는 것들이라 분할은 잘 되는 것 같습니다. 
이미지 소스 : Photo by Madison Oren on Unsplash

 

혹시나 좀 많이 작은 녀석들도 될까 싶어 다른 사진도 시도해 봤습니다. 만약 이것도 잘 되면 경우에 따라서는 객체감지 모델 대신 이런 녀석을 사용하는 것도 괜찮을 것 같아서죠. 하지만 포함되어 있는 SAM2 모델의 성능 때문인지 한계가 보였습니다. 그렇지만 사실 기본 모델에서 이 정도면 잘 하는 거 아닌가 싶기도 합니다.  

 

이미지 소스 : Photo by Robinson Greig on Unsplash



3. 결론

Sa2VA는 이미지와 비디오를 동시에 이해하고, 사용자가 요청하는 작업을 정확히 수행할 수 있는 모델입니다. 그리고 Ref-SAV 데이터셋을 통해 현실에서 자주 발생하는 복잡한 상황에서도 모델이 효과적으로 작동할 수 있도록 학습되었습니다. 

 

Sa2VA를 잘 활용하면 시각적으로 들어오는 이미지나 영상에 대한 분석을 하게끔 시키고, 그 내용을 기반으로 사용자가 필요로 하는 액션을 수행할 수 있도록 자동화하는데 활용할 수 있을 것 같습니다. 예를 들어 매장에서 물건을 훔치는 장면으로 분석되는 경우에 행위자를 특정하고 그 사람의 정보를 추출한 뒤 이후 트래킹하는 쪽에 전달한다던가 하는 식으로 말이죠. 시간이 되면 직접적으로 활용할 수 있는 케이스를 연구해 봐야겠습니다. 

 


4. 참고자료

    • Sa2VA 프로젝트 사이트 (링크)
    • 논문) Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos (링크)
    • 코드) Sa2VA 깃헙 (링크)
    • HuggingFace 모델 카드 (링크)
    • 데모) Sa2VA 데모 (링크)

5. Q&A

Q. Sa2VA는 무엇을 할 수 있나요?
Sa2VA는 비디오나 이미지에서 특정 객체를 찾아내고, 그에 대해 설명하거나 대화형으로 정보를 제공할 수 있습니다.

 

Q. Ref-SAV 데이터셋이 왜 중요한가요?
Ref-SAV는 현실 세계에서 발생할 수 있는 복잡한 상황(가림 현상, 긴 설명)을 포함하여 Sa2VA의 성능을 더욱 높이는 데 기여합니다.

 

Q. Sa2VA는 어떤 문제를 해결하려고 하나요?
기존 모델이 특정 작업만 잘 처리하거나, 데이터가 부족해서 실제 상황에 적용하기 어려웠던 문제를 해결하려고 합니다.