Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델 본문

AI 기술

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델

42morrow 2025. 1. 14. 10:39

1. 서론

오늘날 인공지능 기술은 이미지를 분석하거나 질문에 답하는 등 다양한 작업에서 큰 성과를 내고 있습니다. 하지만 기존의 인공지능 모델은 특정 작업에만 초점이 맞춰져 있어, 여러 가지를 동시에 처리하는 데 한계가 있었습니다. 예를 들어, 비디오에서 특정 사람을 찾으면서 동시에 그 사람이 무엇을 하고 있는지 대화로 설명하는 것은 어려웠습니다.

Sa2VA라는 새로운 모델은 이러한 문제를 해결하기 위해 만들어졌습니다. Sa2VA는 이미지와 비디오를 모두 잘 이해할 수 있도록 설계된 모델로, 사람이 원하는 정보를 더 정확히 찾아주고 대화형으로 설명해 줄 수 있습니다. 예를 들어, "빨간 모자를 쓴 사람을 찾아주세요"라고 하면, 이 사람을 화면에서 찾아 마스크로 표시하거나 관련 설명을 제공할 수 있습니다.

2. 본론

2.1 Sa2VA의 제약사항

기존 모델들은 다음과 같은 한계가 있었습니다.

제한된 작업 능력 : 비디오에서 움직이는 객체를 추적하거나, 언어로 묘사된 객체를 이해하는 작업 중 하나에만 특화되었습니다. 결국 이 둘을 함께 하려면 개별 모델들을 결합해서 사용하는 것이 필요했습니다.
작은 데이터셋 : 복잡한 상황(예: 물체가 가려지는 상황)을 학습하기 위한 데이터가 부족했습니다.
균형 문제 : 모델이 언어를 잘 이해하도록 학습시키면 비디오 분석 성능이 떨어지는 등 두 가지를 동시에 잘하기 어려웠습니다.

2.2 Sa2VA 의 접근 방법

Sa2VA는 이를 위해 최신 기술을 조합해 하나의 통합된 모델로 설계되었습니다. 또한, 더 복잡한 상황을 테스트하기 위해 새로운 데이터셋인 Ref-SAV도 함께 개발되었습니다.

Sa2VA 모델은 크게 두 가지 구성 요소로 나뉩니다. LLaVA 기반 모델과 SAM-2 기반모듈인데, 각각 테스트/이미지/비디오를 한데 모아 분석하는 작업과 특정 객체를 분할하는 마스크를 생성하는 역할을 합니다.

Sa2VA는 이런 한계를 해결하기 위해 다음과 같은 새로운 접근 방식을 사용했습니다.

통합 학습 : 이미지와 비디오 작업(객체 추적, 질문 응답 등)을 하나의 학습 과정으로 통합해 학습했습니다.
모듈 설계 : 기존 기술(SAM-2와 LLaVA)의 강점을 유지하며, 모듈화 설계를 통해 쉽게 업그레이드할 수 있도록 설계되었습니다.
새로운 데이터셋 : Ref-SAV라는 복잡한 비디오 상황을 위한 데이터셋을 만들어, 다양한 작업에서 모델의 성능을 높였습니다.

2.3 적용된 세부 기술

[SEG] 토큰 사용
Sa2VA는 '[SEG]'라는 특수한 명령어를 사용하여, 비디오나 이미지에서 원하는 부분을 찾아 마스크로 표시합니다. 예를 들어, '파란 옷을 입은 사람'이라고 하면, '[SEG]' 토큰을 통해 그 사람의 위치를 정확히 찾아낼 수 있습니다.
Ref-SAV 데이터셋
Ref-SAV는 가림 현상, 긴 텍스트 설명, 복잡한 객체 관계 등을 포함한 비디오 데이터를 제공합니다. 이를 통해 Sa2VA는 현실에서 흔히 발생하는 상황도 잘 처리할 수 있게 됩니다. 아래 그림은 Ref-SAV 데이터셋의 생성 과정을 설명하고 있는데, 객체/부준 수준, 장면 수준, 비디오 수준의 3단계로 나뉘어 생성되었습니다.

멀티태스크 학습
Sa2VA는 이미지와 비디오 데이터로 동시에 학습하며, 질문 응답, 객체 추적, 대화 생성 등의 다양한 작업에서 우수한 성능을 보여줍니다.

2.4 테스트

이미지나 비디오에 대한 이해와 그 내용을 기반으로 한 대화, 이미지/비디오 캡셔닝과 객체 세그멘테이션 등 다양한 기능이 어느 정도 수준까지 제공되는지 궁금했습니다. 하지만, 일일이 다 해 볼 수는 없어서, 최근에 관심있는 동물에 대한 분할 부분만 테스트 해 보기로 합니다. 영상은 제대로 된 것을 가진 것이 없어서 일단 이미지만 가지고 진행했습니다. Flux 혹은 SD에서 제공했던 샘플 이미지를 가지고 'fox'만 추출해 봤습니다. 왠만한 크기의 객체는 문제가 없는 것 같습니다.

다음으로 비둘기들을 분할하도록 해 봤습니다. 사진 상의 비둘기들은 크기가 어느 정도 되는 것들이라 분할은 잘 되는 것 같습니다.
이미지 소스 : Photo by Madison Oren on Unsplash

혹시나 좀 많이 작은 녀석들도 될까 싶어 다른 사진도 시도해 봤습니다. 만약 이것도 잘 되면 경우에 따라서는 객체감지 모델 대신 이런 녀석을 사용하는 것도 괜찮을 것 같아서죠. 하지만 포함되어 있는 SAM2 모델의 성능 때문인지 한계가 보였습니다. 그렇지만 사실 기본 모델에서 이 정도면 잘 하는 거 아닌가 싶기도 합니다.

이미지 소스 : Photo by Robinson Greig on Unsplash

3. 결론

Sa2VA는 이미지와 비디오를 동시에 이해하고, 사용자가 요청하는 작업을 정확히 수행할 수 있는 모델입니다. 그리고 Ref-SAV 데이터셋을 통해 현실에서 자주 발생하는 복잡한 상황에서도 모델이 효과적으로 작동할 수 있도록 학습되었습니다.

Sa2VA를 잘 활용하면 시각적으로 들어오는 이미지나 영상에 대한 분석을 하게끔 시키고, 그 내용을 기반으로 사용자가 필요로 하는 액션을 수행할 수 있도록 자동화하는데 활용할 수 있을 것 같습니다. 예를 들어 매장에서 물건을 훔치는 장면으로 분석되는 경우에 행위자를 특정하고 그 사람의 정보를 추출한 뒤 이후 트래킹하는 쪽에 전달한다던가 하는 식으로 말이죠. 시간이 되면 직접적으로 활용할 수 있는 케이스를 연구해 봐야겠습니다.

4. 참고자료

Sa2VA 프로젝트 사이트 (링크)
논문) Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos (링크)
코드) Sa2VA 깃헙 (링크)
HuggingFace 모델 카드 (링크)
데모) Sa2VA 데모 (링크)

5. Q&A

Q. Sa2VA는 무엇을 할 수 있나요?
Sa2VA는 비디오나 이미지에서 특정 객체를 찾아내고, 그에 대해 설명하거나 대화형으로 정보를 제공할 수 있습니다.

Q. Ref-SAV 데이터셋이 왜 중요한가요?
Ref-SAV는 현실 세계에서 발생할 수 있는 복잡한 상황(가림 현상, 긴 설명)을 포함하여 Sa2VA의 성능을 더욱 높이는 데 기여합니다.

Q. Sa2VA는 어떤 문제를 해결하려고 하나요?
기존 모델이 특정 작업만 잘 처리하거나, 데이터가 부족해서 실제 상황에 적용하기 어려웠던 문제를 해결하려고 합니다.

'AI 기술' 카테고리의 다른 글

Qwen Chat : ChatGPT를 닮은 오픈소스 챗봇 (0)	2025.01.15
SPAR3D : 단일 이미지에서 3D 객체를 안정적으로 복원하는 새로운 방법론 (0)	2025.01.14
Kokoro-82M: 컴팩트하면서 강력한 TTS 솔루션 (3)	2025.01.13
NeuralSVG - 텍스트에서 벡터 그래픽 생성으로의 새로운 접근 (0)	2025.01.12
TransPixar : 투명한 비디오 생성의 새로운 시대 (0)	2025.01.12

'AI 기술' Related Articles

AI 탐구노트

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델 본문

Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델

1. 서론

2. 본론

2.1 Sa2VA의 제약사항

2.2 Sa2VA 의 접근 방법

2.3 적용된 세부 기술

2.4 테스트

3. 결론

4. 참고자료

5. Q&A

'AI 기술' 카테고리의 다른 글

티스토리툴바