일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 다국어 지원
- 서보모터
- LORA
- 트랜스포머
- 오블완
- 티스토리챌린지
- PYTHON
- 가상환경
- 아두이노
- 시간적 일관성
- AI
- 텍스트-이미지 생성
- 일론 머스크
- TRANSFORMER
- LLM
- 이미지 생성
- AI 기술
- 딥러닝
- 우분투
- ubuntu
- 메타
- OpenAI
- 인공지능
- ChatGPT
- tts
- 확산 모델
- OpenCV
- 오픈AI
- 오픈소스
- 생성형 AI
- Today
- Total
AI 탐구노트
Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델 본문
1. 서론
오늘날 인공지능 기술은 이미지를 분석하거나 질문에 답하는 등 다양한 작업에서 큰 성과를 내고 있습니다. 하지만 기존의 인공지능 모델은 특정 작업에만 초점이 맞춰져 있어, 여러 가지를 동시에 처리하는 데 한계가 있었습니다. 예를 들어, 비디오에서 특정 사람을 찾으면서 동시에 그 사람이 무엇을 하고 있는지 대화로 설명하는 것은 어려웠습니다.
Sa2VA라는 새로운 모델은 이러한 문제를 해결하기 위해 만들어졌습니다. Sa2VA는 이미지와 비디오를 모두 잘 이해할 수 있도록 설계된 모델로, 사람이 원하는 정보를 더 정확히 찾아주고 대화형으로 설명해 줄 수 있습니다. 예를 들어, "빨간 모자를 쓴 사람을 찾아주세요"라고 하면, 이 사람을 화면에서 찾아 마스크로 표시하거나 관련 설명을 제공할 수 있습니다.
2. 본론
2.1 Sa2VA의 제약사항
기존 모델들은 다음과 같은 한계가 있었습니다.
- 제한된 작업 능력 : 비디오에서 움직이는 객체를 추적하거나, 언어로 묘사된 객체를 이해하는 작업 중 하나에만 특화되었습니다. 결국 이 둘을 함께 하려면 개별 모델들을 결합해서 사용하는 것이 필요했습니다.
- 작은 데이터셋 : 복잡한 상황(예: 물체가 가려지는 상황)을 학습하기 위한 데이터가 부족했습니다.
- 균형 문제 : 모델이 언어를 잘 이해하도록 학습시키면 비디오 분석 성능이 떨어지는 등 두 가지를 동시에 잘하기 어려웠습니다.
2.2 Sa2VA 의 접근 방법
Sa2VA는 이를 위해 최신 기술을 조합해 하나의 통합된 모델로 설계되었습니다. 또한, 더 복잡한 상황을 테스트하기 위해 새로운 데이터셋인 Ref-SAV도 함께 개발되었습니다.
Sa2VA 모델은 크게 두 가지 구성 요소로 나뉩니다. LLaVA 기반 모델과 SAM-2 기반모듈인데, 각각 테스트/이미지/비디오를 한데 모아 분석하는 작업과 특정 객체를 분할하는 마스크를 생성하는 역할을 합니다.
Sa2VA는 이런 한계를 해결하기 위해 다음과 같은 새로운 접근 방식을 사용했습니다.
- 통합 학습 : 이미지와 비디오 작업(객체 추적, 질문 응답 등)을 하나의 학습 과정으로 통합해 학습했습니다.
- 모듈 설계 : 기존 기술(SAM-2와 LLaVA)의 강점을 유지하며, 모듈화 설계를 통해 쉽게 업그레이드할 수 있도록 설계되었습니다.
- 새로운 데이터셋 : Ref-SAV라는 복잡한 비디오 상황을 위한 데이터셋을 만들어, 다양한 작업에서 모델의 성능을 높였습니다.
2.3 적용된 세부 기술
- [SEG] 토큰 사용
Sa2VA는 '[SEG]'라는 특수한 명령어를 사용하여, 비디오나 이미지에서 원하는 부분을 찾아 마스크로 표시합니다. 예를 들어, '파란 옷을 입은 사람'이라고 하면, '[SEG]' 토큰을 통해 그 사람의 위치를 정확히 찾아낼 수 있습니다. - Ref-SAV 데이터셋
Ref-SAV는 가림 현상, 긴 텍스트 설명, 복잡한 객체 관계 등을 포함한 비디오 데이터를 제공합니다. 이를 통해 Sa2VA는 현실에서 흔히 발생하는 상황도 잘 처리할 수 있게 됩니다. 아래 그림은 Ref-SAV 데이터셋의 생성 과정을 설명하고 있는데, 객체/부준 수준, 장면 수준, 비디오 수준의 3단계로 나뉘어 생성되었습니다.
- 멀티태스크 학습
Sa2VA는 이미지와 비디오 데이터로 동시에 학습하며, 질문 응답, 객체 추적, 대화 생성 등의 다양한 작업에서 우수한 성능을 보여줍니다.
2.4 테스트
이미지나 비디오에 대한 이해와 그 내용을 기반으로 한 대화, 이미지/비디오 캡셔닝과 객체 세그멘테이션 등 다양한 기능이 어느 정도 수준까지 제공되는지 궁금했습니다. 하지만, 일일이 다 해 볼 수는 없어서, 최근에 관심있는 동물에 대한 분할 부분만 테스트 해 보기로 합니다. 영상은 제대로 된 것을 가진 것이 없어서 일단 이미지만 가지고 진행했습니다. Flux 혹은 SD에서 제공했던 샘플 이미지를 가지고 'fox'만 추출해 봤습니다. 왠만한 크기의 객체는 문제가 없는 것 같습니다.
다음으로 비둘기들을 분할하도록 해 봤습니다. 사진 상의 비둘기들은 크기가 어느 정도 되는 것들이라 분할은 잘 되는 것 같습니다.
이미지 소스 : Photo by Madison Oren on Unsplash
혹시나 좀 많이 작은 녀석들도 될까 싶어 다른 사진도 시도해 봤습니다. 만약 이것도 잘 되면 경우에 따라서는 객체감지 모델 대신 이런 녀석을 사용하는 것도 괜찮을 것 같아서죠. 하지만 포함되어 있는 SAM2 모델의 성능 때문인지 한계가 보였습니다. 그렇지만 사실 기본 모델에서 이 정도면 잘 하는 거 아닌가 싶기도 합니다.
이미지 소스 : Photo by Robinson Greig on Unsplash
3. 결론
Sa2VA는 이미지와 비디오를 동시에 이해하고, 사용자가 요청하는 작업을 정확히 수행할 수 있는 모델입니다. 그리고 Ref-SAV 데이터셋을 통해 현실에서 자주 발생하는 복잡한 상황에서도 모델이 효과적으로 작동할 수 있도록 학습되었습니다.
Sa2VA를 잘 활용하면 시각적으로 들어오는 이미지나 영상에 대한 분석을 하게끔 시키고, 그 내용을 기반으로 사용자가 필요로 하는 액션을 수행할 수 있도록 자동화하는데 활용할 수 있을 것 같습니다. 예를 들어 매장에서 물건을 훔치는 장면으로 분석되는 경우에 행위자를 특정하고 그 사람의 정보를 추출한 뒤 이후 트래킹하는 쪽에 전달한다던가 하는 식으로 말이죠. 시간이 되면 직접적으로 활용할 수 있는 케이스를 연구해 봐야겠습니다.
4. 참고자료
5. Q&A
Q. Sa2VA는 무엇을 할 수 있나요?
Sa2VA는 비디오나 이미지에서 특정 객체를 찾아내고, 그에 대해 설명하거나 대화형으로 정보를 제공할 수 있습니다.
Q. Ref-SAV 데이터셋이 왜 중요한가요?
Ref-SAV는 현실 세계에서 발생할 수 있는 복잡한 상황(가림 현상, 긴 설명)을 포함하여 Sa2VA의 성능을 더욱 높이는 데 기여합니다.
Q. Sa2VA는 어떤 문제를 해결하려고 하나요?
기존 모델이 특정 작업만 잘 처리하거나, 데이터가 부족해서 실제 상황에 적용하기 어려웠던 문제를 해결하려고 합니다.
'AI 기술' 카테고리의 다른 글
Qwen Chat : ChatGPT를 닮은 오픈소스 챗봇 (0) | 2025.01.15 |
---|---|
SPAR3D : 단일 이미지에서 3D 객체를 안정적으로 복원하는 새로운 방법론 (0) | 2025.01.14 |
Kokoro-82M: 컴팩트하면서 강력한 TTS 솔루션 (1) | 2025.01.13 |
NeuralSVG - 텍스트에서 벡터 그래픽 생성으로의 새로운 접근 (0) | 2025.01.12 |
TransPixar : 투명한 비디오 생성의 새로운 시대 (0) | 2025.01.12 |