일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- OpenCV
- TRANSFORMER
- AI 기술
- 트랜스포머
- tts
- 메타
- 딥러닝
- 다국어 지원
- LORA
- 시간적 일관성
- 휴머노이드 로봇
- ChatGPT
- 이미지 생성
- 실시간 렌더링
- 티스토리챌린지
- 오픈소스
- 확산 모델
- OpenAI
- 오픈AI
- 강화 학습
- 인공지능
- PYTHON
- 오블완
- 생성형 AI
- AI
- 아두이노
- 멀티모달
- LLM
- 일론 머스크
- 우분투
- Today
- Total
목록객체 추적 (3)
AI 탐구노트

1. 서론오늘날 인공지능 기술은 이미지를 분석하거나 질문에 답하는 등 다양한 작업에서 큰 성과를 내고 있습니다. 하지만 기존의 인공지능 모델은 특정 작업에만 초점이 맞춰져 있어, 여러 가지를 동시에 처리하는 데 한계가 있었습니다. 예를 들어, 비디오에서 특정 사람을 찾으면서 동시에 그 사람이 무엇을 하고 있는지 대화로 설명하는 것은 어려웠습니다. Sa2VA라는 새로운 모델은 이러한 문제를 해결하기 위해 만들어졌습니다. Sa2VA는 이미지와 비디오를 모두 잘 이해할 수 있도록 설계된 모델로, 사람이 원하는 정보를 더 정확히 찾아주고 대화형으로 설명해 줄 수 있습니다. 예를 들어, "빨간 모자를 쓴 사람을 찾아주세요"라고 하면, 이 사람을 화면에서 찾아 마스크로 표시하거나 관련 설명을 제공할 수 있습니다. ..

1. 서론 시각적 객체 추적은 비디오 데이터를 분석하고 추적해야 하는 다양한 애플리케이션에서 필수적인 기술로 자리 잡고 있습니다. 자율 주행, 비디오 감시, 스포츠 분석 등에서 객체를 정확히 추적하는 기술은 주변 상황의 이해와 그 속에 있는 객체들의 행동 예측을 가능하게 만듭니다. 하지만 복잡한 배경, 객체 간의 가려짐, 그리고 객체들의 빠른 움직임은 전통적인 추적 시스템에 심각한 제약을 초래합니다. 이러한 문제를 해결하기 위해 인공지능 기반의 기술은 지속적으로 발전하고 있으며, 특히 세그멘테이션 중심의 접근 방식은 정교한 결과를 제공합니다. 최근에는 메타가 공개한 Segment Anything Model(SAM)이 세그멘테이션 분야에서 주목할 만한 성과를 거두었습니다. SAM은 다양한 입력 프롬프트를 ..

영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법 영상분석에서 많이 사용되는 방식으로 분류, 감지, 분할, 트래킹 등등이 있는데 이 가운데 분할(segmentation)은 학습데이터를 만드는데 객체감지(detection)의 경우에 비해 많은 시간과 비용이 듭니다. 데이터 가공을 할 때 이미지마다 대상이 되는 객체의 윤곽을 따라 적게는 십수개에서 많게는 수백개의 점을 가지는 폴리곤 라벨링 작업을 해야 하기 때문이죠. 비디오 영상이 수많은 프레임을 가지고 있다는 것을 생각하면 흠... 결코 쉽고 짧은 작업은 아닙니다. 정리해보면 비디오 분할 작업을 위해 각 작업마다 비디오 데이터를 사용하여 훈련하는 것은 데이터 주석 비용이 높아 새로운 작업으로의 확장이 어렵다..