일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- PYTHON
- 티스토리챌린지
- 뉴럴링크
- tts
- 멀티모달
- 오블완
- ubuntu
- 오픈AI
- 가상환경
- OpenAI
- ChatGPT
- 우분투
- AI
- LORA
- 아두이노
- 트랜스포머
- 생성형 AI
- javascript
- 딥마인드
- 일론 머스크
- 인공지능
- ControlNet
- 메타
- 확산 모델
- 서보모터
- LLM
- 시간적 일관성
- AI 기술
- 이미지 편집
- TRANSFORMER
- Today
- Total
목록2024/08/30 (3)
AI 탐구노트
비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델 EAGLE은 다양한 비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델입니다.기존의 멀티모달 모델들은 주로 낮은 해상도 이미지 처리에 한정되었으며, 시각 인코더 선택 및 결합 전략에 대한 체계적인 비교와 세부적인 연구가 부족했고 이는 결과적으로 OCR 및 문서 분석과 같이 해상도가 민감한 작업에서 성능 저하를 초래했습니다. EAGLE은 여러 비전 인코더의 조합과 고해상도 적응을 통해 이러한 문제를 해결하고자 합니다. 특히, 각 인코더의 시각적 토큰을 단순히 결합하는 방식이 복잡한 혼합 아키텍처만큼 효과적이며, 비전 인코더와 언어 토큰 간의 사전 정렬(Pre-Alignm..
영상 분할을 이미지 분할과 시간적 전파로 분리하여, 다양한 비디오에서 객체를 추적할 수 있는 방법 영상분석에서 많이 사용되는 방식으로 분류, 감지, 분할, 트래킹 등등이 있는데 이 가운데 분할(segmentation)은 학습데이터를 만드는데 객체감지(detection)의 경우에 비해 많은 시간과 비용이 듭니다. 데이터 가공을 할 때 이미지마다 대상이 되는 객체의 윤곽을 따라 적게는 십수개에서 많게는 수백개의 점을 가지는 폴리곤 라벨링 작업을 해야 하기 때문이죠. 비디오 영상이 수많은 프레임을 가지고 있다는 것을 생각하면 흠... 결코 쉽고 짧은 작업은 아닙니다. 정리해보면 비디오 분할 작업을 위해 각 작업마다 비디오 데이터를 사용하여 훈련하는 것은 데이터 주석 비용이 높아 새로운 작업으로의 확장이 어렵다..
객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법 InterTrack는 객체 템플릿 없이 단일 RGB 카메라에서 인간-객체 상호작용을 추적하는 방법입니다. 기존의 비디오 기반 추적 방법은 사전에 정의된 객체 템플릿이 필요하며, 단일 이미지 기반 방법은 템플릿이 필요 없지만 시간적 일관성이 부족했고, 가려짐(occlusion)과 역동적인 움직임이 있는 상황에서 일관된 추적을 제공하기 힘들었습니다. InterTrack는 4D 추적 문제를 프레임별 포즈 추정과 정규화된 형태 최적화로 분해하여 템플릿 없이 인간과 객체의 상호작용을 추적합니다. 이를 위해 프레임마다 3D 인간과 객체의 포인트 클라우드를 생성하고, 시간적 일관성을 유지하기 위해 자동 인코더(CorrAE)와 영상 기반 ..