Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- ChatGPT
- 아두이노
- 인공지능
- 오픈소스
- PYTHON
- 생성형 AI
- 강화 학습
- LLM
- 확산 모델
- 시간적 일관성
- 일론 머스크
- Stable Diffusion
- 휴머노이드 로봇
- ubuntu
- 오블완
- 메타
- 딥러닝
- 티스토리챌린지
- OpenAI
- 멀티모달
- TRANSFORMER
- LORA
- 우분투
- 오픈AI
- tts
- 트랜스포머
- AI
- 다국어 지원
- OpenCV
- AI 기술
Archives
- Today
- Total
목록사전정렬 (1)
AI 탐구노트

비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델 EAGLE은 다양한 비전 인코더를 결합하여 멀티모달 대형 언어 모델(MLLM)의 시각적 인식 능력을 최적화한 모델입니다.기존의 멀티모달 모델들은 주로 낮은 해상도 이미지 처리에 한정되었으며, 시각 인코더 선택 및 결합 전략에 대한 체계적인 비교와 세부적인 연구가 부족했고 이는 결과적으로 OCR 및 문서 분석과 같이 해상도가 민감한 작업에서 성능 저하를 초래했습니다. EAGLE은 여러 비전 인코더의 조합과 고해상도 적응을 통해 이러한 문제를 해결하고자 합니다. 특히, 각 인코더의 시각적 토큰을 단순히 결합하는 방식이 복잡한 혼합 아키텍처만큼 효과적이며, 비전 인코더와 언어 토큰 간의 사전 정렬(Pre-Alignm..
AI 기술
2024. 8. 30. 21:45