일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 실시간 렌더링
- 휴머노이드 로봇
- 생성형AI
- 인공지능
- 트랜스포머
- LORA
- 강화 학습
- AI 기술
- 3d 재구성
- 우분투
- OpenCV
- 티스토리챌린지
- 코딩
- tts
- ubuntu
- AI
- 생성형 AI
- 확산 모델
- 다국어 지원
- Stable Diffusion
- 딥러닝
- OpenAI
- PYTHON
- LLM
- 오블완
- 일론 머스크
- 오픈소스
- 오픈AI
- 메타
- 시간적 일관성
- Today
- Total
목록이미지 이해 (2)
AI 탐구노트

최근 인공지능(AI) 언어 모델 연구에서 매개변수의 크기를 줄이면서도 성능을 유지하거나 개선하는 방향이 활발히 진행되고 있습니다. 기존 대형 언어 모델들은 뛰어난 성능을 자랑하지만, 높은 연산 비용과 메모리 사용량이 문제로 지적되고 있습니다. 이에 따라 "소형 언어 모델(Small Language Models, SLMs)"에 대한 연구가 증가하고 있으며, 적절한 데이터 구성과 최적화된 모델 설계를 통해 대형 모델에 버금가는 성능을 달성하려는 시도가 이루어지고 있습니다. Microsoft에서 발표한 Phi-4-Mini 및 Phi-4-Multimodal은 이러한 흐름을 반영한 최신 연구 성과로, 3.8억 개의 매개변수만으로도 수학 및 코딩 분야에서 두 배 이상 큰 모델과 유사한 성능을 보여줍니다. 특히, P..

1. 서론오늘날 인공지능 기술은 이미지를 분석하거나 질문에 답하는 등 다양한 작업에서 큰 성과를 내고 있습니다. 하지만 기존의 인공지능 모델은 특정 작업에만 초점이 맞춰져 있어, 여러 가지를 동시에 처리하는 데 한계가 있었습니다. 예를 들어, 비디오에서 특정 사람을 찾으면서 동시에 그 사람이 무엇을 하고 있는지 대화로 설명하는 것은 어려웠습니다. Sa2VA라는 새로운 모델은 이러한 문제를 해결하기 위해 만들어졌습니다. Sa2VA는 이미지와 비디오를 모두 잘 이해할 수 있도록 설계된 모델로, 사람이 원하는 정보를 더 정확히 찾아주고 대화형으로 설명해 줄 수 있습니다. 예를 들어, "빨간 모자를 쓴 사람을 찾아주세요"라고 하면, 이 사람을 화면에서 찾아 마스크로 표시하거나 관련 설명을 제공할 수 있습니다. ..