일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 생성형AI
- 코딩
- 트랜스포머
- 오픈AI
- 3d 재구성
- PYTHON
- 우분투
- 딥러닝
- 휴머노이드 로봇
- AI 기술
- 일론 머스크
- 시간적 일관성
- 실시간 렌더링
- 강화 학습
- 생성형 AI
- tts
- LORA
- 확산 모델
- 오픈소스
- OpenAI
- 메타
- LLM
- AI
- Stable Diffusion
- ubuntu
- OpenCV
- 인공지능
- 티스토리챌린지
- 다국어 지원
- 오블완
- Today
- Total
목록멀티모달 (3)
AI 탐구노트

메타(Meta)는 최근 새로운 인공지능(AI) 모델 시리즈인 Llama 4를 발표했습니다. 이 시리즈는 Llama 4 Scout, Llama 4 Maverick, 그리고 아직 훈련 중인 Llama 4 Behemoth로 구성되어 있습니다. 이번 글에서는 간략하게 Llama 4 모델의 출시 소식을 정리해 보겠습니다. Llama 4의 모델 구성모델 이름총 파라미터 수활성 파라미터 수주요 특징Llama 4 Scout109B (1,090억)1.7B (17억)단일 H100 GPU에서 실행 가능, 1,000만 토큰 컨텍스트 윈도우 지원Llama 4 Maverick400B (4,000억)1.7B (17억)고성능 대형 모델, GPT-4o 수준의 성능, 추론 효율성 우수Llama 4 Behemoth2T (2조)288B (..

최근 인공지능(AI) 언어 모델 연구에서 매개변수의 크기를 줄이면서도 성능을 유지하거나 개선하는 방향이 활발히 진행되고 있습니다. 기존 대형 언어 모델들은 뛰어난 성능을 자랑하지만, 높은 연산 비용과 메모리 사용량이 문제로 지적되고 있습니다. 이에 따라 "소형 언어 모델(Small Language Models, SLMs)"에 대한 연구가 증가하고 있으며, 적절한 데이터 구성과 최적화된 모델 설계를 통해 대형 모델에 버금가는 성능을 달성하려는 시도가 이루어지고 있습니다. Microsoft에서 발표한 Phi-4-Mini 및 Phi-4-Multimodal은 이러한 흐름을 반영한 최신 연구 성과로, 3.8억 개의 매개변수만으로도 수학 및 코딩 분야에서 두 배 이상 큰 모델과 유사한 성능을 보여줍니다. 특히, P..

Janus는 이미지와 텍스트를 동시에 이해하고 생성할 수 있는 모델입니다. 기존 멀티모달 모델은 하나의 이미지 인코딩 방식을 이해와 생성에 모두 사용했습니다. 그런데 사실 이 두 작업이 요구하는 정보가 다릅니다. 이미지를 이해하는 작업은 이미지 속의 사물이나 장면을 분석해서 높은 수준의 의미를 추출해야 하고, 생성 작업은 이미지의 세부적인 부분을 그리거나 표현해야 합니다. 그러다보니 하나의 인코딩 방식으로 두 작업을 모두 수행하게 되면 성능이 떨어지는 문제가 있었습니다. Janus는 시각적 인코딩을 이미지 이해용과 생성용 두 가지로 분리했습니다. 이 두 인코더를 하나의 통합된 Transformer 구조 안에서 결합해, 작업에 맞는 것을 각각 사용할 수 있도록 했고, 이 덕분에 두 작업 간의 충돌을 ..