Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- AI 기술
- 트랜스포머
- 확산 모델
- 딥마인드
- 오블완
- ubuntu
- TRANSFORMER
- LORA
- ControlNet
- 메타
- OpenAI
- 아두이노
- 가상환경
- 이미지 편집
- 인공지능
- LLM
- 오픈AI
- 멀티모달
- 일론 머스크
- 티스토리챌린지
- 우분투
- 뉴럴링크
- AI
- tts
- ChatGPT
- javascript
- 서보모터
- 생성형 AI
- PYTHON
- 시간적 일관성
Archives
- Today
- Total
AI 탐구노트
Phi-3-vision : Phi-3 기반 멀티모달 모델 본문
마이크로소프트의 Phi-3 기반 비전 모델
마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다.
Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기의 비전 및 텍스트 토큰을 학습했다고 하죠. Phi-3-vision은 Phi-3 모델 가운데 최초의 멀티모달 모델인데, 텍스트 추출과 이해, 코딩, 이미지나 사진 등에 대한 일반적인 시각적 이해, 차트나 다이어그램 이해 등등 다양한 일을 수행할 수 있습니다. 참고로 MIT 라이선스를 따릅니다. (Phi-3 small, medium도 MIT로 전환되었다고 합니다)
'AI 기술' 카테고리의 다른 글
MistoLine : 손그림 입력을 지원하는 이미지 생성모델 (0) | 2024.08.15 |
---|---|
HiDiffusion : 이미지의 해상도와 생성 속도 향상 기법 (0) | 2024.08.15 |
P3M-Net : 비식별화된 초상화 배경 분리 (0) | 2024.08.15 |
MatMul-free Language Model : 행렬곱을 제거한 LLM (0) | 2024.08.15 |
CTRL-Adapter (0) | 2024.08.14 |