Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 가상환경
- 일론 머스크
- TRANSFORMER
- 우분투
- ControlNet
- 뉴럴링크
- LLM
- 이미지 편집
- 생성형 AI
- LORA
- 메타
- tts
- ubuntu
- 오픈AI
- 멀티모달
- 트랜스포머
- PYTHON
- 오블완
- OpenAI
- ChatGPT
- 확산 모델
- 인공지능
- AI
- 딥마인드
- 시간적 일관성
- AI 기술
- 아두이노
- 티스토리챌린지
- javascript
- 서보모터
Archives
- Today
- Total
AI 탐구노트
Phi-3.5 : 온디바이스 용 멀티 모달 모델 본문
Microsoft가 개발한 최첨단 경량 멀티 모달 AI 모델
Phi-3.5-vision은 Microsoft가 개발한 멀티모달 AI 모델입니다.
Phi-3.5-vision은 텍스트와 이미지를 동시에 처리할 수 있어 이미지 인식, 비디오 요약, OCR(광학 문자 인식), 시각적 질문 응답 등의 다양한 작업을 수행할 수 있고 문서 분석과 과학적 차트 해석에서도 강점을 보이며 자원을 효율적으로 사용하여 훨씬 더 큰 규모의 모델에 필적하는 성능을 보여줍니다.
이 모델은 GPU 환경에서 최적의 성능을 발휘하도록 설계되었으며, 특히 데이터 세트 기반 학습과 인간의 피드백을 통한 강화 학습 방식을 사용합니다. 확장성과 효율성 문제를 해결하기 위해 MoE(Mixture of Experts) 아키텍처를 도입했습니다. 기존 LLM이 가졌던 대규모 모델의 비용과 성능 저하인데 MoE는 다양한 전문가 네트워크를 활용해 필요한 부분만 활성화하여 연산을 최적화할 수 있죠. 경량화된 모델임에도 높은 성능을 유지하며, 긴 문맥 처리와 다국어 지원, 추론 성능 향상에 중점을 뒀고 세부적으로는 전문가 게이트(gating) 메커니즘을 통해 자원을 효율적으로 분배하는 방식이 사용되었다고 합니다.
세부적으로는 Phi-3.5-mini-instruct, Phi-3.5-vision, Phi-3.5-MoE 세가지 버전이 허깅페이스를 통해 공개되었습니다.
- Phi-3.5-mini-Instruct
3.8B 매개변수로 구성되어 있는 경량 모델로, 128K 토큰의 컨텍스트 길이를 지원하며 다국어 지원과 32K 어휘의 토크나이저, 3.4조 토큰으로 학습되었습니다. - Phi-3.5 MoE-Instruct
3.8B 매개변수의 16개 전문가 모델로 구성되며, 2개의 전문가 모델을 이용 시 6.6B개의 매개변수가 활성화됩니다. 총 42B 크기의 매개변수를 가지며, 20개의 언어를 지원하며 고품질의 추론 중심 데이터를 이용했다고 하죠. 언어 이해와 수학 계산 쪽에 강점을 가지고 있습니다. - Phi-3.5-vision-Instruct
4.2B 매개변수로 구성되어 있으며, 128K 토큰의 컨텍스트 길이로 되어 있으며 텍스트와 비전이 함께 결합되어 있는 경량 모델입니다. 문서 내의 텍스트를 인식하고 테이블과 차트를 분석하여 데이터 추출하거나 이미지 분석, 비교, 비디오 요약, 키 프레임 추출 같은 작업에 활용할 수 있습니다.
참고) 논문, 코드, 소개글, 영상
'AI 기술' 카테고리의 다른 글
YOLOv9 : 새로운 Yolo 시리즈 객체 탐지 모델 (0) | 2024.09.10 |
---|---|
LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진 (0) | 2024.09.09 |
Loopy : 오디오 입력으로 초상화 아바타 영상 생성 모델 (0) | 2024.09.08 |
Qwen2-VL : 이미지와 영상, 다국어 지원을 잘 하는 비전 언어 모델 (0) | 2024.09.08 |
LayerPano3D : 3D 파노라마 장면을 생성하는 프레임워크 (0) | 2024.09.08 |