Phi-3-vision : Phi-3 기반 멀티모달 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Phi-3-vision : Phi-3 기반 멀티모달 모델 본문

AI 기술

Phi-3-vision : Phi-3 기반 멀티모달 모델

42morrow 2024. 8. 15. 11:02

마이크로소프트의 Phi-3 기반 비전 모델

마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다.

사진 : Figure 1 휴머노이드 시연 영상 스틸컷을 이용해 테스트 한 결과물

Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기의 비전 및 텍스트 토큰을 학습했다고 하죠. Phi-3-vision은 Phi-3 모델 가운데 최초의 멀티모달 모델인데, 텍스트 추출과 이해, 코딩, 이미지나 사진 등에 대한 일반적인 시각적 이해, 차트나 다이어그램 이해 등등 다양한 일을 수행할 수 있습니다. 참고로 MIT 라이선스를 따릅니다. (Phi-3 small, medium도 MIT로 전환되었다고 합니다)

참고) 모델카드, 소개글, 데모, 논문

'AI 기술' 카테고리의 다른 글

MistoLine : 손그림 입력을 지원하는 이미지 생성모델 (0)	2024.08.15
HiDiffusion : 이미지의 해상도와 생성 속도 향상 기법 (0)	2024.08.15
P3M-Net : 비식별화된 초상화 배경 분리 (0)	2024.08.15
MatMul-free Language Model : 행렬곱을 제거한 LLM (0)	2024.08.15
CTRL-Adapter (0)	2024.08.14

'AI 기술' Related Articles

AI 탐구노트

Phi-3-vision : Phi-3 기반 멀티모달 모델 본문

Phi-3-vision : Phi-3 기반 멀티모달 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바