AI 탐구노트

Phi-3-vision : Phi-3 기반 멀티모달 모델 본문

AI 기술

Phi-3-vision : Phi-3 기반 멀티모달 모델

42morrow 2024. 8. 15. 11:02
마이크로소프트의 Phi-3 기반 비전 모델 

 

사진 : Phi-3 제품군

 

 

마이크로소프트에서 Phi-3 Vision 모델을 공개했습니다. Phi-2가 공개된 것이 작년 12월, Phi-3가 올 4월이었으니 확실히 생성형 AI와 LLM 분야는 비즈니스 기회가 확실하고 투자규모가 커서 그런지 발전 속도도 무지 빠른 것 같습니다. 예전 소식에서 말씀드린 바와 같이 Phi 모델들은 데이터 전체가 아닌 핵심적인 것만 집중적으로 학습하는 하는 방식으로 적은 데이터셋으로 높은 성능을 내도록 되어 있는데 그 컨셉은 그대로 이어진다고 합니다.

 

사진 : Figure 1 휴머노이드 시연 영상 스틸컷을 이용해 테스트 한 결과물

 

 

 

Phi-3-vision-128K-Instruct의 경우, 4.2B개의 매개변수가 있으며 내부적으로 이미지 인코더, 커넥터, 프로젝터 및 Phi-3 Mini 모델이 포함되어 있다고 합니다. 500B 크기의 비전 및 텍스트 토큰을 학습했다고 하죠. Phi-3-vision은 Phi-3 모델 가운데 최초의 멀티모달 모델인데, 텍스트 추출과 이해, 코딩, 이미지나 사진 등에 대한 일반적인 시각적 이해, 차트나 다이어그램 이해 등등 다양한 일을 수행할 수 있습니다. 참고로 MIT 라이선스를 따릅니다. (Phi-3 small, medium도 MIT로 전환되었다고 합니다)

 

 

참고) 모델카드소개글데모논문