AI 탐구노트

Florence-2 본문

AI 기술

Florence-2

42morrow 2024. 8. 14. 11:38

객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다.

 

Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있어 텍스트와 시각적 데이터를 통합하여 다양한 시각적 이해 작업을 수행할 수 있죠. 1억2천6백만 개의 이미지와 54억 개의 주석으로 구성된 데이터셋인 FLD-5B를 이용해 이미지, 영역/픽셀, 세밀한 시각-언어 정렬 등 다양한 수준의 작업을 적용하여 모델 학습을 진행했다고 합니다. 모델의 크기가 다른 모델 대비 상대적으로 작으면서도 다양한 작업에서 높은 성능을 제공하며 MIT 라이선스를 따릅니다.

 

참고) 논문소개글데모

 

 

사진: Florence-2 모델의 구조와 작동 방식