Florence-2

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Florence-2 본문

AI 기술

Florence-2

42morrow 2024. 8. 14. 11:38

객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다.

Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있어 텍스트와 시각적 데이터를 통합하여 다양한 시각적 이해 작업을 수행할 수 있죠. 1억2천6백만 개의 이미지와 54억 개의 주석으로 구성된 데이터셋인 FLD-5B를 이용해 이미지, 영역/픽셀, 세밀한 시각-언어 정렬 등 다양한 수준의 작업을 적용하여 모델 학습을 진행했다고 합니다. 모델의 크기가 다른 모델 대비 상대적으로 작으면서도 다양한 작업에서 높은 성능을 제공하며 MIT 라이선스를 따릅니다.

참고) 논문, 소개글, 데모

'AI 기술' 카테고리의 다른 글

Tender (0)	2024.08.14
구글 딥마인드, 사람 수준의 탁구 로봇 에이전트 공개 (0)	2024.08.14
StyleShot: A SnapShot on Any Style (0)	2024.08.14
M3 : Matryoshka Multimodal Models (0)	2024.08.13
NPGA:Neural Parametric Gaussian Avatars (0)	2024.08.13

'AI 기술' Related Articles

AI 탐구노트

Florence-2 본문

Florence-2

'AI 기술' 카테고리의 다른 글

티스토리툴바