Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- OpenAI
- 오픈AI
- 생성형 AI
- 일론 머스크
- 우분투
- 트랜스포머
- 티스토리챌린지
- 멀티모달
- javascript
- 인공지능
- 아두이노
- AI
- 뉴럴링크
- ControlNet
- LORA
- TRANSFORMER
- PYTHON
- 서보모터
- 오블완
- LLM
- ubuntu
- ChatGPT
- 가상환경
- 시간적 일관성
- 이미지 편집
- 메타
- AI 기술
- 확산 모델
- tts
- 딥마인드
Archives
- Today
- Total
AI 탐구노트
Florence-2 본문
객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다.
Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있어 텍스트와 시각적 데이터를 통합하여 다양한 시각적 이해 작업을 수행할 수 있죠. 1억2천6백만 개의 이미지와 54억 개의 주석으로 구성된 데이터셋인 FLD-5B를 이용해 이미지, 영역/픽셀, 세밀한 시각-언어 정렬 등 다양한 수준의 작업을 적용하여 모델 학습을 진행했다고 합니다. 모델의 크기가 다른 모델 대비 상대적으로 작으면서도 다양한 작업에서 높은 성능을 제공하며 MIT 라이선스를 따릅니다.
'AI 기술' 카테고리의 다른 글
Tender (0) | 2024.08.14 |
---|---|
구글 딥마인드, 사람 수준의 탁구 로봇 에이전트 공개 (0) | 2024.08.14 |
StyleShot: A SnapShot on Any Style (0) | 2024.08.14 |
M3 : Matryoshka Multimodal Models (0) | 2024.08.13 |
NPGA:Neural Parametric Gaussian Avatars (0) | 2024.08.13 |