Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 생성형 AI
- LORA
- 멀티모달
- 일론 머스크
- 딥러닝
- TRANSFORMER
- 딥마인드
- 티스토리챌린지
- 트랜스포머
- ControlNet
- OpenAI
- 인공지능
- 메타
- AI 기술
- 확산 모델
- 오블완
- 오픈AI
- PYTHON
- 우분투
- 시간적 일관성
- 가상환경
- 이미지 편집
- LLM
- tts
- 뉴럴링크
- 아두이노
- ChatGPT
- AI
- ubuntu
- 서보모터
Archives
- Today
- Total
목록시각-언어 정렬 (1)
AI 탐구노트
Florence-2
객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다. Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있..
AI 기술
2024. 8. 14. 11:38