Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 우분투
- 오픈소스
- LLM
- LORA
- 트랜스포머
- 강화 학습
- 오픈AI
- 아두이노
- TRANSFORMER
- 확산 모델
- OpenAI
- 오블완
- 티스토리챌린지
- 생성형 AI
- ubuntu
- 메타
- 휴머노이드 로봇
- OpenCV
- 다국어 지원
- AI
- 딥러닝
- 일론 머스크
- Stable Diffusion
- 인공지능
- tts
- ChatGPT
- 시간적 일관성
- 멀티모달
- PYTHON
- AI 기술
Archives
- Today
- Total
목록fld-5b 데이터셋 (1)
AI 탐구노트

객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다. Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있..
AI 기술
2024. 8. 14. 11:38