Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 이미지 편집
- LORA
- 오블완
- PYTHON
- 트랜스포머
- 서보모터
- 오픈AI
- 확산 모델
- 티스토리챌린지
- AI
- 가상환경
- ubuntu
- 딥마인드
- ChatGPT
- tts
- 메타
- 멀티모달
- LLM
- 시간적 일관성
- 뉴럴링크
- 생성형 AI
- AI 기술
- 아두이노
- TRANSFORMER
- 일론 머스크
- 인공지능
- 우분투
- ControlNet
- javascript
- OpenAI
Archives
- Today
- Total
목록멀티모달 인코더-디코더 (1)
AI 탐구노트

객체 감지나 인스턴스 분할과 같은 비전 모델은 이미지 내의 객체 위치 정보를 제공하지만 객체 간의 관계에 대한 의미적 정보가 부족하고, 이미지 캡셔닝 같은 경우는 의미적 정보는 제공되지만 위치 정보를 참조하지 않습니다. 그 결과 복합적인 작업이 필요한 경우에는 서로 다른 종류의 복수 모델을 개별적인 데이터셋을 이용해 학습하고 실행 시에도 개별적으로 구동될 수 있는 환경 구성을 하는 등의 작업이 필요하게 됩니다. Florence-2는 마이크로소프트에서 공개한 객체감지, 이미지 캡션 생성, 시맨틱 분할, 구문 분할, 영역 제안, OCR, 이미지 그라운딩(특정 영역을 설명과 매핑) 등의 작업을 하나의 모델에서 수행할 수 있는 컴퓨터 비전 모델입니다. 이미지 인코더와 다중 모달 인코더-디코더로 구조를 가지고 있..
AI 기술
2024. 8. 14. 11:38