Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 딥마인드
- ControlNet
- PYTHON
- 이미지 편집
- 일론 머스크
- 티스토리챌린지
- 생성형 AI
- AI
- 오블완
- ubuntu
- ChatGPT
- LORA
- 멀티모달
- 확산 모델
- 시간적 일관성
- 가상환경
- 메타
- 서보모터
- 트랜스포머
- 아두이노
- 오픈AI
- LLM
- TRANSFORMER
- 인공지능
- 뉴럴링크
- tts
- javascript
- OpenAI
- 우분투
- AI 기술
Archives
- Today
- Total
목록lita (1)
AI 탐구노트
LITA : 'When'에 대한 Q&A에 강점을 가진 MLLM
LITA : 시간-위치 파악에 강점을 가진 멀티모달 언어모델 최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다. LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 ..
카테고리 없음
2024. 8. 23. 11:13