일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 인공지능
- 멀티모달
- 우분투
- 시간적 일관성
- OpenCV
- AI 기술
- 딥러닝
- tts
- 오픈소스
- 다국어 지원
- 아두이노
- 티스토리챌린지
- LORA
- 생성형 AI
- 휴머노이드 로봇
- 실시간 렌더링
- 오픈AI
- PYTHON
- 강화 학습
- 오블완
- 일론 머스크
- OpenAI
- 트랜스포머
- 메타
- 확산 모델
- ChatGPT
- TRANSFORMER
- LLM
- 이미지 생성
- AI
- Today
- Total
목록MLLM (2)
AI 탐구노트

1. 서론디지털 이미지 편집은 현대의 다양한 산업에서 필수적인 기술로 자리 잡았습니다. 하지만 세밀하고 정밀한 편집 작업은 여전히 고도의 전문성이 요구되며, 대부분의 사용자는 이 과정에서 직관적이지 않은 인터페이스와 복잡한 도구 사용의 어려움을 겪게 됩니다. 그러던 중에 생성형 AI의 등장은 기반의 이미지 생성 및 편집의 자동화에 혁신적인 변화를 가져왔습니다. 특히, Diffusion 모델과 다중모달 대규모 언어모델(MLLM)의 결합은 사용자 경험을 향상시키는 핵심적인 도구가 되고 있습니다. MagicQuill은 이러한 기술적 흐름 속에서 탄생한 혁신적인 이미지 편집 시스템입니다. 사용자는 단순한 브러시 스트로크만으로도 복잡한 편집을 수행할 수 있으며, 시스템은 사용자 의도를 실시간으로 분석하고 이에 ..

LITA : 시간-위치 파악에 강점을 가진 멀티모달 언어모델 최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다. LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 ..