일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 오블완
- javascript
- 가상환경
- 메타
- PYTHON
- 일론 머스크
- OpenAI
- TRANSFORMER
- 아두이노
- 우분투
- 확산 모델
- ubuntu
- 시간적 일관성
- tts
- 오픈AI
- AI 기술
- 트랜스포머
- 인공지능
- 서보모터
- 뉴럴링크
- LLM
- 멀티모달
- 이미지 편집
- ChatGPT
- 딥마인드
- AI
- ControlNet
- 생성형 AI
- LORA
- 티스토리챌린지
- Today
- Total
목록2024/10/03 (3)
AI 탐구노트
LVCD : 선으로 그려진 스케치 영상에 일관된 색으로 채색하는 비디오 확산 모델 기존의 선화(선으로 그린 그림. 스케치) 비디오 컬러화 방식은 한 프레임씩 처리하면서 오류가 쌓여가면서 전체적인 일관성이 부족해지는 문제가 있었습니다. 그 때문에 움직임이 큰 경우에는 그것을 효과적으로 처리하지 못했죠.LVCD(Lineart Video Colorization with Diffusion Models)는 이와 같은 문제를 해결하기 위해, 미리 훈련된 대규모 비디오 확산 모델을 사용하고, Sketch-guided ControlNet과 Reference Attention을 도입하여 선화의 구조를 기반으로 색상 전이를 수행하고 긴 비디오의 일관성을 유지하는 샘플링 방식을 제시하고 있습니다. LVCD 모델 아키텍처..
기존 LLM 추론 및 서비스 제공 방식은 다음과 같은 문제가 있었습니다. 메모리 파편화 : 대규모 LLM의 네트워크 가중치와 추론 과정에서 증가하는 KV 캐시는 메모리르 효율성을 저하비효율적인 요청 스케쥴링 : 동적으로 변하는 요청 길이 때문에 CPU 사용률이 낮아질 가능성이 높아짐커널 커스터마이징의 어려움 : LLM의 네트워크 성능을 최적화하기 위한 커널 커스터마이징이 어려워 개발 비용이 상승 LightLLM은 이러한 문제를 세분화된 TokenAttention 메커니즘과 Efficient Router 스케쥴링을 도입하여 메모리 관리 및 요청 스케쥴링 효율을 개선하고 이를 통해 시스템 전반의 처리량을 크게 향상 시킵니다. LightLLM의 아키텍처 설명 LightLLM의 핵심 설계는 다중 프로세스 협..
단일 트랜스포머 모델로 텍스트, 이미지, 영상을 처리할 수 있는 모델 Emu3는 이미지, 텍스트, 비디오를 토큰화하여 단일 트랜스포머 모델로 차세대 멀티모달 생성 및 인식 작업에서 최고 성능을 달성한 모델입니다. 이전 멀티모달 모델들은 이미지나 비디오를 처리할 때 여러가지 다른 기술을 함께 사용해야 했습니다. 예로 Diffusion 모델들은 복잡한 과정이 필요했고 CLIP 같은 모델은 이미지에 대한 이해를 위해 또 다른 LLM과의 연결이 필요했습니다. 그러다보니 모델의 설계가 복잡해지고 각각의 작업에 최적화된 모듈을 별도로 만들어야 하는 불편함이 있었고 사용하기 어렵고 확장도 힘들었습니다. Emu3는 이미지, 텍스트, 비디오를 모두 토큰화하여 단일 트랜스포머를 사용한 차세대 토큰 예측을 기반으로 ..