Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- XAI
- 오픈AI
- 딥러닝
- 일론 머스크
- gaussian splatting
- 이미지 편집
- 이미지 생성
- 트랜스포머
- 멀티모달
- LLM
- AI 기술
- 바이브코딩
- 음성 인식
- PYTHON
- OpenAI
- 오블완
- tts
- 메타
- 생성형AI
- 음성합성
- 감정 표현
- 우분투
- 자동화
- 강화학습
- AI
- 확산 모델
- 인공지능
- ChatGPT
- 오픈소스
- 티스토리챌린지
Archives
- Today
- Total
목록FlashAttention2 (1)
AI 탐구노트
oLLM은 'LLM Inference for Large-Context Offline Workloads'라는 이름을 사용하며, 대규모 문맥 (context)를 다루는 LLM 추론을 가볍게 처리하기 위해 개발된 python 라이브러리입니다. Hugging Face Transformers 및 PyTorch 위에서 동작하고, 양자화를 사용하지 않고 fp16/bf16 정밀도를 지원합니다. 제한된 GPU 메모리 (예: 8GB VRAM 수준)에서 수만토큰 이상의 context를 처리하는 모델을 실행할 수 있다는 것이 가장 큰 특징입니다. 즉, GPU에서 처리해야 할 것들을 CPU 영역으로 오프로드하거나 DiskCache를 이용하는 식으로 돌리는 것입니다. 주요 기능 및 설계 아이디어 oLLM이 긴 문맥을 다루면서..
AI 관련 소식
2025. 10. 2. 11:26
