'FlashAttention2' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록FlashAttention2 (1)

AI 탐구노트

oLLM : 8GB VRAM으로 gpt-oss-20B를 양자화 없이 실행?

oLLM은 'LLM Inference for Large-Context Offline Workloads'라는 이름을 사용하며, 대규모 문맥 (context)를 다루는 LLM 추론을 가볍게 처리하기 위해 개발된 python 라이브러리입니다. Hugging Face Transformers 및 PyTorch 위에서 동작하고, 양자화를 사용하지 않고 fp16/bf16 정밀도를 지원합니다. 제한된 GPU 메모리 (예: 8GB VRAM 수준)에서 수만토큰 이상의 context를 처리하는 모델을 실행할 수 있다는 것이 가장 큰 특징입니다. 즉, GPU에서 처리해야 할 것들을 CPU 영역으로 오프로드하거나 DiskCache를 이용하는 식으로 돌리는 것입니다. 주요 기능 및 설계 아이디어 oLLM이 긴 문맥을 다루면서..

AI 관련 소식 2025. 10. 2. 11:26

이전 Prev 1 Next 다음

목록FlashAttention2 (1)

AI 탐구노트

티스토리툴바