일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 트랜스포머
- 인공지능
- 생성형 AI
- 실시간 렌더링
- 티스토리챌린지
- 오픈AI
- OpenAI
- 생성형AI
- 우분투
- 확산 모델
- 강화 학습
- 시간적 일관성
- 다국어 지원
- Stable Diffusion
- 오픈소스
- LLM
- AI 기술
- LORA
- tts
- AI
- 오블완
- OpenCV
- 딥러닝
- 휴머노이드 로봇
- 코딩
- 3d 재구성
- 메타
- ubuntu
- PYTHON
- 일론 머스크
- Today
- Total
목록대규모 언어 모델 (2)
AI 탐구노트

강화 학습(Reinforcement Learning, RL)은 최근 인공지능(AI) 모델의 성능을 극적으로 향상시키는 핵심 기술로 자리 잡고 있습니다. 기존의 지도 학습(supervised learning)과 비지도 학습(unsupervised learning) 방식은 모델을 사전에 훈련시키는 데 초점을 맞추지만, RL은 환경과의 상호작용을 통해 모델이 지속적으로 학습하고 개선될 수 있도록 합니다. 특히, 대규모 언어 모델(LLM)의 경우, RL을 활용하여 논리적 사고 능력과 문제 해결 능력을 강화할 수 있는 가능성이 높아지고 있습니다. 이러한 배경에서, QwQ-32B는 RL을 활용한 최신 연구 성과를 반영하여 개발된 모델로 주목받고 있습니다.기존 방식의 문제점기존의 대규모 언어 모델들은 주로 지도 학습..

기존 LLM 추론 및 서비스 제공 방식은 다음과 같은 문제가 있었습니다. 메모리 파편화 : 대규모 LLM의 네트워크 가중치와 추론 과정에서 증가하는 KV 캐시는 메모리르 효율성을 저하비효율적인 요청 스케쥴링 : 동적으로 변하는 요청 길이 때문에 CPU 사용률이 낮아질 가능성이 높아짐커널 커스터마이징의 어려움 : LLM의 네트워크 성능을 최적화하기 위한 커널 커스터마이징이 어려워 개발 비용이 상승 LightLLM은 이러한 문제를 세분화된 TokenAttention 메커니즘과 Efficient Router 스케쥴링을 도입하여 메모리 관리 및 요청 스케쥴링 효율을 개선하고 이를 통해 시스템 전반의 처리량을 크게 향상 시킵니다. LightLLM의 아키텍처 설명 LightLLM의 핵심 설계는 다중 프로세스 협..