Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 오픈AI
- PYTHON
- 우분투
- OpenCV
- tts
- AI 기술
- 아두이노
- 오픈소스
- OpenAI
- 트랜스포머
- 인공지능
- LLM
- 딥러닝
- 실시간 렌더링
- 생성형 AI
- 오블완
- 이미지 생성
- 메타
- 일론 머스크
- 시간적 일관성
- 확산 모델
- ChatGPT
- 티스토리챌린지
- 휴머노이드 로봇
- 멀티모달
- 다국어 지원
- 강화 학습
- LORA
- TRANSFORMER
- AI
Archives
- Today
- Total
목록논리적 추론 (1)
AI 탐구노트

강화 학습(Reinforcement Learning, RL)은 최근 인공지능(AI) 모델의 성능을 극적으로 향상시키는 핵심 기술로 자리 잡고 있습니다. 기존의 지도 학습(supervised learning)과 비지도 학습(unsupervised learning) 방식은 모델을 사전에 훈련시키는 데 초점을 맞추지만, RL은 환경과의 상호작용을 통해 모델이 지속적으로 학습하고 개선될 수 있도록 합니다. 특히, 대규모 언어 모델(LLM)의 경우, RL을 활용하여 논리적 사고 능력과 문제 해결 능력을 강화할 수 있는 가능성이 높아지고 있습니다. 이러한 배경에서, QwQ-32B는 RL을 활용한 최신 연구 성과를 반영하여 개발된 모델로 주목받고 있습니다.기존 방식의 문제점기존의 대규모 언어 모델들은 주로 지도 학습..
AI 기술
2025. 3. 11. 15:08