Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- LORA
- 오픈AI
- 티스토리챌린지
- 오블완
- Stable Diffusion
- OpenCV
- 우분투
- 오픈소스
- AI 기술
- 가상환경
- 트랜스포머
- LLM
- 메타
- 일론 머스크
- ChatGPT
- ubuntu
- AI
- 강화 학습
- OpenAI
- 생성형 AI
- 아두이노
- 딥러닝
- 시간적 일관성
- 다국어 지원
- 확산 모델
- 인공지능
- TRANSFORMER
- PYTHON
- tts
- 이미지 생성
Archives
- Today
- Total
목록2025/01/29 (1)
AI 탐구노트
DeepSeek R1 : 강화 학습 기반 차세대 추론 모델의 등장
1. 서론인공지능(AI) 분야는 최근 몇 년 동안 급격한 발전을 거듭하며 인공지능 일반화(AGI, Artificial General Intelligence)의 목표에 한 발 더 다가가고 있습니다. 특히, 대규모 언어 모델(LLM, Large Language Models)은 복잡한 수학 문제 풀이, 코드 작성, 과학적 추론과 같은 영역에서 이전보다 훨씬 정교한 성능을 보여주고 있습니다. 그동안 대부분의 LLM 개선은 지도 학습(supervised fine-tuning, SFT)에 의존하여 이루어졌습니다. 그러나 이러한 방식은 대규모의 고품질 데이터가 필수적이므로 데이터 준비에 막대한 시간과 비용이 소요됩니다. 최근 연구는 강화 학습(Reinforcement Learning, RL)을 통해 LLM이 스스로 ..
AI 기술
2025. 1. 29. 12:50