일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 생성형 AI
- OpenAI
- 다국어 지원
- 강화 학습
- LORA
- 일론 머스크
- 우분투
- 아두이노
- ubuntu
- AI 기술
- 트랜스포머
- ChatGPT
- OpenCV
- 이미지 생성
- 인공지능
- PYTHON
- 확산 모델
- 시간적 일관성
- LLM
- Stable Diffusion
- tts
- 오픈AI
- 딥러닝
- TRANSFORMER
- 티스토리챌린지
- AI
- 오픈소스
- 메타
- 가상환경
- 오블완
- Today
- Total
AI 탐구노트
DeepSeek R1 : 강화 학습 기반 차세대 추론 모델의 등장 본문
1. 서론
인공지능(AI) 분야는 최근 몇 년 동안 급격한 발전을 거듭하며 인공지능 일반화(AGI, Artificial General Intelligence)의 목표에 한 발 더 다가가고 있습니다. 특히, 대규모 언어 모델(LLM, Large Language Models)은 복잡한 수학 문제 풀이, 코드 작성, 과학적 추론과 같은 영역에서 이전보다 훨씬 정교한 성능을 보여주고 있습니다.
그동안 대부분의 LLM 개선은 지도 학습(supervised fine-tuning, SFT)에 의존하여 이루어졌습니다. 그러나 이러한 방식은 대규모의 고품질 데이터가 필수적이므로 데이터 준비에 막대한 시간과 비용이 소요됩니다. 최근 연구는 강화 학습(Reinforcement Learning, RL)을 통해 LLM이 스스로 문제를 해결하고 추론 능력을 키우는 방향으로 나아가고 있습니다. 이러한 방법은 지도 학습 데이터 없이도 추론 능력을 고도화할 가능성을 열어줍니다.
이번에 공개된 DeepSeek-R1과 DeepSeek-R1-Zero는 이러한 RL 기반 접근 방식을 한층 더 발전시킨 모델들로, 대규모 파라미터를 효과적으로 활용하며 MoE(Mixture of Experts) 구조를 채택한 것이 특징입니다. 이 글에서는 DeepSeek-R1 시리즈의 기술적 특징과 성능을 중심으로, 강화 학습의 가능성을 탐구하고, 실질적인 적용 가능성과 한계점을 다룹니다.
2. 본론
2.1. 기존 방식의 문제점
기존의 LLM 발전은 대체로 지도 학습(Supervised Fine-Tuning, SFT)을 기반으로 이루어졌습니다. 지도 학습은 고품질 데이터를 필수로 요구하며, 이는 시간과 비용 측면에서 비효율적입니다. 또한, 모델이 정해진 데이터에만 의존하여 학습하다 보니 새로운 문제 유형에 대한 적응력이 떨어질 가능성이 큽니다.
2.2. 접근 방식
DeepSeek-R1은 이러한 문제를 해결하기 위해 강화 학습을 중심으로 모델의 추론 능력을 고도화했습니다.
- DeepSeek-R1-Zero : SFT 없이 RL만으로 학습
- 기존 데이터 없이 순수 강화 학습으로 추론 능력을 향상시키는 실험을 진행했습니다.
- Group Relative Policy Optimization(GRPO) 알고리즘을 통해 효율적인 정책 최적화를 수행했습니다.
- 결과적으로, 모델은 다양한 추론 작업에서 강력한 성능을 보여주었으나, 가독성과 언어 혼합 등의 문제가 존재했습니다.
- DeepSeek-R1 : 다단계 학습 파이프라인
- SFT 기반 초기 학습 : 소량의 고품질 데이터를 사용하여 모델의 초기 성능을 안정화 했습니다.
- 반복적 RL 미세 조정 : 강화 학습을 반복적으로 적용하여 추론 성능을 최적화 했습니다.
2.3. 세부 적용 기술
- MoE(Mixture of Experts) 구조 : DeepSeek-R1은 6,710억 개의 파라미터 중 370억 개를 활성화하여 추론 효율성을 높이는 MoE 구조를 사용했습니다. 이 방식은 필요한 전문가 네트워크만 활성화하여 학습 및 추론의 자원 소모를 줄입니다.
- GRPO(Group Relative Policy Optimization) : GRPO는 기존의 PPO(Proximal Policy Optimization)에서 그룹 점수를 활용하여 기준선을 추정하는 방식으로, 학습 안정성을 확보하고 보상 신호의 효율성을 높였습니다.
- Cold Start 데이터 : DeepSeek-R1의 초기 학습을 위해 긴 연쇄적 사고(Chain of Thought) 데이터를 사용하여 추론 능력을 미리 정제했습니다.
- Rejection Sampling : 모델의 출력 품질을 향상시키기 위해 부적합한 데이터를 제거하고 적합한 데이터를 학습 데이터로 포함시켰습니다.
- Knowledge Distillation : DeepSeek-R1-Distill은 DeepSeek-R1이 생성한 합성 데이터를 활용하여 Qwen 및 Llama와 같은 소형 모델을 미세 조정(Fine-Tuning)했습니다. 이는 대규모 모델의 성능을 소형 모델로 이전하여 경량화된 추론 환경을 제공합니다.
2.4. 제약사항
DeepSeek-R1은 언어 혼합 문제, 일부 소프트웨어 엔지니어링 작업에서의 성능 부족 등 몇 가지 한계를 보입니다. 이러한 부분은 향후 업데이트에서 해결될 예정이라고 합니다. 공개되고 나서 테스트를 진행한 국내 사용자들의 평에 의하면, 영어, 중국어에만 강할 것이라는 예상과는 달리 한국어도 곧잘 하고 질문에 대한 답, 특히 이미지 기반 수학문제 풀이 등은 ChatGPT 4o 등에 비해 좋았다고 합니다.
그리고, 로컬에서 동작시키지 않는 이상, DeepSeek-R1 챗봇 서비스를 통해 개인정보가 중국 쪽 서버에 많이 저장될 것이라는 우려도 있었습니다. (기사) 개인정보 정책 약관 상 사용장비 정보, 키보드 입력 패턴, 리듬, IP 정보, 장치 ID, 쿠키 정보까지 수집의 범위가 상당히 넓은 모양입니다. 로컬에서는 필요로 하는 메모리 용량이 크기 때문에 개인 용 PC 수준에도 동작시키는 것도 어려우므로 누군가 서버를 구성하고 서비스를 제공해 주기 전까지는 어쩔 수 없이 중국 쪽 서비스를 이용해야겠죠. 무료이니 생각보다 많은 사람들이 사용해 보려고 할 것 같습니다.
3. 결론
DeepSeek-R1과 DeepSeek-R1-Zero는 강화 학습을 통해 LLM의 추론 능력을 극대화한 혁신적인 사례로 평가됩니다. 특히 SFT 없이도 강화 학습만으로 우수한 성능을 발휘한 점은 향후 모델 개발의 새로운 가능성을 시사합니다. 증류 기술을 통한 소형 모델의 성능 향상 또한 실질적인 활용도를 높였습니다. 특히 OpenAI-o1 모델에 필적하는 성능을 보이며, AI 연구와 실제 응용에서 높은 활용 가치를 보여줍니다. 향후 개선 과제로는 언어 혼용 문제와 긴 평가 시간의 최적화, 소프트웨어 엔지니어링 벤치마크에서의 성능 향상이 꼽힙니다.
지나고 나서 보니...)
한 가지 재미난 사건이 있었습니다. 며칠 전 DeepSeek R1이 공개되고 X에서 크게 회자되고 나서 유튜브 상에 이 모델에 대한 내용이 도배되기 시작하더니, 급기야 설 연휴를 시작한 1월 27일 미국 나스닥 주식시장에서는 이 모델의 영향으로 미국 빅테크 주식들의 주가가 폭락했습니다. 특히 엔비디아는 1일 17% 가량이나 떨어졌죠.
분석가들이 언급한 이유인즉슨... ChatGPT와 같은 수준의 서비스를 만들기 위해서는 수많은 GPU가 있어야하고 어마어마한 양의 데이터, 그리고 한번 모델 학습을 하면 수개월~1년 가까이 되는 긴 기간이 필요하고 더 나아가서 이를 지원하기 위한 전력망 등이 필요할 것이라는게 공공연한 정설이었습니다. 그런데 중국의 한 신행 스타트업이 훨씬 적은 비용으로 훨씬 짧은 기간에 그것도 그리 많지 않은 데이터셋만 가지고도 세계 최강이라 불리는 오픈AI의 ChatGPT o1에 버금가는 기술을 개발했기 때문이었습니다.
어쩌면 기술도 기술이지만, 미국 사람들의 입장에선 중국에 AI 주도권을 빼앗길수도 있겠다는 위기감이 더 컸기 때문일 수도 있겠습니다. 실제로 최근 쏟아지는 AI 모델 논문들 가운데 상당수가 중국계 연구자들이 논문 주 저자로 참여하는 경우가 많습니다.
4. 참고자료
- 논문) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (링크)
- 코드) DeepSeek 모델 코드 (깃헙)
- 공식 사이트 (링크)
- 서비스) DeepSeek Chat 사이트 (링크)
5. Q&A
Q. DeepSeek-R1-Zero와 DeepSeek-R1의 주요 차이점은 무엇인가요?
DeepSeek-R1-Zero는 지도 학습 데이터 없이 순수 강화 학습으로 추론 능력을 키운 반면, DeepSeek-R1은 SFT와 RL을 결합하여 학습된 모델로 초기 Cold Start 데이터와 다단계 학습 파이프라인을 활용했고 결과적으로 더 나은 가독성과 추론 성능을 제공합니다.
Q. GRPO 알고리즘은 무엇인가요?
GRPO(Group Relative Policy Optimization)는 연산 비용을 절감하면서도 강화 학습의 효율성을 높이는 알고리즘으로, 정책 모델의 최적화를 그룹별로 상대적으로 수행합니다.
Q. DeepSeek-R1의 실제 응용 분야는 무엇인가요?
DeepSeek-R1은 수학 문제 풀이, 코드 작성, 과학적 추론, 문서 분석 등 복잡한 추론이 필요한 작업에 활용될 수 있습니다.
'AI 기술' 카테고리의 다른 글
Freestyle Sketch-in-the-Loop Image Segmentation : 스케치를 이용한 자유로운 이미지 분할 (1) | 2025.02.01 |
---|---|
Depth Pro : 제로샷 단일 이미지 깊이 추정 기술 (0) | 2025.01.30 |
CoTracker3 : 간단하고 효율적인 포인트 트래킹 모델 (0) | 2025.01.28 |
EDTalk: 감정 표현이 가능한 효율적인 얼굴 생성 프레임워크 (0) | 2025.01.26 |
Hunyuan3D 2.0 : 고해상도 3D 에셋 생성을 위한 확장형 확산 모델 (0) | 2025.01.24 |