최근 중국판 대규모 언어 모델(LLM)이 낮은 인프라로도 기존 글로벌 선두 모델과 대등한 성능을 구현하며 AI 업계에 충격을 주고 있습니다. 이러한 변화는 AI 기술 경쟁의 판도를 흔드는 동시에, 강화학습(Reinforcement Learning, RL)을 중심으로 한 새로운 학습 방법론이 주목받는 계기가 되고 있습니다. 이 중 DeepSeek-R1은 강화학습을 활용해 LLM의 추론 능력을 획기적으로 향상시킨 혁신적 연구로, AI 업계의 중요한 변곡점을 만들어가고 있지 않나 합니다.
관련논문
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
기존의 LLM들은 방대한 지도 데이터(Supervised Fine-Tuning, SFT)에 의존하여 학습되었으나, DeepSeek-R1은 RL을 통해 모델이 스스로 추론 능력을 학습하도록 설계되었습니다. 특히, 초기 모델인 DeepSeek-R1-Zero는 순수 RL만으로 학습되며, 논리적 사고와 문제 해결 과정을 자율적으로 발전시키는 독특한 특성을 보였습니다.
또한, DeepSeek-R1은 Cold Start 데이터를 활용한 다단계 학습 파이프라인을 도입해 초기 학습 과정의 안정성을 확보했습니다. 이 접근은 가독성 문제와 언어 혼합 이슈를 해결하며, 사용자 친화적인 고품질 결과를 제공하는 데 기여했습니다. 이를 통해 DeepSeek-R1은 단순한 성능 향상을 넘어, 실용성과 신뢰성을 모두 만족시키는 AI 모델로 자리 잡을 수 있는 가능성을 보이고 있습니다.
DeepSeek-R1의 혁신은 주요 벤치마크에서 증명되었습니다. AIME 2024에서 79.8%의 정확도, MATH-500에서 97.3%의 성과를 기록하며, OpenAI-o1-1217 등 세계적인 모델과 대등하거나 그 이상의 결과를 보여줬습니다. 또한, 대형 모델의 학습 결과를 소형 모델로 증류(Distillation)하여 효율성과 성능의 균형을 도모, 낮은 컴퓨팅 리소스 환경에서도 고성능 AI를 구현할 수 있음을 입증했습니다.
강화학습과 Cold Start 전략
DeepSeek-R1의 독창적인 학습 방법론은 순수 강화학습(RL)을 적용한 DeepSeek-R1-Zero와 Cold Start 데이터를 활용한 DeepSeek-R1의 개선 모델로 나뉩니다. 각각의 접근 방식은 LLM의 추론 능력을 강화하는 데 중요한 역할을 합니다.
DeepSeek-R1-Zero의 특징
- 순수 강화학습 적용: DeepSeek-R1-Zero는 지도학습 없이 RL로만 학습되었으며, 모델이 스스로 논리적 추론 경로를 탐색하도록 설계되었습니다.
- 자연스러운 추론 능력 발현: RL 과정을 통해 모델은 복잡한 문제를 스스로 해결하며 추론 능력을 발전시켰습니다.
- 한계점: 언어 혼합과 낮은 가독성 등의 문제가 발생해 실사용에는 어려움이 있었습니다.
DeepSeek-R1의 개선 사항
- Cold Start 데이터 활용: 초기 RL 학습 과정의 불안정을 해결하기 위해 사람이 작성한 고품질 데이터로 모델을 사전 훈련했습니다.
- 언어 일관성 보상: RL 과정에서 언어 일관성을 보상하여 출력의 품질과 가독성을 향상시켰습니다.
- 거부 샘플링 도입: 불완전하거나 혼란스러운 응답을 제거하고 정확한 결과만을 선택하는 거부 샘플링 기법을 활용했습니다.
다단계 학습 파이프라인
DeepSeek-R1은 사전 학습, 강화학습, 거부 샘플링, 그리고 추가 RL 단계를 결합한 다단계 파이프라인을 사용합니다. 이 방식은 추론 능력과 사용자 경험을 동시에 강화합니다.
성능 벤치마크
DeepSeek-R1은 주요 벤치마크에서 놀라운 성과를 기록하며 기존 LLM을 압도하는 성능을 보여주었습니다. 특히 수학, 코딩, 논리적 추론 등 고난도의 태스크에서 두각을 나타냅니다.

AIME 2024
DeepSeek-R1은 AIME 2024 벤치마크에서 79.8%의 정확도를 기록하며 OpenAI-o1-1217보다 우수한 성과를 냈습니다. 이는 강화학습과 Cold Start 데이터의 결합이 복잡한 문제 해결에 큰 영향을 미친다는 것을 보여줍니다.
MATH-500
수학 문제 해결에서도 DeepSeek-R1은 97.3%의 정확도를 기록하며 STEM 관련 태스크에서 독보적인 성능을 입증했습니다. 이 결과는 수학적 추론에 특화된 RL 알고리즘의 강점을 보여줍니다.
코딩 태스크
LiveCodeBench와 Codeforces 같은 코딩 관련 벤치마크에서도 DeepSeek-R1은 뛰어난 성과를 냈습니다. 특히 코드 생성과 디버깅 과정에서 정교한 논리적 접근 방식을 보여주었습니다.
MMLU와 GPQA Diamond
지식 평가 벤치마크에서도 DeepSeek-R1은 높은 점수를 기록하며 학습 및 교육 분야에서 활용 가능성을 입증했습니다.
모델 증류(Distillation)
DeepSeek-R1은 대규모 모델의 추론 능력을 소규모 모델로 효과적으로 증류(Distillation)하여 효율성과 성능을 모두 잡았습니다.
증류 과정
- 대규모 데이터 활용: DeepSeek-R1에서 생성된 80만 개 이상의 학습 샘플을 소규모 모델에 활용했습니다.
- 모델 크기 최적화: Qwen-32B, Llama-3.1 등 다양한 크기의 모델로 증류가 진행되었습니다.
성과
소규모 모델인 DeepSeek-R1-Distill-Qwen-7B는 AIME 2024에서 55.5%의 정확도를 기록하며, 비슷한 크기의 타 모델을 크게 상회했습니다. 이 결과는 증류의 효과를 입증합니다.
효율성과 확장성
증류 과정을 통해 소규모 모델에서도 고성능 추론 능력을 구현할 수 있었습니다. 이는 자원 제약이 있는 환경에서도 고품질 AI 시스템을 구축할 수 있는 가능성을 열어줍니다.
혁신과 한계점
DeepSeek-R1은 다단계 RL 파이프라인과 가독성 중심 설계 등 여러 혁신을 통해 추론 중심의 LLM 모델로 자리 잡았습니다. 그러나 일부 한계도 존재합니다.
혁신
- 다단계 RL 파이프라인: 추론 능력을 지속적으로 강화하는 구조
- 가독성 강화: 사용자 친화적인 출력 포맷
- 확장성: 대규모 및 소규모 모델 모두에서 높은 성능 구현
한계점
- Cold Start 데이터의 의존성: 고품질 데이터 확보가 어려움
- 프롬프트 설계 민감성: 입력 프롬프트에 따라 성능 차이가 발생
- 다국어 지원 부족: 영어와 중국어 이외의 언어에서 성능 저하
가장 중요한 포인트는 “Close” AI 에 비해서 Open Source라는것이 가장 강력한 점이 아닐까 합니다.