Avatar

Qianqiu

Master in PKU Research Direction: VLM, RLHF, MLsys Hobbies: Game, Web novel, Anime

  1. WeChat
  1. Home
  2. Diary
  3. Research
  4. Entertain
  5. Search
  6. Archives
  7. About
    1. Dark Mode Light Mode
Featured image of post Qwen3 GRPO验证实验
Research

Qwen3 GRPO验证实验

Mar 01, 2026

这个项目大致是迷你 DeepSeek-R1-Zero的操作,看看影响如何。

用 GRPO 强化学习算法对 Qwen3-1.7B-Base 进行数学推理训练,从零复现 DeepSeek-R1-Zero 的核心机制,验证"无需 SFT 监督数据、纯靠奖励信号即可涌现出 Chain-of-Thought 推理能力"这一结论。

DeepSeek-R1-Zero 论文表明,大型语言模型可以不经过监督微调(SFT),仅通过强化学习奖励信号,自发学会逐步推理。本项目在小模型(1.7B)和小数据集(GSM8K,约 7500 条小学数学题)上复现该思路,验证其可扩展性与工程可行性。都是确定的答案,RLVR.

PPO 需要一个额外的 Critic(价值网络)来估计优势函数,训练成本高。GRPO 的做法是:对同一个 prompt 采样 G 个回复,用这 G 个回复的奖励均值和方差直接归一化出优势值,完全去掉 Critic。

同时加入 KL 散度惩罚,防止策略模型偏离参考模型太远,保证训练稳定性。β设置成0.001,设得小是因为本实验从 Base 模型(非 Instruct)出发,模型初始没有遵循格式的倾向,需要给策略更大的"自由度"去探索,相对宽松的 KL 约束有助于模型更快学会推理格式。

reward/mean 应随训练步数稳步上升,代表答对率在提高

reward/std 反映组内回复的多样性,若过早趋近 0 说明策略过于保守(退化为重复同一种回答)

局限性在 1.7B 参数 + 500 步,效果远不及 DeepSeek-R1,主要作为原理验证,事实上后期验证对比实验中也发现: Qwen3 1.7B BASE 55.0% 基座模型无SFT   GRPO-trained (ours)             80.0%   本实验训出,500 步 RL   Instruct (no think)             58.5%   官方对话模型,标准推理   Instruct + /think               64.0%   官方模型开启 CoT 思考链

think确实帮助提升了能力,但官方模型并不是特化的RL训练,反而不如我们这简陋的实验,还有另一部分原因是compare里面1024token的截断设置,让think模型在还在思考的时候就被截断当作没答对处理。程序抓到了错误的结果。

还有就是是单卡训练,非常慢 NUM_GENERATIONS = 4  ,如果用多卡可以提速,使用VLLM分配显存。

训练RLVR只有结果,没有PRM过程奖励来约束过程,可能学到乱猜加正确结果。

泛化性有待提高,只在 GSM8K 上训练和评估。

改进

过程奖励打分,提高学习比较和约束。 更大的NUM——generation,方差估计更准确,但显存需要更高,训练梯度下降更平滑。 RLVR+sft:SFT先warm-up(极少量),进行回答约束。再做RL更稳定。 VLLM:管理显存,提高并行,加速训练,提高稳定性。

Research

Related content

Featured image of post Qwen 1.5B LoRA微调 中文情感识别

Qwen 1.5B LoRA微调 中文情感识别

Featured image of post 强化学习经典算法可视化

强化学习经典算法可视化

© 2025 - 2026 Qianqiu
Built with Hugo
Theme Stack designed by Jimmy