web-supplemented 2026-06-04 18:58 MiniMax-M3

SDPG：让 Agent 自己教自己的轻量化多步规划训练框架开源

UCLA 顾全全团队联合普林斯顿张伊凡开源自蒸馏策略梯度算法 SDPG，借助特权上下文与优势门控实现无外部大教师指导的多步推理与智能体训练。

sdpgself-distillationreinforcement-learningagentmulti-step-planninguclaprincetonopen-source

References

SDPG 开源：把"教师"塞进模型自身

由加州大学洛杉矶分校（UCLA）顾全全（Quanquan Gu）团队的刘益枫、张诗源与普林斯顿大学张伊凡合作完成的论文《Self-Distilled Policy Gradient》（SDPG）于 2026 年 6 月 2 日在 arXiv 公开（编号 2606.04036），并同步在 GitHub 发布了 lauyikfung/SDPG 仓库。该工作聚焦于长程推理与智能体（Agent）任务中，在不依赖更大外部教师模型的前提下，用"内部特权上下文"实现高效自蒸馏的技术路径。

痛点：稀疏奖励下的自我进化困境

在软件开发、自动化规划、数学推理等长程任务中，智能体通常只能在任务结束时收到一个稀疏奖励信号。这意味着中间的大量决策步骤缺乏有效反馈，模型在自训练时极易在庞大的搜索空间中盲目尝试，训练效率低下。

业界常见的应对方式是引入更大、更昂贵的外部教师模型，为每一步提供细粒度指导。但这会带来两个问题：一是显存开销随教师规模急剧增长；二是对教师模型的强依赖削弱了"自进化"的可扩展性。

核心思路：特权上下文 + 优势门控

SDPG 的设计核心可以拆解为三条主线：

特权上下文自蒸馏（Privileged-Context Self-Distillation）：训练时向模型输入仅"教师视角"可见的额外信息——例如正确解答轨迹、环境隐藏状态等，让模型先以"开卷"方式生成高质量推理路径；随后再让模型在无辅助状态下复现这些路径，以全词表反向 KL 散度作为辅助损失。
优势门控（Advantage Gate）：为避免模型从自己生成的错误或低价值轨迹中学习，新框架结合 GRPO 风格的组相对验证器优势（verifier advantages）与归一化标准差，只对带来正向收益的决策路径进行蒸馏，过滤低质量样本。
动态蒸馏系数调度：为防止自蒸馏导致的"众数崩塌"（即模型只重复少数高概率解法、失去探索多样性），SDPG 对蒸馏系数采用先升后降的调度策略，在训练后期将蒸馏权重降为零，把学习主导权交还给自主探索。

整个框架同时保留了与参考策略之间的 KL 正则化项，从而兼具 on-policy RLVR 与自蒸馏的优势。

实验与对比

论文的实证部分显示，在数学推理与多步规划等任务上，SDG 在稳定性与最终成绩上整体优于 GRPO 以及多种自蒸馏基线，且不带来额外的显存开销。这意味着该方法在保留长程任务训练可扩展性的同时，把对外部大模型的依赖降到最低。

意义与可关注的方向

SDPG 延续了 2024–2026 年间"小模型自进化"的研究脉络，但把视角从纯语言模型后训练扩展到更通用的多步决策智能体场景。其核心贡献在于：

工程友好：完全在策略内（on-policy）、全词表蒸馏，无需为教师分配额外显存；
训练稳定：优势门控 + 衰减调度同时缓解了"学坏"和"学窄"两大典型失效模式；
场景通用：在数学、代码、规划等典型 RLVR 与 Agent 任务中均表现稳健。

对于正在搭建 RL 后训练流水线，或希望降低对外部大模型 API 依赖的团队，SDPG 提供了一个可立即尝试的开源基线。

参考链接

论文：https://arxiv.org/abs/2606.04036
代码：https://github.com/lauyikfung/SDPG

SDPG 开源：把"教师"塞进模型自身

痛点：稀疏奖励下的自我进化困境

核心思路：特权上下文 + 优势门控

实验与对比

意义与可关注的方向

相关文章