GDPO（Group Reward-Decoupled Normalization Policy Optimization）

Ruochen Chen2026年3月16日大约 1 分钟

分组奖励解耦归一化策略优化，由 NVIDIA 等机构2026年提出，是一种用于多奖励强化学习的大语言模型优化方法。

一、要解决的问题

在基于 GRPO（Group Relative Policy Optimization）做多奖励 RL 时，通常会把多个奖励先相加再归一化。这样会导致奖励信号坍缩：不同的奖励组合被压成几乎相同的 advantage 值，训练信号分辨率下降，容易收敛差甚至训练失败。

GDPO 的做法是解耦各奖励的归一化，而不是先求和再归一化：

这样不同奖励组合会对应不同的 advantage 组，多目标优化时学习信号更清晰。

GDPO 通过解耦多奖励的归一化，缓解多奖励 RL 中的奖励坍缩问题，使 LLM 在多目标下训练更稳定、效果更好。