分组奖励解耦归一化策略优化,由 NVIDIA 等机构2026年提出,是一种用于多奖励强化学习的大语言模型优化方法。
一、要解决的问题
在基于 GRPO(Group Relative Policy Optimization)做多奖励 RL 时,通常会把多个奖励先相加再归一化。这样会导致奖励信号坍缩:不同的奖励组合被压成几乎相同的 advantage 值,训练信号分辨率下降,容易收敛差甚至训练失败。
二、核心思路
GDPO 的做法是解耦各奖励的归一化,而不是先求和再归一化:
2026年3月16日大约 1 分钟
