标签: CMB | Ruochen Chen

GDPO（Group Reward-Decoupled Normalization Policy Optimization）

分组奖励解耦归一化策略优化，由 NVIDIA 等机构2026年提出，是一种用于多奖励强化学习的大语言模型优化方法。

一、要解决的问题

在基于 GRPO（Group Relative Policy Optimization）做多奖励 RL 时，通常会把多个奖励先相加再归一化。这样会导致奖励信号坍缩：不同的奖励组合被压成几乎相同的 advantage 值，训练信号分辨率下降，容易收敛差甚至训练失败。

二、核心思路

GDPO 的做法是解耦各奖励的归一化，而不是先求和再归一化：

Ruochen Chen2026年3月16日大约 1 分钟

Redis 的其一灾备方案

本质：用 Redis 降级 Redis

灾备方案的核心就是用另一套 Redis 作为主节点的备份，主挂了就切到备节点读写，本质是「Redis 降级 Redis」。

一、两套 Redis 主备切换方案

方案思路

平时：A 为主（读写），B 为从（备份）
A 坏了：切到 B 读写，B 提升为主，A 变备
A 恢复后：A 配置为 B 的从节点，从 B 重新同步

Ruochen Chen2026年3月16日大约 2 分钟