首页
教程
IT编程
国外技术
登录
标签
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心报道编辑:PandaDeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 critic 模型的需求。但是,这又需要为每个问
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
admin
12小时前
10
0