强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史

发稿时间:2026-05-06浏览次数:

本文章版权归机器之心公众号所有

网站链接:

强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史