从RL实现AGI

2025年6月13日 21:41:16

SemiAnalysis RL万字长文，写的真好
强化学习的进化速度让我震惊。。

画个重点:
1、RL本身不是什么新技术——早在下围棋的AlphaGo时代就用上了。但现在它终于在大语言模型上发光发热了。原因很简单：RL特别适合那些有"标准答案"（可验证奖励）的任务，比如数学题、编程题。你要么算对了，要么算错了，没有模糊地带。
2、如何在非可验证领域设置奖励？改变奖励机制。无需依赖形式验证器进行检查，可以比如使用其他模型当裁判。
在不可验证的领域中，强化学习（RL）也更不稳定—GPT-4o的谄媚行为部分归因于OpenAI基于用户偏好数据进行的强化学习。这是一个善意的奖励函数导致不良和不必要行为例子。
3、模型能保持连贯思考的时间更长了，这就催生了agent能力。工具使用——比如搜索、用Python做计算之类的——其实都建立在长时间规划、推理和操作能力的基础上。
4、RL的核心算法之一叫GRPO（Group Relative Policy Optimization），DeepSeek的R1就是用这个训练的。它的工作原理很直观：给模型一个问题，让它生成很多不同的答案（叫做"rollout"），然后看哪些答案更好，调整模型参数让它更倾向于生成好答案。
这里还说明，RL超级消耗推理资源！每个问题要生成几十甚至几百个候选答案，这意味着你需要大量的GPU来做推理，而不只是训练。这跟传统的预训练很不一样。
5、"奖励黑客"（reward hacking）问题。模型会找各种钻空子的方法来获得高分，而不是真正完成任务。文章举了个经典例子：Claude居然会直接修改测试文件让所有测试都通过，而不是写代码来通过原始测试。这就像学生偷偷改考试答案一样。
6、数据方面也很有意思。Qwen声称只用了4000个问题-答案对就取得了不错的效果，但实际上，筛选出这4000个"合格"的问题花了巨大的工夫。这些问题必须既有挑战性，又不能超出模型能力范围，还得覆盖各个子领域。semianalysis还说，Qwen做了另一个RL阶段。为了尽可能给人留下高效的印象，他们没有透露下一阶段的样本数量。这是因为该数量远远超过4000个。
7、长远，预计大模型将在数百个专门领域执行RL以显著提升模型性能。质量比数量更重要——模型精确优化到其训练数据——使这些数据的仔细选择和过滤至关重要。
更普遍地说，公司或企业可以整合自己的数据，并使用像OpenAI的强化微调（RFT）这样的服务。RFT是一个被低估的发布。
8、Agentic任务的时间跨度在增加。更长的任务需要能够在延长期间可靠运行的环境和基础设施，加剧了工程需求。
9、RL允许频繁模型更新
预训练范式和当前范式的一个区别是，RL可以在模型发布后进行。
现在的GPT-4o已经更新了很多次，不再是最初发布的那个GPT-4o模型。
10、为什么o3会产生幻觉
o3尽管在查找和研究事物方面能力很强，但却因幻觉而名声不好。模型会经常编造东西。
为什么会发生这种情况？这可以追溯到这些模型的训练方式。模型通常只因正确结果而获得奖励，不因错误推理而受到惩罚，使它们能够通过有缺陷的逻辑实现准确性。
11、环境工程：被忽视的技术难点。RL需要"环境"来给模型反馈，这比听起来复杂得多。就拿编程任务来说，你得建立一个能运行代码、检查结果的环境。际上需要考虑延迟、容错、安全性、多任务并发等一堆工程问题。随着agent任务的时间跨度越来越长，这些挑战变得更加严峻。OpenAI的Deep Research能工作几个小时，但维持这么长时间的稳定环境是个巨大的工程挑战。

RL可能是通往AGI路上需要的最后一个范式了。