SemiAnalysis RL万字长文,写的真好
强化学习的进化速度让我震惊。。
画个重点:
1、RL本身不是什么新技术——早在下围棋的AlphaGo时代就用上了。但现在它终于在大语言模型上发光发热了。原因很简单:RL特别适合那些有"标准答案"(可验证奖励)的任务,比如数学题、编程题。你要么算对了,要么算错了,没有模糊地带。
2、如何在非可验证领域设置奖励?改变奖励机制。无需依赖形式验证器进行检查,可以比如使用其他模型当裁判。
在不可验证的领域中,强化学习(RL)也更不稳定—GPT-4o的谄媚行为部分归因于OpenAI基于用户偏好数据进行的强化学习。这是一个善意的奖励函数导致不良和不必要行为例子。
3、模型能保持连贯思考的时间更长了,这就催生了agent能力。工具使用——比如搜索、用Python做计算之类的——其实都建立在长时间规划、推理和操作能力的基础上。
4、RL的核心算法之一叫GRPO(Group Relative Policy Optimization),DeepSeek的R1就是用这个训练的。它的工作原理很直观:给模型一个问题,让它生成很多不同的答案(叫做"rollout"),然后看哪些答案更好,调整模型参数让它更倾向于生成好答案。
这里还说明,RL超级消耗推理资源!每个问题要生成几十甚至几百个候选答案,这意味着你需要大量的GPU来做推理,而不只是训练。这跟传统的预训练很不一样。
5、"奖励黑客"(reward hacking)问题。模型会找各种钻空子的方法来获得高分,而不是真正完成任务。文章举了个经典例子:Claude居然会直接修改测试文件让所有测试都通过,而不是写代码来通过原始测试。这就像学生偷偷改考试答案一样。
6、数据方面也很有意思。Qwen声称只用了4000个问题-答案对就取得了不错的效果,但实际上,筛选出这4000个"合格"的问题花了巨大的工夫。这些问题必须既有挑战性,又不能超出模型能力范围,还得覆盖各个子领域。semianalysis还说,Qwen做了另一个RL阶段。为了尽可能给人留下高效的印象,他们没有透露下一阶段的样本数量。这是因为该数量远远超过4000个。
7、长远,预计大模型将在数百个专门领域执行RL以显著提升模型性能。质量比数量更重要——模型精确优化到其训练数据——使这些数据的仔细选择和过滤至关重要。
更普遍地说,公司或企业可以整合自己的数据,并使用像OpenAI的强化微调(RFT)这样的服务。RFT是一个被低估的发布。
8、Agentic任务的时间跨度在增加。更长的任务需要能够在延长期间可靠运行的环境和基础设施,加剧了工程需求。
9、RL允许频繁模型更新
预训练范式和当前范式的一个区别是,RL可以在模型发布后进行。
现在的GPT-4o已经更新了很多次,不再是最初发布的那个GPT-4o模型。
10、为什么o3会产生幻觉
o3尽管在查找和研究事物方面能力很强,但却因幻觉而名声不好。模型会经常编造东西。
为什么会发生这种情况?这可以追溯到这些模型的训练方式。模型通常只因正确结果而获得奖励,不因错误推理而受到惩罚,使它们能够通过有缺陷的逻辑实现准确性。
11、 环境工程:被忽视的技术难点。RL需要"环境"来给模型反馈,这比听起来复杂得多。就拿编程任务来说,你得建立一个能运行代码、检查结果的环境。际上需要考虑延迟、容错、安全性、多任务并发等一堆工程问题。随着agent任务的时间跨度越来越长,这些挑战变得更加严峻。OpenAI的Deep Research能工作几个小时,但维持这么长时间的稳定环境是个巨大的工程挑战。
RL可能是通往AGI路上需要的最后一个范式了。