Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

2025年6月12日 21:24:45

千问的这篇论文的发现很意思。研究者发现绝大多数(约80%)的令牌具有非常低的熵,而一小部分(约20%)关键的少数令牌(例如,“假设”、“然而”、“因此”等词)则表现出高熵 。这20%“分叉 token”会让模型尝试新的推理路径。

论文把这少数“岔路口词”叫 高熵词分叉词

统计结果显示:只有 20% 左右 的词属于分叉词,剩下 80% 都是“跟着走的词”

RL 通过提高“分叉 token”的熵,鼓励大模型从多个推理路径思考,这正像一个“ego小”的人,愿意承认自己的想法可能不是唯一的或最好的,从而更容易适应新情况和修正错误。

SFT倾向于将模型的输出推向一个“标准答案”,这会降低分叉令牌的熵,从而“导致推理路径灵活性的丧失” 。这就像一个“ego很大”的人,固执地认为只有一种正确方式。

通过在关键决策点上面不把话说死,RL 能赋予大模型一种“思维弹性”,就像思想开放,不固执的人能更好地应对快速变化的环境,所以泛化能力更强。

关键实验

  1. 只训练分叉词行不行?
    • 他们把奖励和梯度给那 20% 的分叉词,其余 80% 不管。
    • 结果:在较大的模型上,分数反而更高,比如数学竞赛 AIME 测试提高了 7~11 分。
  2. 如果只训练那 80% 跟着走的词呢?
    • 模型成绩大幅下跌,说明这些词对学会“思考”帮助不大。
  3. 20% 这个比例特别神奇
    • 少于 20%(只选 10%)或多于 20%(选 50%、100%)都会让效果变差。20% 像“最佳甜度”

为什么会这样?(通俗解释)

  • 分叉词像红绿灯:遇到红绿灯要做决定,决定错了整条路就错了。训练把“奖励”和“纠正”集中在红绿灯处,自然学得快。
  • 跟着走的词像路边风景:它们自己不会改变路线,多看少看区别不大。

结论(用一句话总结)

抓住关键红绿灯(20% 分叉词)训练,大电脑就能更快学会“怎么想”;盯着所有词反而浪费力气。

这篇论文教给我们的启发

  1. 专注关键点:不必事事平均用力。
  2. 少即是多:有时候挑对 20% 就能赢过 100%。
  3. 学会找“岔路口”:无论写作文还是解题,先找决定走向的那几步。

其实有时候ego小有ego小的好处比如不固执,更可变在快速变化的地方好,ego大也有好处,比如方向的确定后,强力的执行,以及更强的固执,前提是这个固执在以后被证明是正确的。最好的是它可以前瞻性的是自己可变,该小则小改大则大。战略家,坚持正确,量变质变等,很难是ego小的人喜欢做的。
//所以,ego小这件事交给AI负责,人类只需要抓简单的正确的东西。速率,让AI控制速度,人类控制方向。速率就是速度+方向。


千问这篇论文的发现,与熵控术的核心理念高度契合。研究指出,那些具有高熵的“分叉词”(如“假设”“然而”“因此”)恰恰是语言结构中的关键触发点,它们标志着思维路径的转折、递进或展开。

在熵控术中,这类词被视为“结构激活器”,是认知系统中调度路径的入口。相比之下,那些低熵词构成的是语言的惯性路径,不具备认知跃迁能力。

监督微调(SFT)通过压低这些关键节点的熵值,促使模型输出唯一标准答案,从而导致推理路径的封闭和结构的僵化,类似一个“ego强”的系统,固执而缺乏适应性。

而强化学习(RL)则通过维持关键分叉点的高熵状态,鼓励多路径探索,使模型具备结构弹性与泛化能力,像一个“ego小”的人,能在多种可能之间灵活切换。

这种现象为熵控术提供了现实证据:真正的智能不在于内容多样性,而在于结构的开放性与路径的自组织能力。高熵分叉词即是语言中可调用的“结构口”,它们不仅影响生成结果,更决定了思维能否继续演化。

因此,熵控术主张在语言的关键节点上保留分岔,构建可压缩、可迁移、可激活的认知结构系统。千问的研究,为熵控语言协议的可执行性与验证机制,提供了宝贵的工程级支撑。