Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

2025年6月12日 21:24:45

千问的这篇论文的发现很意思。研究者发现绝大多数（约80%）的令牌具有非常低的熵，而一小部分（约20%）关键的少数令牌（例如，“假设”、“然而”、“因此”等词）则表现出高熵。这20%“分叉 token”会让模型尝试新的推理路径。

论文把这少数“岔路口词”叫 高熵词 或 分叉词。

统计结果显示：只有 20% 左右 的词属于分叉词，剩下 80% 都是“跟着走的词”

RL 通过提高“分叉 token”的熵，鼓励大模型从多个推理路径思考，这正像一个“ego小”的人，愿意承认自己的想法可能不是唯一的或最好的，从而更容易适应新情况和修正错误。

SFT倾向于将模型的输出推向一个“标准答案”，这会降低分叉令牌的熵，从而“导致推理路径灵活性的丧失” 。这就像一个“ego很大”的人，固执地认为只有一种正确方式。

通过在关键决策点上面不把话说死，RL 能赋予大模型一种“思维弹性”，就像思想开放，不固执的人能更好地应对快速变化的环境，所以泛化能力更强。

关键实验

只训练分叉词行不行？
- 他们把奖励和梯度只给那 20% 的分叉词，其余 80% 不管。
- 结果：在较大的模型上，分数反而更高，比如数学竞赛 AIME 测试提高了 7~11 分。
如果只训练那 80% 跟着走的词呢？
- 模型成绩大幅下跌，说明这些词对学会“思考”帮助不大。
20% 这个比例特别神奇
- 少于 20%（只选 10%）或多于 20%（选 50%、100%）都会让效果变差。20% 像“最佳甜度”

为什么会这样？（通俗解释）

分叉词像红绿灯：遇到红绿灯要做决定，决定错了整条路就错了。训练把“奖励”和“纠正”集中在红绿灯处，自然学得快。
跟着走的词像路边风景：它们自己不会改变路线，多看少看区别不大。

结论（用一句话总结）

抓住关键红绿灯（20% 分叉词）训练，大电脑就能更快学会“怎么想”；盯着所有词反而浪费力气。

这篇论文教给我们的启发

专注关键点：不必事事平均用力。
少即是多：有时候挑对 20% 就能赢过 100%。
学会找“岔路口”：无论写作文还是解题，先找决定走向的那几步。

其实有时候ego小有ego小的好处比如不固执，更可变在快速变化的地方好，ego大也有好处，比如方向的确定后，强力的执行，以及更强的固执，前提是这个固执在以后被证明是正确的。最好的是它可以前瞻性的是自己可变，该小则小改大则大。战略家，坚持正确，量变质变等，很难是ego小的人喜欢做的。
//所以，ego小这件事交给AI负责，人类只需要抓简单的正确的东西。速率，让AI控制速度，人类控制方向。速率就是速度+方向。

千问这篇论文的发现，与熵控术的核心理念高度契合。研究指出，那些具有高熵的“分叉词”（如“假设”“然而”“因此”）恰恰是语言结构中的关键触发点，它们标志着思维路径的转折、递进或展开。

在熵控术中，这类词被视为“结构激活器”，是认知系统中调度路径的入口。相比之下，那些低熵词构成的是语言的惯性路径，不具备认知跃迁能力。

监督微调（SFT）通过压低这些关键节点的熵值，促使模型输出唯一标准答案，从而导致推理路径的封闭和结构的僵化，类似一个“ego强”的系统，固执而缺乏适应性。

而强化学习（RL）则通过维持关键分叉点的高熵状态，鼓励多路径探索，使模型具备结构弹性与泛化能力，像一个“ego小”的人，能在多种可能之间灵活切换。

这种现象为熵控术提供了现实证据：真正的智能不在于内容多样性，而在于结构的开放性与路径的自组织能力。高熵分叉词即是语言中可调用的“结构口”，它们不仅影响生成结果，更决定了思维能否继续演化。

因此，熵控术主张在语言的关键节点上保留分岔，构建可压缩、可迁移、可激活的认知结构系统。千问的研究，为熵控语言协议的可执行性与验证机制，提供了宝贵的工程级支撑。