验证的不对称性与验证者定律

2025年7月16日 19:32:12

原文地址：https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

开头一句话定义主题核心：有些任务“验证一个解是否正确”比“求解该任务”容易得多。作者接着指出：随着强化学习（RL）在一般情形下终于开始奏效，“验证不对称”正在成为 AI 领域最重要的思想之一。

解释：作者先设定背景——我们正在进入一个 RL 能更广泛应用的时代；在这种时代里，如果一个任务的“检验正确性”很便宜，而“想出答案”很贵，那么你可以用海量候选解+自动验证的方式驱动算法快速迭代，从而对该任务进行猛烈优化。这种结构性差异（解难、验易）就是“验证不对称”。它对 AI 研究、工程实践、以及未来哪些任务会被 AI 快速攻克，具有基础性意义。

1. “Understanding asymmetry of verification through examples” 引言

原文要点：作者说“验证不对称”无处不在，只要你留心观察就能发现。接下来给出几个代表性示例。
解释：这一段是在提醒读者：别把概念当作抽象理论；它广泛存在于日常问题、工程系统、网络任务、乃至研究流程中。作者通过具体案例帮助我们建立直觉。

2. 示例 1：数独 / 填字游戏

原文要点：求解数独或填字需要大量尝试、排除与约束搜索；而一旦有人给出一个完整解，检查该解是否符合规则几乎是“秒验”。
解释：解题阶段涉及组合爆炸（大量候选）；验证阶段只需逐格核对是否满足给定约束（每行、每列、每宫数字唯一等），计算量线性、规则清晰，所以验证成本远低于搜索成本。AI 系统若能生成大量候选解，再用程序快速判定，就可显著受益于这种不对称。 Jason Wei

3. 示例 2：构建 Instagram 级别网站 vs. 检查是否“能用”

原文要点：开发一个大型、复杂、可扩展的网站（如 Instagram）需要工程团队多年努力；但普通人花很短时间点几下就能大概判断网站是否能正常加载、能否发帖、能否看图等，从而验证“基本功能是否工作”。
解释：生产级系统的设计、架构、扩展性、安全性等实现成本极高；而“表面可用性”验证（至少能打开页面、完成基本操作）却成本极低。这种巨大差距意味着：如果只要“可用/不可用”信号，就能以极低成本对大量候选实现进行筛选、打分、迭代。 Jason Wei

4. 示例 3：BrowseComp 问题（需要大量网页浏览）

原文要点：解决某些 BrowseComp（浏览竞赛）类任务时，也许要翻阅上百个网站搜集信息；但当你拿到一个候选答案，验证它是否满足题目约束往往快得多，因为你可以直接针对候选答案进行定向搜索。
解释：求解阶段是开放式信息检索；验证阶段把问题收缩到“检查候选解是否符合给定条件（事实、日期、来源等）”。验证只需证伪或证实较少维度，因此速度更快。这也是典型“解难验易”结构。 Jason Wei

5. “Near-symmetry”（接近对称的任务）

原文要点：有些任务“解题”与“验证”所需工作量差不多，验证不具显著优势。例如：检查两个 900 位大数相加的答案——你要么自己再算一遍（工作量接近），要么写程序重新相加（仍需与解题同级别的步骤）。再如：一些数据处理程序——你去读别人的代码、逐步确认每一步输出是否正确，所花时间与自己写该程序相近。
解释：这里作者强调“验证不对称”不是普遍规律；存在“对称”区域，意味着如果你想用“生成多解+快速验”策略，收益不明显，因为验也很贵。选择 AI 优化策略时，必须先判断任务在“解/验”维度的相对成本。 Jason Wei

6. “验证更难”的反向例子（Brandolini 定律、科学假说、饮食)

原文要点：也有任务“验证”比“提出”更难——写一篇充满陈述的文章很快，但逐条事实核查可能耗费巨大精力；这契合 Brandolini’s law（“驳斥胡说所需能量远大于制造胡说”）。类似地，提出一个科学假说（或奇怪饮食法，如“只吃野牛+西兰花”）很容易；要验证其对一般人群是否有益，可能需要多年研究。
解释：这一节展示不对称的另一端：生成胡乱观点很便宜，可靠验证却昂贵。对于 AI 领域，这意味着：如果我们没有廉价可靠的验证信号，强化学习式优化就难以推进，因为缺少高频、低噪声的反馈。 Jason Wei

7. 小节标题：“Improving asymmetry of verification”

作者开始讨论：我们能否主动“改善”验证不对称，使验证变得更容易？

11. “Verifier’s law” 引入段

原文要点：作者问：“为什么验证不对称这么重要？”——因为深度学习发展史告诉我们：凡是能被测量的东西，都能被优化。 在强化学习语境下，“能验证解”就等价于“能构造一个 RL 环境（即能给奖励信号）”。基于此，作者提出“验证者定律”（Verifier’s law）。
解释：衡量 = 信号；信号 = 可优化目标。若你能给模型大量、快速、可靠的得分反馈，它就能通过 RL / 搜索 / 演化等机制持续改进；若无此反馈，模型无从优化。于是，“可验证性”成为区分“AI 很快会搞定”与“AI 难以攻克”任务的一条总原则。 Jason Wei

12. Verifier’s Law（正式表述）

原文原句（意译）：训练 AI 解决某项任务的容易程度，与该任务的可验证性成正比。所有既可求解又易于验证的任务，最终都会被 AI 攻克。
解释：这是一条预测性命题：若一个问题存在解，而且我们能快速、客观、规模化地判断候选解好坏，那么随着时间推移、算力增长、算法迭代，该问题几乎必然被 AI 自动化解决或大幅超人表现。这与深度学习中“只要能定义可微目标就能优化”有相似精神内核。

13. 五项决定“可训练性”的可验证性指标

作者把“可验证性”进一步分解为 5 个性质：

Objective truth（客观真值）：社会/专家能对什么是好解达成一致；评价标准客观、非主观审美。
Fast to verify（验证迅速）：一个候选解几秒内即可核对。
Scalable to verify（验证可扩展）：可同时或批量验证大量候选解（自动化、并行）。
Low noise（低噪声）：验证信号与真实质量高度相关；打分稳定可靠。
Continuous reward（连续奖励）：能对同一问题的一批解给出可排序的细粒度优劣（不仅二元对/错，而是评分刻度），从而支持梯度式或排序式优化。
解释：前四项确保我们能给模型大量、廉价、准确的反馈；第五项让模型不止知道“对/错”，还能感知“更好/更差”的梯度，从而更快收敛。

14. 基准测试（benchmarks）为何易被“解决”

原文要点：作者认为“验证者定律”并不难相信：过去十年里大多数在 AI 社区流行的基准都相对容易验证，因此它们逐渐被模型解决（或性能攀升到接近饱和）。不满足前四条标准的基准往往难以流行，因为难以大规模、客观评测。多数基准虽然不满足“五：连续奖励”（因为题目常是对/错），但我们可通过“在许多样本上取平均”把二元结果平滑为连续信号，仍可驱动优化。
解释：这段把定律与经验史联系起来：ImageNet、GLUE、MMLU 等基准能走红，部分原因是评测自动化、客观、批量；一旦信号充足，模型性能快速提升。这支持“可验证性 -> 可优化性 -> 快速进步”的链条。（注：作者未在该段列举具体基准名称；这里的例子是常见 AI 社区基准类别，用于帮助理解，不是原文枚举；如需严格对照原文，请以文中陈述为准。） Jason Wei

15. 为什么“可验证性”在学习动力学上关键

原文要点：当上述条件满足时，神经网络的“学习量”最大化——你能进行大量梯度更新，而且每一步都有信息量很高的信号。快速迭代速度极其关键；这正是数字世界（软件、算法）进步速度远快于物理世界（硬件实验、临床试验等）的原因之一。
解释：如果每次实验反馈快、信号噪声低，就能迭代更多次 → 经验回路收紧 → 性能迅速提升；若反馈慢或含噪，高效学习就被严重限制。可验证性本质上是“反馈回路带宽”。

16. AlphaEvolve（利用验证不对称的公共案例）

原文要点（文中）：过去几年最显著的公共案例之一是 Google 开发的 AlphaEvolve。作者把它描述成一种非常聪明的“猜测 + 检查”（guess-and-check）实例，能对目标进行“无情（ruthless）优化”，并已带来若干数学与工程上的创新。
补充背景（来自官方介绍）：DeepMind 官方文章描述 AlphaEvolve 为一个由大型语言模型驱动的演化式编码智能体：模型生成算法/程序候选，系统自动运行、验证、打分，并在演化循环中保留优胜基因，从而持续改进；它已被用于数据中心调度、硬件（Verilog）设计、AI 训练加速，以及寻找更快的矩阵乘算法等，并可扩展到任一“解可表达为算法且可自动验证”的领域。
解释：AlphaEvolve 之所以契合“验证不对称”，在于许多算法/代码候选的正确性与性能可以自动测试（跑基准、跑单元/属性测试、比较速度），验证信号便宜而高频，于是系统可以生成海量变体并择优进化——典型“解难验易”驱动的暴力优化框架。 Jason Wei Google DeepMind

17. AlphaEvolve 示例题：“找到能容纳 11 个单位六边形的最小外部六边形”

原文要点：作者给出一个简单示意问题，说明 AlphaEvolve 处理的题型：如果问题是“找一个包含 11 个单位正六边形的最小外部正六边形”，它满足前述五项可验证性条件，因此高度适合被此类系统解决。
解释：该问题有清晰客观标准（几何装填是否成功、外部尺寸可量化），验证快速（几何计算）、可批量（程序跑很多候选布局）、低噪声（要么装下、要么不；尺寸度量连续），且天然具备连续优劣（外部六边形大小）。完全契合“验证者定律” → 预期 AI 将在类似问题上取得快速突破。 Jason Wei Google DeepMind

18. AlphaEvolve 与“过拟合单题”（train = test）讨论

原文要点：作者指出：AlphaEvolve 类型的问题有时像是在对“单个问题”做极致优化，看起来类似“过拟合”。在传统机器学习里，我们有训练集标签、再看测试集泛化；但在科学创新里，场景不同：我们往往只关心某一个尚未解决的重要问题，把所有资源砸向它；在这种情境下，“训练=测试”不再是坏事，因为真正目标就是解决那一个问题。
解释：当你关心的是“找到一个新算法 / 新证明 / 新结构设计”，不需要模型能在分布外泛化；只要它在目标问题上找到改进即巨大利益。验证不对称使得“对单题进行巨量搜索+验证”成为现实范式。 Jason Wei

19. “Implications” 段：你会到处看到验证不对称

原文要点：一旦理解这个概念，你会在各处发现它的存在。作者展望一个未来：凡是我们能可靠测量（可验证）的事情，都可能被 AI 解决。结果可能是一个“参差不齐的智能前沿”（jagged edge of intelligence）：AI 在易于验证的任务上远超人类，而在难以验证的任务上落后或停滞。
解释：这种“锯齿状”智能版图意味着社会中不同类型工作的自动化程度将严重依赖其可验证性；高度结构化、可程序化验证的领域会被迅速吞噬；而需长期、主观、多维评估的领域进展缓慢。这一观点也与软件工程界关于“可验证性是限制因素”的讨论相呼应。 Jason Wei alperenkeles.com

20. 延伸阅读（作者推荐）

文末作者推荐了 Alperen Keles 的一篇博文（标题意为“Verifiability is the Limit”），从软件工程与 LLM 编程实践角度强调：真正限制自动化编程的不是生成代码，而是验证代码是否满足人类意图；在不同场景下需要不同强度与工具来支撑验证。该观点与本文主张互为呼应。 Jason Wei alperenkeles.com

小结

Jason Wei 借“验证不对称”这一直观框架，总结了一个在深度学习 + 强化学习时代愈发重要的洞察：要想让 AI 在某任务上飞速前进，先确保你能便宜、快速、批量、低噪声地验证候选解；否则优化停滞。 这不仅解释了为何许多 AI 基准被迅速攻克，也提示我们在研究与产品设计中，应投入资源去构建更好、更自动化的验证管道——从预置答案、测试覆盖，到自动评测器与连续评分机制——以把“难题”转化为“易验”问题，再交给 AI 做大规模搜索与优化。