智能的度量：o3 与 AI 的分水岭

December 23, 2024

“当我看到这些分数的时候，我意识到我需要改变我的世界观了。”

在 OpenAI 的发布会现场，ARC Prize Foundation 的负责人 Greg Kamradt 有些不安。作为全球最严苛的 AI 测试基准之一，ARC-AGI 每年都会举办奖金不菲的竞赛。无数模型在这个测试面前折戟沉沙，以至于业内开玩笑说这个基准“感觉已经存在了几个世纪”。

但就在 2024 年的最后几天，情况发生了变化。

OpenAI 的最新模型 o3 不仅打破了记录，更令人震惊的是：在高算力测试中，它达到了 88% 的得分，超越了人类平均水平的 85%。

“我需要重新校准我对 AI 能力的认知，特别是在这个被 o3 开启的新世界里。”Greg 继续说道。

超人的 o3

在 OpenAI 连续 12 天的发布马拉松中，o3 是最后一棒。这个时间节点的选择颇具戏剧性：此前的几天里，OpenAI 和 Google 仿佛陷入了一场隐形的竞速：Sora 对阵 Veo 2，GPT-4 对阵 Gemini Flash 2.0 Experimental，o1 对阵 Gemini Flash 2.0 Thinking Mode。当 800-CHATGPT 这样的功能发布出现时，不少观察者认为这是一招缓兵之计，为最后的王牌 o3 争取时间。

发布前夕的情况也颇为微妙。关键人物的离职消息传出，让业内开始担心：o3 会不会重蹈 Sora 的覆辙，只是一个仓促的“占坑”发布？

但 o3 的发布过程打破了这些猜测。虽然 Sam Altman 在开场时将 "launch" 改口为 "announce"，但随后的展示却令人印象深刻。OpenAI 的研究主管 Mark Chen 没有用华丽的演示，而是直接展示了 o3 在编码和数学能力上相对于 o1 的巨大飞跃。

最引人注目的是 ARC-AGI 测试的结果。这个基准测试的重要性，通过 Greg Kamradt 的介绍得到了充分展现：

它在人工智能领域已经 5 年无人能敌，感觉就像几个世纪以来一直如此。击败 ARC-AGI 的系统将成为迈向通用智能的重要里程碑。

而 o3 正是这个里程碑的缔造者：在 high compute 和 low compute 两种场景下，o3 分别达到了 88% 和 76% 的惊人成绩。更具历史意义的是，它在高算力场景中超越了人类水平线（85%）。

在整个发布过程中，有一个有趣的细节：Sam Altman 和 Greg 不断拿研究主管 Mark Chen 作为参照物。作为美国信息学奥赛（IOI）的国家队教练，Mark Chen 的数学和编程能力远超常人。这种看似调侃的比较背后，实际上暗示了一个更深层的信息：AI 已经可以在某些特定领域与最优秀的人类专家较量。

ARC Prize Foundation 的官方文章这样写道：

OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进，而是一个真正的突破，标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统，可以说在 ARC-AGI 领域接近人类水平的表现。

这不仅仅是一场普通的产品发布会，而是一个重要的信号：AI 正在从模仿人类迈向真正的智能。要理解这一跨越的意义，我们需要深入探讨智能的本质。

于是，我去读了一下为 ARC-AGI 奠基的论文：On the Measure of Intelligence。

智能的度量

这是一篇发表在 5 年前的论文。64 页的文章中，除了第二部分的数学符号外，更像是一篇哲学思辨：什么是智能？人类的智能是不是终极的智能？如何度量智能？

这些看似抽象的问题，最终凝结成了今天的 ARC-AGI 测试体系。

智能的本质

论文的作者 François Chollet 从人类智商测试的理论基础——心理计量学（Psychometrics）中汲取灵感，给出了一个优雅的定义：

The intelligence of a system is a measure of its skill-acquisition efficiency over a scope of tasks, with respect to priors, experience, and generalization difficulty.

智能是衡量一个系统在特定任务范围内获取技能的效率，这种效率取决于先验知识、经验积累和泛化难度。

换句话说：一个系统的智能，体现在它能多快地在一系列任务中获得新技能，这个过程受到先验知识、经验积累和泛化难度的影响。

更具体一点：

Intuitively, if you consider two systems that start from a similar set of knowledge priors, and that go through a similar amount of experience (e.g. practice time) with respect to a set of tasks not known in advance, the system with higher intelligence is the one that ends up with greater skills (i.e. the one that has turned its priors and experience into skill more efficiently). This definition of intelligence encompasses meta-learning priors, memory, and fluid intelligence. It is distinct from skill itself: skill is merely the output of the process of intelligence.

直观地说，假设两个系统拥有相似的先验知识，并且在面对一组事先未知的任务时获得了相似程度的经验（比如练习时间），那么最终获得更多技能的系统就是更具智能的系统（即更高效地将先验知识和经验转化为技能的系统）。这种智能的定义涵盖了元学习先验、记忆力和流体智能。需要注意的是，智能与技能是不同的：技能仅仅是智能过程的产物。

关于智能的定义，论文中还有一个更“数学”的解释：

Intelligence is, in a way, a conversion rate between information about part of the situation space, and the ability to perform well over a maximal area of future situation space, which will involve novelty and uncertainty.

从某种意义上说，智能是一种转化率：它反映了系统将已知情境的信息，转化为在最大范围未知情境中表现良好的能力，这个过程必然涉及新颖性和不确定性。

让我们通过一道 ARC-AGI 的测试题来理解这个定义：（最近你可能会在很多关于 o3 的文章中看到过）：

看这个测试题，左边是三张已知的图案，右边画着一个问号。左边的三张图就是 Chollet 所说的“已知情境”——系统能够观察和理解的信息；而右边的问号则代表“未知情境”——系统需要预测和推理的部分。

智能系统面对这样的题目时，本质上是在进行一种转化：它需要从已知图案中提取规律和模式，并将这种理解转化为对未知图案的预测。这个转化的效果有多好？我们可以通过系统在大量类似题目上的表现来衡量——也就是正确率。

换句话说，智能就体现在这种转化的效率上：系统能多大程度上将对已知图案的理解，转化为对未知图案的准确预测。这个转化效率，就是 Chollet 所说的智能的度量。

泛化的层次

论文中反复强调的一个区别是能力（abilities）和技能（skills）之间的差别。要理解这一差别，一个很重要的概念是泛化（generalization）：

We can informally deﬁne “generalization” or “generalization power” for any AI system to broadly mean “the ability to handle situations (or tasks) that differ from previously encountered situations”.

对于任何 AI 系统来说，我们可以简单地把“泛化”或“泛化能力”理解为：处理与已知经验不同的新情况（或新任务）的能力。

这个概念其实不难理解，因为它很容易迁移到人类自身的智力上：我们认为一个人聪明的表现在于他能够“举一反三”，而“反”出来的“三”如果和“一”相比，没有那么显然的直接联系，则会认为这个人的抽象思维能力强，更加印证了“聪明”。

泛化能力正是区分“能力”和“技能”的关键。技能往往是针对特定任务的熟练程度，比如一个人可以通过反复练习，在特定类型的数学题上表现出色。但这种熟练并不一定意味着他具备强大的数学能力——真正的数学能力体现在面对全新题型时的理解和解决方案。

换句话说，技能更多地体现为“知道怎么做”（know-how），而能力则体现为“知道为什么这么做”（know-why）。一个人可能通过大量练习掌握了解某类方程的技巧（技能），但只有当他能够理解背后的原理，并将这种理解应用到新的问题上时（泛化），才显示出真正的数学能力。

这也解释了为什么论文将泛化能力作为衡量智能的核心指标：真正的智能不在于掌握了多少具体技能，而在于能够多快地将已有知识迁移到新的领域，在面对未知时展现出适应和创新的能力。

为了更好的区分不同的泛化能力，文章把它分为 4 层：

缺乏泛化能力（Absence of generalization）：系统只能处理训练时所针对的确切场景，完全无法处理变化。比如：一个用穷举法来解三连棋（tic-tac-toe）的程序。
局部泛化能力（Local generalization）：系统可以处理与训练数据分布相同的已知案例的细微变化。比如：在经过大量图片数据训练后，可以用来分出猫和狗照片的程序——这种泛化能力很大程度上依赖于训练数据，而训练数据本身限定了问题空间，也就限定了这类程序所能解决的问题是“已知的未知”。
广义泛化能力（Broad generalization）：系统可以处理同一一般问题空间内的重大变化和新情况。比如：L5 级别的自动驾驶系统——可以看到，虽然这种能力已经可以解决“未知的未知”，但它的作用范围仍然是预先限定的（道路驾驶）。
极端泛化能力（Extreme generalization）：系统可以适应全新的场景和问题类型，在新情况下表现出类似人类的灵活性。一个例子可能是：一个机器人走进一个陌生的房间，用咖啡机做了一杯咖啡给房间里的人。

“极端泛化能力”也就是“在未知情形下，适应未知的未知”的能力。虽然以“极端”开头，但它仍然是以人类为中心的——文中简略的讨论了是否存在超越人类智能的智能，但最终认为这个问题并没有太多实际意义而将其排除在讨论之外。

GPT-4 的泛化能力体现了一个有趣的悖论：它看起来能处理各种新任务，但这种“新”是相对的。按照 Chollet 的分类框架，GPT-4 主要展现的是“局部泛化能力”（Local Generalization）。我们将在后文中详细展开。

知识与智能的区别

在泛化能力的定义中，先验知识（Priors）以限制条件出现，也是度量智能中的重要概念。在 ARC-AGI 测试中，这些先验知识被限定在最基本的核心知识（Core Knowledge）上：

物体永久性（如物体不会凭空消失）
因果性（如充分必要条件）
基础物理（如重力）
基础心理学（如目的性行为）
基础空间关系（如平行线）
基础数量关系（如数字大小）

这些知识被认为是人类与生俱来的能力，也是任何具有基本智能的系统应该具备的基础。这个设定实际上划定了一条界限：真正的智能不在于存储了多少知识，而在于如何利用最基本的知识来解决新问题。

论文还认为，如果两个系统都能完成一个任务，系统 A 用到的先验知识更少，那么认为系统 A 的智能程度更高。

在智能系统发展的过程中，知识库和专家系统一直是一个重要的方向，在人工智能第一次寒冬之后的一段时间里，很多研究努力投入到了这一方向，代表项目包括 MYCIN 和 Cyc，这些项目显然无法达到很高的智能程度，但它们也为后来的知识图谱方向开拓了早期道路。GPT 则是把知识库的规模推到了极致，但如果把这些先验知识抽离，仅剩下 Core Knowledge，那么它就不再具有较高的智能程度了。

Chollet 把智能与知识分离开来，把先验知识对系统能力的影响最小化，提出了一个智能系统的简单图示。如果耐心读完了上面的内容，应该可以大致理解。详细的解释需要一些数学表达，建议去读原文。

所以，Chollet 对智能的理解可以简单概括为：一个系统的智能程度，体现在它能够以多少先验知识为基础，通过泛化能力获取新技能。先验知识越少，泛化能力越强，获取新技能的效率越高，这个系统就越智能。

局限

论文最后也明确写了 ARC-AGI 的局限性，主要包括：

它仅测试抽象的视觉推理，而不涵盖语言或社会认知等其他智能领域。
测试假设某些核心知识先验（几何、数字、物体永久性等基本概念），这些知识可能并不适用于所有形式的智能。
它侧重于类似人类的推理模式，这可能不是唯一有效的智能形式。
基准测试衡量特定类型的泛化能力，可能会忽略智能的其他重要方面。

这些局限提醒我们：o3 在 ARC-AGI 上的突破，虽然意义重大，但仍然只是通往真正 AGI 的一个里程碑。

正如 Chollet 在 ARC 官方博客中所说：

通过 ARC-AGI 并不等同于实现 AGI，事实上，我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败，这表明与人类智能存在根本差异。

一些批评认为，OpenAI 可能通过强化学习方法在测试中获得高分。我的理解是，ARC-AGI 提供公开的训练和评估数据集，但还有一个私有评估集，这些任务不包含在公共任务中，它们确实使用相同的结构和认知先验，OpenAI 和其它的挑战者一样，无法获得这个私有评估集中的数据。换句话说，任何模型都可以用公开训练和评估集来训练、调试自身，这个过程可能包含强化学习方法，但最终的测试是在另一个非公开的数据集上产生的。具体可以参见 ARC-AGI 的官方指南。

GPT 与 o3

当我们理解了智能度量的框架，就能明白为什么 o3 没有延续 GPT 系列的命名：这不是一个简单的版本迭代，而是一个新物种的诞生。

GPT 系列和 o 系列的根本区别在于它们的泛化能力层次。按照 Chollet 的分类，GPT 系列更接近于“局部泛化能力”（Local Generalization）：它们的强大很大程度上依赖于预训练阶段输入的海量数据。这些模型就像一个博学多识的学者，能够基于已有知识做出准确的推断和创造性的联系，但在面对全新问题时，往往会显得力不从心。

相比之下，o 系列（特别是 o3）展现出了“广义泛化能力”（Broad Generalization）的特征：它们能够在极少先验知识的情况下，通过推理来解决新问题。这种能力更接近于人类在面对未知时展现出的适应性和创造力。

但 o3 的突破性成就并不意味着它已经达到了通用人工智能的水平。我们可以通过几个维度来理解它的边界：

计算成本：o3 在高算力场景下才能达到超越人类的表现，这意味着它的部署和应用将受到显著的成本约束。
任务范围：虽然在抽象推理方面表现出色，但在一些看似简单的日常任务上仍会失误，显示出与人类智能的根本差异。
知识整合：o3 的强项在于从最基础的先验知识出发解决问题，而不是如 GPT 类模型一样依赖预训练数据来生成更直接的回答。

这种能力差异暗示着 AI 模型正在形成新的分工格局：

GPT 类模型：适合需要广泛知识支持的任务；部署成本相对较低；容错性较高的应用场景；面向大众市场的服务。
o 类模型：适合需要深度推理的特定任务；单次计算成本较高；要求高精度的关键场景；面向专业领域的应用。

这种分化不是优劣之分，而是功能的专门化。就像生物进化中的物种分化，不同类型的 AI 模型将在各自的生态位上发挥作用。

o3 的突破为我们展示了 AI 进化的一个可能方向：不是简单地扩大模型规模或增加训练数据，而是在基础认知能力上寻求突破。这个方向可能更接近于通用人工智能的本质——也就是 Chollet 讲到的“技能获取的效率”。

影响与预测

影响

2024 年见证了 AI 领域的显著分化。在这场你追我赶的竞争中，各大玩家逐渐找到了自己的位置：

OpenAI：继续扮演着“先锋者”的角色，推动研究前沿的突破，但在产品化和工业部署上显露短板。12 天马拉松式的发布既展示了其创新能力，也暴露了组织内部的问题。
Google：凭借强大的垂直整合能力，在模型、基础设施和开发者关系上都取得进展。从 Gemini 到 Veo，展现出全面追赶的态势。
Anthropic：专注于人才和安全研究，在模型能力和伦理框架上保持独特优势。
其他：xAI 以基础设施建设为重点，Meta 举起开源大旗，各自在不同维度上构建护城河。

这种差异化竞争不是偶然，而是 AI 技术走向成熟的必然结果。就像个人电脑和互联网的发展历程一样，技术的演进最终会带来市场的分层和专业化。

每一家厂商的模型列表上都有一长串名字，和软件不同，这些本应该是不同世代的模型在 2024 年的很长时间都多代并存。这种现象很可能会持续一段时间，其中一个重要的原因很可能是：模型的分化映射了人类的社会阶层。

当我们把模型的“智能”与人类智能相比的时候，就能理解，我们将会“雇佣”不同的模型来完成不同的工作。换句话说，在模型以 Agent / 数字劳动力的形态渗透进社会经济中时，Agent 之间也会出现分工：其底层运行的模型决定了它的“智能”，也就决定了它在分工中扮演什么样的角色，又能分配到多少资源——算力和数据。

按照 Chollet 的 Generalization 分层，GPT 类模型的泛化能力更像是 Local Generalization，因为它高度依赖于大量的 Priors 在预训练阶段的输入；而 o1 / o3 模型的泛化能力则达到了 Broad Generalization 的层面，因为它们能在很少的先验知识基础上进行推理。

从智力水平角度看，GPT 类模型很像是人类知识和经验的优等生，但它们在针对新问题的适应性上表现不佳，因此，它们可能在特定的任务空间上有广泛的应用，这些场景有一个特点，就是它的容错性要好，或者说犯错成本不高。之前的 AI = 1000 个实习生的比喻仍然适用。

而 o 系列模型则可能走另一条路线：它们可能在非常特殊的高价值场景中应用，虽然单个任务的计算成本很高，但它的预期收益更高——限定场景的应用也很有可能有利于安全事项。一种很有可能出现的情况是：o 系列模型可能利用它的“智能”来指挥一大堆 GPT 类模型，完成更加复杂的任务。在这个意义上，两类模型的能力是互补的：GPT 的知识结构更完整，o 系列模型的推理能力更强；前者成本更低，后者智能更强；后者很可能成为前者的“老板”，指挥后者干活。

新的社会分工不仅仅是人类与 AI 之间的竞争，也有 AI 与 AI 之间的竞争。不管这是不是一条通往 AGI 之路，模型带来的“智能”都将在社会分工的很多层面上占有重要位置。这不仅仅是对特定行业的影响，而是一次对社会分工的漫长改变。

预测

投资人 Tomasz Tunguz 发布了他的 2025 预测——同时也复盘了他的 2024 预测的得分：6.3 / 10 分。在十条预测中，和 AI 有关的有以下几条：

谷歌在人工智能领域继续崛起。他们在 OpenRouter 排名上从无名跃升至前 1 或 2 名。他们进一步提升了市场份额。Grok 受益于 Elon 在政府中的地位，成为 OpenAI 和 Anthropic 的有力竞争者。
整合是现代数据堆栈的主题。由于成本压力持续存在，买家希望在单一平台上实现标准化。该类别宣布的并购金额超过 30 亿美元。软件和数据工程团队继续融合。
语音成为人类的主要界面。随着语音模型被推向设备，其准确性/延迟令人震惊，人工智能。语音可以产生文本、图像和视频。为什么要打字？这是一代人永远不会学会在键盘上打字的开始。（这个很难评分！）
第一家年收入 1 亿美元、员工人数不超过 30 人的公司诞生。AI 原生产品与 AI 原生团队相结合，可产生令人难以置信的市值创造效率。
超大规模企业在数据中心的支出超过 1250 亿美元，因为 AI 竞赛刺激了对 GPU 的需求。博通是今年最热门的半导体股票。

每年发布预测，然后在第二年打分，是一个很好的实践。我也尝试写一些我的预测：

类 GPT 主流模型之间的差异进一步缩小，行业整合加速，token 成本继续降低，新商业模式侵蚀现有订阅收入。
类 o 前沿模型持续涌现，模型之间的分工体系越来越清晰。几千美元的单任务成本也将找到它的适用场景——比如：科研、金融和国防。
出现多个 Agent 生态系统，背后可能都有大厂支持，到 2025 年年底呈现胶着局面。
大型科技公司体现出更强的垂直整合能力，数据、场景和定制能力在技术和产品部署阶段发挥关键作用。
生成式 AI 和社交媒体将进一步融合，在内容的制作质量、成本和真实可信性之间找到平衡，合成内容（区别于纯生成内容）成为信息流的主要内容供给来源。
AI 眼镜等消费电子产品出现销量突破千万的爆款，但很可能是营销驱动大于产品 / 技术驱动。
非科技品牌宣称采纳 AI 在自己的产品或服务中，尽管这种采纳还很生硬，消费者也并不一定买单，但资本市场可能会认真对待。
出现一本关于 AGI 时代人类如何自我救赎的通俗指南，它将登上纽约时报畅销书榜单。

结语

2024 年的 AI 发展，特别是 o 系列模型推理能力的突破，为我们展示了一个更清晰的未来图景：AI 正在从单一的技术工具，演变为一个多层次、多维度的智能基础设施体系。这个体系不仅将改变技术的发展方向，还将重塑社会的组织方式。

差异化和多样化是这一年的主题，这些你追我赶的竞争既让人眼花缭乱，但也确实带来了更强大的模型能力。如我在之前写过的“这样就够了”，2024 年为 AI 的广泛部署奠定了坚实的基础，它将以“无面之网”的形式渗透到行业和消费者生活的方方面面，成为经济繁荣和社会建构的基础要素。

正如 Chollet 的理论框架所预示的，我们可能正在见证 AI 获得超出 next token prediction 层面的“智能”。这个转变不会在一夜之间完成，但方向已经越来越清晰。

一年后，再回来看今天做出的这些 2025 预测，不知道哪些会太激进，哪些会太保守。