02.03.25: AGI 的价格
“便宜,更便宜,最便宜。”
过去一周,AI 领域爆发了一场史无前例的价格战。DeepSeek 的 R1 模型以每百万 token 0.55 美元的输入成本、2.19 美元的输出成本,打破了行业定价的默契。OpenAI 迅速跟进,推出 o3-mini,虽然价格略高(输入 1.1 美元/百万 token,输出 4.4 美元),但已远低于市场预期。Google 的 Gemini 2.0 则选择暂时免费,像是在等待一个合适的出价时机。
要理解这场价格战背后的深意,我们需要从成本曲线说起,看清竞争格局的分化,理解信仰的分歧,最后思考什么才是正确的时机。
成本前沿曲线
过去一周,AI 领域爆发了激烈的价格战。DeepSeek 推出的 R1 模型凭借惊人性价比引发关注:输入成本为每百万 token 0.55 美元,输出成本 2.19 美元。而 OpenAI 新发布的 o3-mini 虽然比 R1 贵,但也以输入 1.1 美元/百万 token,输出 4.4 美元的价格出乎很多人的意料——毕竟这个价格比 GPT-4o 还要便宜,更不要说和 o1 相比。与此同时,Google 的 Gemini 2.0 Flash Thinking 仍处于免费使用阶段,尚未公布定价。
根据 Semianalysis 的研究,AI 领域的算法进步速度惊人。每年算法效率提升约 4 倍,这意味着要达到相同的能力,所需计算量每年减少 75%。Anthropic 的 CEO Dario 甚至认为,算法进步速度可能达到每年 10 倍。就推理定价而言,达到 GPT-3 水平的成本已经下降了 1200 倍。
到目前为止,我们看到这种模式的结果是,人工智能实验室花费了更多的绝对美元来获得更智能的产品。据估计,算法进步的速度为 每年 4 倍,这意味着每过一年,实现相同功能所需的计算量就会减少 4 倍。Anthropic 首席执行官 Dario 认为,算法进步速度更快,可以带来 10 倍的改进。就 GPT-3 质量的推理定价而言,成本下降了 1200 倍。
在调查 GPT-4 的成本时,我们发现成本也有类似的下降,尽管在曲线的早期阶段。而成本随时间差异的减小可以用不再像上图那样保持能力不变来解释。在这种情况下,我们看到算法的改进和优化使成本降低了 10 倍并且能力提高了。

@indigo11 在 X 上解释 道:
AI 模型的商业化进程很可能出现类似芯片产业的“前沿与追随”并存格局:“前沿模型” 依靠新一代推理能力赚取高额利润;“追随模型” 则以相对较低价格抢占中低端或更多场景市场;双方都持续增长对算力(GPU 等硬件)的需求,进一步刺激芯片企业的发展。
这么看来,o3-mini 的定价更像是一个“跟随模型”,而真正的“前沿模型”还要等到 4-6 周后发布的 o3 才能看到。
Latent Space 的分析显示,OpenAI 最近对 o1-mini 进行了 63%(2.7 倍)的降价,o3-mini 的定价与之持平。然而,这个降幅远未达到与 DeepSeek R1/v3 价格曲线匹配所需的 25 倍。
从下图可以看到, 2025 年 1 月,在 Deepseek 的 V3 和 R1 两个模型推动下,成本前沿曲线向右移动,也就是说,获得同等智能水平的成本持续下降,这个结论和 SemiAnalysis 得到的类似。唯一的不同是,两者采用的基准测试不同,我将在后文中再来回顾基准测试的问题。

Latent Space 的文章发表在 o3-mini 正式发布之前,但他们很明智的预测了推理模型成本的大幅下降。但他们未能预测到的,是 o3-mini 大幅提到的输出速度。这不仅仅大大超出了 o1 时代的那种“思考几秒”才能得到结果的范式,也大大超出了很多尺寸较小的模型的输出速度。成本、速度、智能水平几个因素叠加,有力的拓宽了推理模型的应用场景。
竞争显然加剧了,但这场赛跑的终点却不一定是所有人想的那样是 AGI。
竞争分化
每一个新模型发布之前,有一项重要的工作就是进行基准测试,并将测试结果以模型卡(Model Card)的形式作为模型性能的表示放到发布公告中。
在本文开头部分提到的两个性能 - 成本曲线,实际上采取了完全不同的两种基准测试来衡量模型能力。
SemiAnalysis 采用的 MMLU 最早发布于 2021 年,它是 "Massive Multitask Language Understanding" 的缩写,用于评估模型在多任务语言理解能力,包含了来自不同领域的任务和问题,涵盖了从小学水平到专业水平的知识,涉及科学、人文、数学等多个学科。由于模型能力的快速提升,这个测试已经出现“饱和”的情况:很多模型都可以达到很高的分数。2024 年,MMLU Pro 发布,提升了基准测试的难度,以更好的评估模型能力。类似的基准测试还包括上面提到的 GPQA (Google‑Proof Q&A Benchmark) 以及 HLE (Human's Last Exam)、MATH、HumanEval 和在 o3 发布时备受关注的 ARC AGI 等。
Latent Space 则采用了 LMSys Elo。这是一个基于社区用户投票的众包形式进行的基准测试。在这个“竞技场”中,用户可以并排与两个匿名模型聊天,并投票选出哪一个更好。这种众包数据收集方式被认为更接近于人类在现实中使用 AI 模型的方式。然而,这些排名受到社会因素的影响,例如:用户不可避免的会偏好与他本人观点一致的回应。这些误差即便在引入了用模型做裁判(LLMs as Judges)的方法也难以避免。因此,类似 MMLU 和 GPQA 的评估方法仍是业界主要关注的对象。
无论哪一种评估方法,都不可避免的出现偏差,从而让模型能力的真实情况更令人迷惑。但更重要的问题在于,业界没有形成如何评估模型通用能力的共识,上述提到的基准测试大部分都偏重于测试一种能力,有点像是专业考试。特别是在数学和编码能力方面,已经成为近来推理模型重点突破和竞争的方向。在 Deepseek R1 和 OpenAI o3-mini 的模型卡上,业界最关注的也是相关基准测试的分数。
原因可能有两个:一是这些领域的测试相对客观和标准化,二是这些领域更可能代表“智能”的进化,模型在这些能力上的进步可能带来它自我迭代能力的觉醒。
但是,数学好,能写代码,并不能代表 AGI 中的“G”——通用性。一个典型的例子正是“务实派”所关心的 Agent 解决问题的能力。在现实世界中,大量任务的评估实际上并不是客观的,也并不能通过数学或编码能力来推导。简单的购买新年礼物、做旅行计划等生活场景,都很可能需要主观评估,而这些是目前的基准测试未能考虑的。
然而,基准测试是模型研发的风向标。基准测试很可能在无意中引导了模型走向在特定领域的竞争分化。
以刚刚发布的 o3-mini 为例。这个模型在多个基准测试中跑赢发布于数月之前的 Claude 3.5 Sonnet。但在实际使用中,人们却发现,在编码、创意写作等多个场景下,Sonnet 仍更能满足人类需求,Cursor 团队也在 推文 中表示更偏好 Sonnet。一种简单的描述是:o3-mini 的代码更像一个纯粹的理科生,简单干脆,但缺少一点灵性。而 Sonnet 则表现出更好的通用能力,能够更平衡的考虑多种不同维度,产生更令人满意的结果。
然而,o3-mini 在成本和性能上比 Sonnet 更优,这当然可能是受到了 R1 的竞争影响,但这可能意味着,o3-mini 这样的模型更可能沿着杰文斯悖论的叙事快速拓展使用场景,但同时,也丧失了作为“前沿模型”赚取高利润的可能。
另一个例子是几乎在同时间发布的 Mistral Small 3,主打的就是在 GPT-4o mini 相仿的性能上,速度更快,成本更低。

上图来自 Mistral 官方放出的模型能力(MMLU-Pro)和输出速度的对比图,越是在图的左上方,模型能力越强,输出速度越快。在 MMLU-Pro 官方给出的 排行榜 上,Mistral Small 3 的分数大概能排在 20 几名。在实际使用中,对一篇中等长度的文章进行总结,仅仅需要 2 分钱人民币,仅需要 1-2 秒即可返回完整结果。
开源和蒸馏无疑会加速模型成本下降的速度,它牺牲了模型获得通用智能的可能性,但它更接地气,可以更好的扮演各类 Agent 的角色,在具体场景中解决具体的问题。而价格和成本一定是获得市场的关键要素。两年前,我就和彼时还担任知乎 CTO 的面壁智能 CEO 李大海讲:面壁可以做模型界的“拼多多”,这个称号现在被 Deepseek 拿走了,但这个判断就是基于人性中对价格敏感度的理解,依照这个逻辑,杰文斯悖论上并不令人意外。
信仰分歧
我在前一篇文章中说,AGI 是一种信仰。这就意味着并不是所有人都坚定的相信这个信仰。在“星际之门”这样的宏大叙事下,这个信仰被赋予了超越技术的多重意味,其中当然有朴素的理想主义,但也一定有资本和政治利益在其中。
我做了一些简单的搜索,看看科技巨头们对 AGI 的态度到底如何,结果让我自己也有点吃惊,他们对 AGI 信仰的看法是明显分化的:
一派是信仰派,以 OpenAI、Anthropic 和英伟达(5 年内实现)为代表,Elon Musk 也表现得更激进激进(2 年内)。微软的 Satya Nadella 则显得有点摇摆,特别是在最近的“星际之门”发布后以及财报上。
另一派则是务实派,以 Apple(基本未在公开场合发表看法)、Meta(关注投资回报)、Amazon(马拉松的前三步)、Alphabet(AI 进展将变得更困难)、Salesforce 的 Marc Benioff(AGI 尚未到来)为代表。暧昧的 Microsoft 也可以算在务实派里,毕竟 Satya Nadella 最早讲出了 LLMs are becoming commodity 这样的话。这些在位者更偏爱的词汇是 Agentic AI,因为后者更可能在短期看到回报。
不难理解,在“信仰派”中,有 OpenAI 这样的创业公司,也有卖铲子的 Nvidia,还有 Musk 这样的狂人,这些人都需要不断把故事讲大,创造焦虑和竞争,才能支撑更大的资本投入。我相信,这并不是一个完整的阴谋论叙事,但其中有真有假,存在空中楼阁的成分。
务实派则很现实,他们在这个阶段需要每年投入数百亿的真金白银。这是一个二难选择:投入则意味着当下的业绩压力,不投入则担心上不了未来的牌桌。Amazon、Microsoft 和 Google 三家都有自己云计算业务,Meta 作为一家纯粹的消费互联网公司,也投入了体量相当的资本支出,笃定自己的变现能力可以在未来产生足够的收益。Apple 的态度保守而暧昧。Salesforce 作为 SaaS 的龙头企业,拥有庞大的客户群,自然希望通过 Agents 收到更多订阅费用。
从资本市场角度看,信仰派的估值都很高,特别是 Tesla,股价和业务基本面几乎毫不相干;而务实派的估值则相对较低——虽然也有一定的泡沫因素在,但相对这些公司的增长而言,还可以理解。这些公司基本都建立了比较明确的将模型能力转化为现金流的商业模式。
R1 和 o3-mini 的定价和性能是务实派所希望看到的,尚未公布的 Gemini 2 推理模型的价格也可能处于一个可比的区间内。“追随模型”在更低的成本上,每次替代原有工作流程的 20%,而非对现有劳动力市场产生结构性替代,在部署中遇到的障碍会更少;边际改善的效率提升,而不是天降奇兵式的颠覆和替代,更可能产生良好的回报。
对务实派而言,以低成本为优先要素的竞争分化则意味着能在更短的时间内找到应用场景,也就能为资本支出找到回报的路径。
价格战打不出 AGI,对于信仰派而言,还需要为 AGI 寻找新的叙事逻辑。
大国竞争叙事
当星际之门计划发布的时候,人们有些惊讶,为什么 OpenAI 出现了,但 Microsoft 却没有出现,同时,Nvidia 的 Jensen Huang 却出现在中国。
在 Deepseek R1 发布后,Anthropic 的创始人和 CEO Dario Amodei 很快撰文呼吁针对中国进行更强硬的技术出口管制。同期,美国的云计算平台和推理服务商开始上线部署在美国数据中心的 R1 服务,Perplexity、Cursor、Raycast 等 AI 应用也开始上线“数据不会发给中国”的 R1 模型。
在中国国内,Deepseek 饱受 DoS 攻击之苦,整个春节期间,官方服务基本都无法正常使用。直到推理加速服务商硅基流动上线了基于华为芯片的 R1 服务,国内才有了可以“满血”使用的 Deepseek R1 API。这个消息也被 Marc Andreessen 看到,在 X 上转发了相关推文,就在几天之前,他标志性的把 R1 的发布比喻成 AI 的 Sputnik 时刻。
在大大小小的行业群、社交媒体上,AI 的主流叙事快速转向为中美之间的力量抗衡。对于 AGI 的信仰派而言,这无疑是催动下一轮资本支出的好故事。故事的主线不再是如何(更快更好的)达到 AGI,而是如何不要落后于对手,甚至是如何阻碍对手。
这种政治叙事下的竞争和市场机制下的竞争完全不同。市场机制的核心是通过价格信号传递供需关系,进行良性的优胜劣汰。而这种猜疑链下的竞争则不顾供需,只是大力出奇迹。在这样的背景之下,星际之门计划中 Microsoft 的态度就很容易理解——Microsoft 的暧昧态度意味着 Satya Nadella 的内心住着一个务实派。
Trump 上台后的关税大棒也开始挥舞,在市场分歧加大的情况下,很容易莫名其妙带崩股市。这种砸盘的逻辑,或许是要让务实派们被迫成为信仰派。毕竟,宏大叙事只能有一个,在这样的叙事下,没人能打自己的小算盘。
贸易政策,极有可能成为超越货币政策的“看得见的手”,左右整个 AI 叙事的风向。
正确的时机
2000 年 6 月,距离 NASDAQ 的史诗性崩盘还有几个月时间,纽约时报的专栏作家 Alex Berenson 以 Rapid Growth Makes Cisco A New Leader 为题,写了一篇短文。开头这样写道:
在股市永无休止的马戏团中,任何时候,都有一家公司站在聚光灯下。它可能不是世界上最大的公司,也不是最赚钱的公司,但不知何故,它既反映了市场的整体走势,又引领了市场的整体走势。
行文中,他努力平衡自己的语气,尽量不要透露一丝倾向,但毫无疑问,在 3 月出现过一次下跌之后,人们都开始谨慎起来。
2025 年的 Nvidia 与 2000 年的 Cisco 有很多相似之处。
在 Deepseek R1 风波后,看空 Nvidia 的声音不绝于耳。模型混战,价格竞争,行业很可能出现“微笑曲线”的情形:价值捕获集中在最上游和最下游,而 Nvidia 的高性能芯片以及专有软件面临被绕开的风险。
Microsoft 前高管 Steven Sinofsky 在文章 DeepSeek Has Been Inevitable and Here's Why (History Tells Us) 中用 AT&T 与思科的历史案例来警示当前的 AI 芯片市场。就像 AT&T 低估了基于 IP 的网络技术一样,当前市场可能也在低估替代技术的潜力。
共同基金 Harding Loevner 在 2023 - 2024 年做了一系列的基本面分析,用很简洁的行业分析手段,指出了 Nvidia 面临的竞争格局:
- 客户集中度高,主要客户都具备向后整合能力
- 亚马逊、谷歌和微软都在开发定制芯片
- AI 基础设施支出增速放缓后,市场将寻求更经济的替代方案
- 价值可能从硬件转向软件和服务层
尽管 Nvidia 的估值比 Cisco 的巅峰时期(2000 年 3 月,Cisco 的市盈率为 201 倍)还低了许多,在 2024 年第一季度,这家基金将持仓多年的 Nvidia 股票平仓,转而投资行业下游的 Microsoft。到目前来看,这个平仓的时机似乎并不明智。
让我来分享一个发生在 2000 年代的投资故事,帮助我们理解关于时机的问题。
1995 年末,37 岁的 Jeff Vinik,作为规模达 530 亿美元的富达麦哲伦基金(Fidelity Magellan Fund)的掌舵人,看到了一些让他不安的迹象。科技板块开始呈现出泡沫化的特征,让他想起了金融史上那些投机泡沫的案例。当其他人还在科技股上涨的节奏中欢快起舞时,Vinik 做出了一个大胆的决定——这个决定最终定义了他的职业生涯,只是并非以他期待的方式。
在短短两个月内,他将麦哲伦基金的科技股持仓从 43% 砍到不到 25%。到了 1996 年春天,这个比例进一步降至惊人的 3.5%。取而代之的是,他重仓了当时被认为是最无聊的投资品种:国债和现金。他的理由?他认为“未来一两年内”债券的表现会优于股票。
这个决定不仅仅是战术调整,它简直是对 90 年代牛市三大信条的亵渎:
- 长期来看,股票永远战胜债券
- 不要试图择时
- 买入好公司并长期持有
市场的反应又快又狠。利率上升,重创了他的国债仓位。与此同时,科技股继续着疯狂的上涨。当麦哲伦基金的三年收益率跌破标普 500 时,Vinik 的命运就已注定。他很快就主动离职了,成为了给所有基金经理的警示:别对抗市场趋势,即使你认为它是错的。
这个故事最具讽刺意味的转折是:Vinik 是对的,而且是完全正确的。如果投资者在 1996 年跟随他的策略,就能避开 2000 年初的科技股崩盘。在接下来的七年里,他那个“时机不当”的转向债券的决定,实际上跑赢了标普 500。
在离开 Fidelity 后,Vinik 成立了自己的对冲基金,在短短四年时间里,他为投资者赚取了超过 5 倍的的回报。
在 2000 年泡沫破裂的声响中,Vinik 宣布退休。
Vinik 的故事在今天显然颇具现实意义。它提出了一些令人不安的问题:我们是否正处在类似的非理性繁荣时期?
更重要的是,在一个“太早或太晚等同于错误”的世界里,我们该如何平衡信仰与时机?
我们会有足够的时间来证明自己是对的吗?
本期阅读推荐 Links + Notes 包含以下内容:
- 对话 Daloopa CTO Jeremy Huang: 创业团队如何通过大量客户访谈找到产品市场匹配,以及在金融科技领域打造可信赖的 AI 产品的经验分享。
- The Agent Reasoning Interface: 前 Anthropic/OpenAI 工程师 Karina Nguyen 深入解析 AI 模型评估的难点,揭示了基准测试背后的复杂性和局限性。
- The Law of Displacement Speed: Scott Belsky 提出“替代速度定律”,分析了当应用能快速替代彼此时,最终会导向商品化或平台级替代的现象。
- DeepSeek Has Been Inevitable: 前微软高管 Steven Sinofsky 通过回顾互联网泡沫时期的经验,解释为什么像 DeepSeek 这样的新玩家能够挑战现有巨头。
- 莫尼什·帕伯莱:投资前你要弄清楚的两个问题: 对科技股估值的简单理解。
对话 Daloopa CTO Jeremy Huang: 融资 4 千万美金,如何打造红遍华尔街的 AI 金融产品
这集播客访谈中,OnBoard! 的主播 Monica 采访了 Daloopa 的联合创始人和 CTO Jeremy Huang。访谈以英文进行,谈到了几个关键问题,整理如下。
1. 为什么创业团队要做大量的客户访谈?
Jeremy 强调,创业初期最大的风险不是技术风险,而是市场风险——你可能在为错误的客户群体开发错误的产品。他建议创始团队在工作日的 9-5 时间都应该用来和客户交谈,而不是写代码。
他特别强调了这一点:
For most startups today, the real risk is not technical risk. Unless you're building rockets or something, if you're just building software startups, the real risk is not technical. The real risk is you're building the wrong thing or going after the wrong customer or less optimal customers... Most companies fail because they cannot find the right market for their product, not because they cannot implement a specific feature.
对于当今大多数初创公司而言,真正的风险不是技术风险。除非你正在制造火箭之类的东西,否则如果你只是在创建软件初创公司,真正的风险不是技术风险。真正的风险是你正在制造错误的东西,或者追逐错误的客户或不太理想的客户……大多数公司失败是因为他们无法为其产品找到合适的市场,而不是因为他们无法实现特定的功能。
即使创始团队中有来自目标行业的人,也不能跳过大量客户访谈的步骤。Jeremy 分享了他们的教训:
Even if you're ICP (Ideal Customer Profile), ICP is not a static concept - it's a spectrum. You can be ICP but end up in the 95th percentile where you care about certain features a lot, but the median ICP cares about something slightly different. At the low end, the 30th percentile cares about something entirely different.
即使你是 ICP(理想客户画像),ICP 也不是一个静态概念 - 它是一个范围。你可能是 ICP,但最终处于第 95 个百分位,你非常关心某些功能,但中位 ICP 关心的是略有不同的东西。在低端,第 30 个百分位关心的是完全不同的东西。
2. 金融行业的客户最看重什么?
金融行业最看重的是信任和准确性。Jeremy 解释说,即使有 Bloomberg 这样的工具,分析师们仍然手动复制粘贴数据,就是因为他们需要确保数据的可靠性。
关于这一点,他举例说:
Users typically don't trust Bloomberg's data because when you look at data in the Bloomberg terminal, it's just a number - you don't know where it comes from. That gives them anxiety about trusting the data and what if their boss finds out... We call it the auditability feature - we put all the data in Excel and allow them to audit every single number directly in the source document. If they're not sure about data, they can click into that number and check the source filing to feel comfortable.
用户通常不信任彭博的数据,因为当你在彭博终端上查看数据时,它只是一个数字——你不知道它来自哪里。这让他们对数据的信任感到焦虑,如果他们的老板发现了怎么办……我们称之为可审计性功能——我们将所有数据都放在 Excel 中,并允许他们直接在源文档中审计每个数字。如果他们不确定数据,他们可以点击该数字并检查源文件以感到放心。
3. 建立 go-to-market 特别是最初的销售团队有什么经验心得?
Jeremy 强调在产品市场匹配 (PMF) 之前不要过早扩张销售团队。他建议:
- 创始人应该亲自完成第一个 100 万美元的销售
- 确保这些收入是来自可重复的客户群,而不是咨询类收入
- 然后雇佣 1-2 个销售来实现第二个、第三个 100 万
- 最后才考虑雇佣销售主管来扩张团队
他特别警告过早扩张销售团队的风险:
A common mistake for B2B SaaS companies is when they raise money and see signs of product-market fit, they start hiring a sales team. If they're not careful, it's easy to prematurely scale the sales team. Then what happens is when you have too many sales people, they realize the product isn't selling... The second mistake compounds when the executive team starts thinking "maybe it's not the product's problem, it's the sales team's problem."
B2B SaaS 公司常犯的一个错误是,当他们筹集到资金并看到产品与市场契合的迹象时,他们就开始招聘销售团队。如果他们不小心,很容易过早地扩大销售团队的规模。然后会发生什么呢?当你有太多的销售人员时,他们意识到产品卖不出去……第二个错误是,当高管团队开始认为“也许这不是产品的问题,而是销售团队的问题”时,就会加剧。
4. AI 中还有什么机会未被挖掘?
Jeremy 认为,最大的机会在于 AI 和人工操作的结合点:
If a problem can be solved with pure AI, you'll probably have a lot of competition because somebody will figure it out better than anybody else and that company will take the whole market. If a problem can be solved by pure humans, that's not a very good business - you're basically running a service-based business. But if you find some sweet spot in between where you have a lot of AI but also humans, where the human component improves the AI and AI makes the humans more scalable, combined you can be very competitive in the market.
如果一个问题可以用纯人工智能解决,那么你可能会面临很多竞争,因为有人会比其他人更好地解决问题,而这家公司将占领整个市场。如果一个问题可以纯靠人类解决,那么这不是一个好生意——你基本上是在经营一家以服务为基础的企业。但如果你找到一个最佳平衡点,既有大量人工智能,也有人类,人类组件可以改进人工智能,人工智能使人类更具可扩展性,那么你就可以在市场上非常有竞争力。
具体领域他提到:
- 任何涉及大量阅读和重复性工作的领域,如法律、医疗等
- 监管合规相关的工作
- 需要处理大量文档的工作
但他也强调,找到机会只是第一步,真正的挑战在于执行:
The tricky part is I think a lot of opportunities are easy to think of, but it really comes down to the nuances. It's hard to get right. A lot of ideas are easy to think of but hard to execute. That's where a good entrepreneur should come in and come up with something truly impactful.
棘手的是,我认为很多机会很容易想到,但实际上还是要归结为细微差别。很难做到正确。很多想法很容易想到,但很难执行。这正是优秀企业家应该发挥作用并想出真正有影响力的东西的地方。
The Agent Reasoning Interface: o1/o3, Claude 3, ChatGPT Canvas, Tasks, and Operator — with Karina Nguyen of OpenAI
基准测试这项工作看起来简单,但在实操中问题很多。曾经在 Anthropic 和 OpenAI 工作过的 Karina Nguyen 在这集播客访谈中抱怨道:
One of the things we've learned, and I personally learned, is that like any evaluation, some evaluations are very high variance, and GPQAs happen to be a huge high variance evaluation. So, one thing we did was run the average of five and take the average. The hardest thing about the model cards is that none of the numbers are apples to apples. I actually need to go back to the GPT-4 model card and read the appendix to make sure the settings are the same as the ones you're running too. So, it's never an apples-to-apples comparison.
我们学到的一件事,也是我个人学到的,就是像任何评估一样,有些评估的方差非常大,而 GPQA 恰好是一个方差巨大的评估。所以,我们做的一件事就是计算五个的平均值并取平均值。模型卡最难的地方在于,没有一个数字是同类的。我实际上需要回到 GPT-4 模型卡并阅读附录,以确保设置与你正在运行的设置相同。所以,这永远不是同类比较。
下面是 Nguyen 在 X 上发表的 Claude 3 的基准测试结果,可以看到,评估项目繁多,而不同的模型采用的评估项目也不尽相同。

这集访谈中还讲到了 Nguyen 在 OpenAI 的 Canvas 和 Task 等项目上的工作。给我的一个启发是:基准测试上的刷分行为可能会引导模型研究的方向,而这些评估方法或多或少都存在一些偏差,很大程度上,它们都会侧重某方面的能力,而不能完全反映用户在解决实际问题时的场景。
The Law of Displacement Speed & Leveraging Artifacts of Humanity
本文是 Scott Belsky 的新文章。他最近宣布离开 Adobe,加入风头正劲的电影公司 A24 担任合伙人。
他在本文中提出了一个“替代速度定律”(The Law of Displacement Speed),对于我们理解当下的 AI 模型竞赛很有益处。
这个定律的基本内容是:
When applications or services are able to rapidly displace each other at a rapid and regular cadence, the result is either commoditization or platform-level displacement.
当应用程序或服务能够以快速而有规律的节奏迅速取代彼此时,其结果要么是商品化,要么是平台级替代。
Belsky 从 iOS App Store 观察到了这样的现象:
These extinction waves continued on a regular cycle for years as the historic platform shift to mobile continued. But another pattern I only noticed in retrospect is that these apps were also frequently displaced by each other even before the OS-level apps entered the picture. As I look back at my notes and old TechCrunch articles, these startups were not only spawned in waves, but also kept one-upping each other rapidly with every release. There were constant comparisons — and “winners” declared (for a few weeks at least) as they competed with better features and interfaces. Then, usually, an OS-level app or feature emerged that, while often simpler, displaced them all. The speed of displacement was a signal of two likely outcomes: either a path to commoditization based on the sheer speed of innovation and displacement, or a platform-level innovation resulting in displacement.
随着平台向移动端的历史性转变持续多年,这些消亡浪潮以规律的周期持续着。但我回想起来才注意到的另一个模式是,在操作系统级应用程序出现之前,这些应用程序也经常被彼此取代。当我回顾我的笔记和旧的 TechCrunch 文章时,我发现这些初创公司不仅一波波地涌现,而且每次发布时都在迅速超越对方。它们不断进行比较——并且“赢家”被宣布(至少持续了几周),因为它们以更好的功能和界面竞争。然后,通常会出现一个操作系统级的应用程序或功能,虽然通常更简单,但却取代了它们。取代的速度预示着两种可能的结果:要么是基于创新和取代的绝对速度而走上商品化的道路,要么是导致替代性的平台级创新。
对于 AI,他提出的两个可能性是:
- 些大规模通用模型将商品化,因为越来越多的顶级用例(我们要求 LLM 驱动的服务)不再需要市场上最好和最昂贵的选择;
- 不断增长的 AI 模型市场所实现的功能最终将由平台级服务执行,例如消费设备的操作系统或控制企业每个功能的平台。
他提出了四个预测:
- 界面 > 数据 > 模型:“界面”和“数据”层将进一步区分市场领导者,而“模型”层则日益商品化并被推向边缘。
- 客户同理心卷土重来。企业将超越“最佳一代 AI 模型”的激烈竞争,通过丰富而深入的类别特定功能管道,彻底改变日常消费者和企业工作流程,以满足专业需求的长尾。
- 世界一流的自然语言人工智能免费向消费者开放。
- 赢家将是主要的消费平台操作系统(Apple、Windows、Google)和支持企业中每项功能的主要平台。
文章中还讲到为什么内容真实性(以人类角度定义)将更加重要,而其衍生物可能是一种证明内容真实性的凭证。
DeepSeek Has Been Inevitable and Here's Why (History Tells Us)
针对上周爆火的 The Short Case for Nvidia Stock 一文,Microsoft 前高管 Steven Sinofsky 写了一篇长文,其中回顾了在 2000 年互联网泡沫期间,Microsoft 和 AT&T 讨论建立“信息高速公路”(这是一个多么有年代感的词!)时的情景:
The example that keeps running through my mind is how ATT looked at the internet. In all the meetings we had with ATT about building the “information superhighway” they were completely convinced of two things. First, the internet technologies being shown were toys—they were missing all the key features such as being connection based or having QoS (quality of service).
Second, they were convinced that the right way to build the internet was to take their phone network at scale it up. Add more hardware and more protocols and a lot more wires and equipment to deliver on reliability, QoS, and so on. They weren’t alone. Europe was busy building out internet connectivity with ISDN over their telco networks. ATT loved this because it took huge capital and relied on their existing infrastructure.
They were completely wrong. Cisco came along and delivered all those things on the IP-based network using toy software like DNS. Other toys like HTTP and HTML layered on top. Then came Apache, Linux, and a lot of browsers. Not only did the initial infrastructure prove to be the least interesting part, but it was also drawn into a scale out approach by a completely different player that had previously mostly served weird university computing infrastructure. Cisco did not have tens of billions of dollars nor did Netscape nor did CERN. They used what they could to deliver the information superhighway. The rest is history.
我一直想着的例子是 ATT 如何看待互联网。在我们与 ATT 就建设“信息高速公路”进行的所有会议中,他们完全相信两件事。首先,所展示的互联网技术都是玩具——它们缺少所有关键功能,例如基于连接或具有 QoS(服务质量)。
其次,他们确信构建互联网的正确方法是扩大他们的电话网络。添加更多硬件、更多协议以及更多线路和设备以实现可靠性、QoS 等。他们并不孤单。欧洲正忙于通过其电信网络建立 ISDN 互联网连接。ATT 喜欢这一点,因为它需要大量资金并依赖于他们现有的基础设施。
他们完全错了。思科出现了,并使用 DNS 等玩具软件在基于 IP 的网络上提供了所有这些东西。其他玩具如 HTTP 和 HTML 则位于其上层。然后是 Apache、Linux 和大量浏览器。最初的基础设施不仅被证明是最无趣的部分,而且它还被一个完全不同的参与者引入了横向扩展方法,而这个参与者之前主要为奇怪的大学计算基础设施提供服务。思科、Netscape 和 CERN 都没有数百亿美元。他们利用了他们所能利用的一切来提供信息高速公路。剩下的就是历史了。
作者讲到的“玩具”技术是一个形象的比喻,但它一再出现在科技发展史上。在它们成为主流方案之前,我们根本不知道结局会在它们身上出现。
莫尼什·帕伯莱:投资前你要弄清楚的两个问题
本文来自公众号“投资漫想”,是一篇价值投资者莫尼什·帕伯莱(Mohnish Pabrai)在“青年总裁协会”(YPO)印度德里分会的一次交流的问答。
这里仅作部分摘录,不作为投资建议。
关于如何理解科技股的估值:
他们看的任何项目,都是从“希望在两年或三年内收回本金”的视角来看的。如果两年就能回本,根据“72 法则”,年化回报率是 36%;如果是三年,年化回报率是 24%。都是很可观的回报。我持续观察他们做的各种投资和业务,他们很少犯错而且回报很高,因为如果没达到那样的标准,他们就绝不会把现金投进去。
(因此)无论你是投资科技企业、汽车旅馆、房地产,还是其他什么生意,都没关系。归根结底的问题在于,我投出去多少,以及我需要多长时间才能收回这笔钱。在目前环境下,我们谈到一些科技企业时都抱有大量乐观和狂热的情绪(a lot of euphoria)。通常来说,当进入狂热期时,你不会获得那种 2 年、3 年或 4 年就(回本)的回报。
关于量化投资:
世界上99%的事情都是如此,我们只需略过就好。至于量子投资,我不必为此浪费脑细胞,我转头去找其他机会(we move on)。如果别人能从中大赚一笔,那完全没问题。
关于美股:
如果我在美国,并且不得不成为指数投资者的话,我会选择等权重的标普500指数,而不是普通的标普500指数。在等权重的标普500指数中,每家企业的权重为 0.2%。这样你就可以摆脱那些科技股的狂热。