03.24.25: 给 AI 打补丁
在 Meta 的代码库中,有一个并不显眼的 & 符号。
一位工程师在广告服务系统的热点调用路径中发现了一个数组拷贝,使用了 C++ 中的一个常见的模式:auto 关键字。他在 auto 后面加上一个 & 符号,把值拷贝改成引用传递,提交了代码。
这一个 & 符号的修改,为 Meta 节省了 15,000 台服务器。
一字之优,十年之功,既是人类的知识和经验,也是勇气与直觉。
问题是:我们能期待 AI 交付这样的结果吗?
一个合理的期待
自学成才的统计学家 George Box 讲过:所有模型都是错的,但有一些是有用的(All models are wrong, some are useful)。这句话就是在讲,真实世界的复杂性和模糊性难以通过模型还原。上周的 GTC 上,黄教主的“AI 工厂”经济学把一切都简化成了 token 的进和出,一条帕累托曲线,上面总能找到一种合适的模式,在算力和能源的限定下,找到规模产出和效率最优的结合点。
而真实世界中,问题的解决往往在于找到需要解决的问题本身。这不是“大海捞针”,也不是预测下一个 token,它没有既定路径,而是需要在浓雾掩盖的问题空间中构造出脚手架和瞭望台。
找出那个添加 & 符号的位置,是在 Meta 的 Strobelight 分析工具中发现的:
这位工程师转动了几个旋钮,调整了他的 Scuba 查询,碰巧注意到 Meta 最大的广告服务之一中一个特别热门的调用路径中有一个这样的副本。然后他打开代码编辑器,调查这个特定的向量副本是否是故意的……结果不是。
知道在哪里画线,要比画这条线,难一万倍,价值则不止一万倍。
强化学习(RL)能解决这个“知道在哪里画线”的问题吗?
看上去,这正是 RL 的擅长之处:在复杂环境中通过试错学习最优策略。理论上,我们可以构建一个以性能提升为奖励信号的 RL 系统,让它在代码库中探索可能的优化点。
但现实中的挑战在于:
- 首先,状态空间过于庞大。即使是中等规模的系统,可能的代码修改组合也是天文数字。Meta 的广告系统代码库可能有数百万行,从中找出一个关键的 & 符号位置,比下围棋的搜索空间还要大得多。
- 其次,奖励稀疏且延迟。每次代码修改都需要完整编译、部署和性能测试,这个周期可能长达数小时甚至数天。而 RL 算法在奖励稀疏的环境中表现不佳。
- 更重要的是安全边界问题。在生产系统中随机试错的代价极高。一个错误的修改可能导致系统崩溃或数据损坏,这在 AlphaGo 下错一步棋的世界里是无法想象的。
所以,RL 可能在受控环境中提升“知道在哪里画线”的能力,但距离解决实际生产系统中的优化问题,还有一段路。
知道和做到
知道和能做到之间存在巨大鸿沟。
看看今天的 AI 系统生成的结果:冗长、啰嗦,就像总是用“一方面,另一方面”找平衡的专家。它们可以解释 C++ 中 auto 关键字的所有用法,却很难在真实的复杂中识别出它带来的性能问题。
更常见的例子:用 Cursor 改 bug,一个小问题,Cursor Agent 能吭哧吭哧连续跑上好几分钟,直到把工具使用(tool use)的调用上限用完;看看修改的文件,很可能有两只手的手指头都数不完。对于我这种半路出家的 vibe coder,根本不敢点 Accept 接受修改。
随着系统复杂度上升,小问题会累积成大问题,在高抽象层级上的设计缺陷会在低层级上衍生出灾难。如果只能看到问题的局部,往往是越改越错,所谓“屎山”就是这么来的。
问题不在于知识,而在于环境感知与判断力。而在这些能力上,量变不一定能带来质变。
晚点最近的一篇文章描写了字节在 AI 面临的数据困境:
用户数量增长带来的新数据也有限。抖音内,只要用户还在上下刷,就会产生一组组数据供推荐算法优化;但豆包生成一段回复,只有极糟时,用户才有动力多点下按钮反馈。
能收集来数据,也不保证它们能让底层模型更聪明。“多数用户的问题高度重合,又没什么深度,没办法提高模型能力。” 上述前字节 AI 员工说。“比如代码方向,字节就会在内部找程序员写案例。”
移动互联网的经验在 AI 上不可复制,这似乎已经是个共识。“高频打低频”和用户规模构造的数据反馈在模型能力提升上失去了优势。“找程序员写案例”,这看起来很难规模化,但这些数据不可能在用户的简单点击中获得。
在前沿模型上竞争的 OpenAI 们,招募了成千上万的专业标注人员,包括程序员、法律专家和领域专家,针对核心推理能力收集高质量样本。从大众化数据转向精英化数据,与其让模型学习一百万个相似的问题,不如让它掌握一千个真正有挑战性的问题。
模型面临“奖励稀疏且延迟”的环境。在 Meta 这样的复杂系统中,一个优化的效果可能需要数天甚至数周才能完全评估。这不仅挑战了 RL 算法的基本假设,也让数据收集变得异常困难。如何构建能够模拟这种长期反馈的训练环境,成为了 AI 在系统优化领域面临的核心挑战。
安全边界问题更令人担忧:在实验室环境中,AI 可以自由探索、犯错和学习;但在生产系统中,一个错误的优化可能导致服务中断或数据损坏,造成数百万美元的损失。这种高风险环境与 AlphaGo 下错一步棋的世界有本质区别。
AI 需要的不仅是更多数据,更是更好的数据。不仅是更大的模型,更是能够在高风险、低反馈环境中安全决策的能力。
补丁与套壳
在《真正的 LLM Agent》中(原文: Actual LLM agents are coming. They will be trained)中,Pleias 创始人 Alexander Doria 强调:AI 智能体应依赖模型本身而非工作流,结合强化学习与推理能力,才能应对复杂任务。
模型即产品。
这篇文章也提到了 OpenAI 的 Deep Research 和 Manus,并把他们做了对比。
关于 OpenAI 的 Deep Research:
关于 DeepResearch,很多人存在误解,这种误解随着大量仿制版本(开源和闭源)的出现,变得更严重了。实际上,OpenAI 并非简单地在 O3 模型外面套了层壳,而是从零开始训练了一个全新的模型。
关于 Manus:
最近被热炒的 Manus AI 属于典型的「工作流」。我整个周末的测试都在不断验证着这种系统的根本性局限,而这些局限早在 AutoGPT 时代就已经显现出来。
Doria 认同 Anthropic 对智能体的定义:智能体能够动态地决定自己的执行流程和工具使用方式,自主掌控任务的完成过程。
这无意间给“套壳”反向下了一个定义:通过提示词预设工作流的应用,就是“套壳”应用,而不是“真正的智能体”。
More Intelligence, Less Structure——这句听上去和 Anthropic 的定义高度相似的话,实际上是 Manus 团队提出的。关于概念定义的争论永远都不会休止,工作流和“套壳”,更可能是阶段性的过渡形态,它们确实打开了 AI 应用的想象空间。
但是,今天的模型,智能并不可靠,幻觉带来谬误,RL 带来短视,缺少足够优质的上下文带来知识和记忆的缺失。Sam Altman 说,(模型出现幻觉时)没关系,你可以再点一次——但很多关键任务中,没有再试一次的机会。
McKinsey 访谈了一千多位企业相关人士,发现企业对 AI 不准确性的担忧正在逐年上升,而效能领先的企业往往更加关注 AI 风险,越来越多的企业采取行动以对抗这些负面风险。
一个形象的比喻就是:给 AI 打补丁。
AI 模型或许永远都存在这样那样的问题,需要“套壳”来让它更易用,需要“补丁”来让它更可靠。
“补丁”将以什么形式出现?有三个可能的方向:
- 专业判断增强工具。Meta 的工程师需要 Strobelight 这样的工具来发现性能异常点。未来的 AI 系统同样需要专门的工具来增强人类在关键决策点上的判断力。在代码分析中,这可能是能够理解系统全局行为并突出潜在优化点的辅助系统;在风险评估中,这可能是能够模拟各种边缘情况的预测工具。
- 结构化验证流程。正如 Sam Altman 所说,我们需要“让模型仅在对用户有利时产生幻觉”。这不是靠运气,而是靠精心设计的验证流程。在系统优化中,这意味着分阶段部署和回滚机制;在决策支持中,这意味着多渠道的事实核查和边界测试。
- 最佳人机分工模式。Meta 的案例证明,即使在 AI 时代,核心优化仍需要人类的直觉和责任感。未来的 AI 系统不是要取代这种直觉,而是放大它。这意味着在不同场景下,设计不同的人机协作模式:在创意领域给予 AI 更多自由,在关键系统中保持人类决策者的最终控制权。
这三个维度共同构成了 AI 时代必不可少的“补丁”——弥补 AI 在判断力、可靠性和安全性上的固有缺陷。
价值往往产生在边界上。模型存在局限,“套壳”和“补丁”就各有它们的价值:它们不仅解决了模型短期难以克服的局限,更可能是在长期中与模型共舞的机会。
Links + Notes
本周的 Links + Notes 推荐了 6 篇文章。
我写作的顺序是先写 Links + Notes,从过去一周的积攒的阅读中寻找灵感和线索,然后写开篇的文章。对于大部分读者而言,只读开篇的几千字已经是很大的阅读量了,但还是有少部分信息吞吐量比较大的读者,对 Links + Notes 情有独钟。
现在 AI 的很多公众号都在搬运海外的热门文章,我尽量避开那些最显然的来源,因为很可能大家已经在其它地方读过了。但有些文章的确比较重要,我还是会放进来,也多花一点时间,把其中重要的部分摘录进来,加上我的批注。
这很像是 learn in public 的行为展示:把这些文章看作是开篇文章的延展阅读,或是独立的灵感来源,都很恰当。
本周推荐的文章包括:
- Nvidia GTC:AI 工厂的帕累托前沿 - 黄仁勋在 GTC 大会上提出了 "AI 工厂 " 的概念,用经济学视角解释了为什么在规模(吞吐量)和效率(延迟)之间的权衡中,Nvidia 的解决方案最具竞争力。
- OpenAI 的消费科技转向 - Sam Altman 在接受采访时表示,五年后一个拥有 10 亿日活的目标网站比最先进的模型更有价值,揭示了 OpenAI 正在向消费科技公司转型。
- McKinsey:企业 AI 采用现状 - 全球企业 AI 采用率从 50% 跃升至 72%,但企业对 AI 的不准确性和 IP 侵权等风险的担忧也在上升。
- 颠覆的不同形态 - Benedict Evans 通过对比 Uber 和 Airbnb 的案例,展示了科技创新带来的颠覆程度可能大不相同。
- MrBeast:从创作者到商业帝国 - YouTube 第一网红的商业版图扩张:其巧克力品牌 Feastables 年收入达 2.5 亿美元,超过视频业务。
- 卡尼曼的最后选择 - 诺贝尔经济学奖得主、《思考,快与慢》作者丹尼尔·卡尼曼选择安乐死的背后故事,展现了这位决策理论大师的最后一个重要决定。
Nvidia GTC and ASICs, The Power Constraint, The Pareto Frontier
本周科技界最大的时间无疑是 Nvidia GTC。黄教主(Jensen Huang)的主题演讲备 受瞩目:他不仅仅需要为整个 AI 产业展示未来路线,还得向分析师们证明,Nvidia 并不担心 Deepseek 带来的“通缩”和 ASIC 的挑战。实际上,整个华尔街都担心,这场演讲会不会让摇摇欲坠的市场再雪上加霜。
Ben Thompson 告诉我们,这场演讲比去年的更精彩:教主把经济学课堂搬到了 San Jose McEnery 会议中心,他不仅仅回应了关于竞争的质疑,更重要的是,他提出了“AI 工厂”的比喻,让万亿美元规模的投资回报看起来既激动人心,又一目了然。
演讲中最重要的一副图:就是这张被 Thompson 称为是“帕累托曲线”的图:

- Y 轴是推理服务器可以处理的 token 数量;吞吐量越高,每个 token 的投资回报率就越高。你可以通过批处理来最大化吞吐量。
- X 轴是将 token 返回给单个用户的速度;这对于推理来说尤其紧迫,因为 token 生成是一个串行过程,这意味着最终答案所需的时间会随着生成的 token 数量线性增加。如果 token 越多意味着答案越好,那么你确实需要快速生成 token 才能获得可接受的用户体验。
Y 是规模,X 是效率。
所谓的“帕累托曲线”,就是说规模和体验(效率)很难兼得。
在 AI 走到推理(reasoning)模型这个阶段后:
- 动态工作负载需求:强调 AI 推理涉及两个截然不同的计算阶段——“预填充”(思考/推理)和“解码”(token 生成),每个阶段都有其独特的计算需求。
- 可配置性优势:不同工作负载需要截然不同的硬件配置。“你需要一个可编程架构,要尽可能具有同质可替代性,因为工作负载在整个前沿线上变化如此剧烈。”
用教主自己的话来解释:
Well, we’ve already established that if you want your AI to be smarter, you want to generate a whole bunch of tokens. Those tokens are reasoning tokens, consistency checking tokens, coming up with a whole bunch of ideas so they can select the best of those ideas tokens and so those tokens, it might be second guessing itself, “Is this the best work you could do?”, and so it talks to itself just like we talk to ourselves and so the more tokens you generate, the smarter your AI. But if you take too long to answer a question, the customer’s not going to come back, this is no different than web search. There is a real limit to how long it can take before it comes back with a smart answer, and so you have these two dimensions that you’re fighting against. You’re trying to generate a whole bunch of tokens, but you’re trying to do it as quickly as possible. Therefore, your token rate matters. So you want your tokens-per-second for that one user to be as fast as possible.
好吧,我们已经确定,如果你想让你的人工智能更聪明,你就需要生成一大堆令牌。这些令牌是推理令牌、一致性检查令牌,它们会想出一大堆想法,这样它们就可以从这些想法令牌中选出最好的,所以这些令牌可能会让它自我怀疑,“这是你能做的最好的工作吗?”,所以它会像我们自言自语一样自言自语,所以你生成的令牌越多,你的人工智能就越聪明。但如果你回答问题的时间太长,客户就不会再回来了,这与网络搜索没什么不同。它在给出一个聪明的答案之前需要多长时间是有实际限制的,所以你要与这两个维度作斗争。你试图生成一大堆令牌,但你试图尽可能快地完成。因此,你的令牌生成速率很重要。所以你希望你的每秒令牌数尽可能快地提供给那个用户。
教主提出了 AI factory(AI 工厂)的说法。好的工厂善于处理规模和体验的平衡问题:
No different for computer science, no different for AI factories that are generating tokens and so you have these two fundamental tensions. On the one hand, you would like the customer’s quality of service to be as good as possible, smart AIs that are super fast, on the other hand, you’re trying to get your data center to produce tokens for as many people as possible so you can maximize your revenues. The perfect answer is to the upper right. Ideally the shape of that curve is a square that you could generate very fast tokens-per-person up until the limits of the factory, but no factory can do that. And so it’s probably some curve and your goal is to maximize the area under the curve, the product of X and Y and the further you push out, more likely it means the better of a factory that you’re building.
计算机科学也是如此,生成代币的人工智能工厂也是如此,所以你就有这两个基本矛盾。一方面,你希望客户的服务质量尽可能好,智能人工智能要超级快;另一方面,你又想让你的数据中心为尽可能多的人生产代币,这样你就可以最大化你的收入。完美的答案就在右上方。理想情况下,该曲线的形状是一个正方形,你可以非常快速地为每个人生成代币,直到工厂的极限,但没有工厂可以做到这一点。所以它可能是一条曲线,你的目标是最大化曲线下的面积,即 X 和 Y 的乘积,你推得越远,你建造的工厂就越好。
而能够最好的平衡两者、不断推动帕累托最优的前沿曲线向右上方移动的解决方案正由 Nvidia 提供。
特别是 NVIDIA Dynamo,被教主称为“AI 工厂的操作系统”,它能管理跨 GPU 的复杂工作负载分配——这是 ASIC 所不具备的。NVIDIA 硬件和软件栈的紧密集成实现了工作负载分解和动态资源分配等功能,也是定制 ASIC 无法匹敌的。
Because remember, one big idea is that every single data center in the future will be power-limited, your revenues are power-limited. You could figure out what your revenues are going to be based on the power you have to work with. This is no different than many other industries and so we are now a power-limited industry, our revenues will associate with that. Well, based on that, you want to make sure you have the most energy-efficient compute architecture you can possibly get, then we scale up with NVLink 72.
因为请记住,一个重要的想法是,未来每个数据中心的功率都会受到限制,您的收入也会受到限制。您可以根据所使用的功率来确定您的收入。这与许多其他行业没有什么不同,因此我们现在是一个功率受限的行业,我们的收入将与此相关。那么,基于此,您要确保拥有尽可能节能的计算架构,然后我们使用 NVLink 72 进行扩展。
AI 工厂的产能以 token 计算,而算力的终极限制是能源。
同时优化吞吐量(每工厂每秒 token 数)和延迟(每用户每秒 token 数)直接影响 AI 工厂的盈利能力。为了最大化 AI 工厂的效能,世界需要的能在给定功率下生产最多 tokens 的解决方案(Blackwell + NVLink + Dynamo)。
在下面这张被 Thompson 认为是最关键的图中,教主把自家的三代芯片做了对比。性能就是领导力,新一代芯片 Rubin 将比 Hopper 的每功率产出(NVLink Flops per Watt)高出 900 倍。

An Interview with OpenAI CEO Sam Altman About Building a Consumer Tech Company
本文是 Ben Thompson 对 Sam Altman 的访谈(对,本周选了两篇 Thompson 的文章,是在难以割舍)。
访谈原文比较长,开头是一些回顾 Altman 早期创业和 YC 生涯的问答,略过。直到讲到这段:
Ben Thompson: 五年后什么会更有价值?一个每天有 10 亿活跃用户的目标网站,不必进行用户获取,还是最先进的模型?
Sam Altman: 我认为是 10 亿用户的网站。
What’s going to be more valuable in five years? A 1-billion daily active user destination site that doesn’t have to do customer acquisition, or the state-of-the-art model?
The 1-billion user site I think.
Sam Altman 表示认同 Satya 说的 models are getting commoditized,继续说:
在我认为存在战略优势的地方,就有建立巨型互联网公司的机会。我认为这应该是由几个不同的关键服务组合而成的。大概有三四个像 ChatGPT 这样量级的东西,你会想要购买一个包含所有这些服务的捆绑订阅。你会希望能够用你的个人 AI 登录,这个 AI 在你一生中、多年里已经了解了你,并能在其他服务中使用它。我认为,将会出现一些专为如何使用 AGI 而优化设计的全新设备类型。会有新型的网页浏览器,会有这一整套东西,有人将会围绕 AI 打造有价值的产品。所以这是其中之一。
还有另一件事,那就是推理堆栈,也就是如何实现最便宜、最充足的推理。芯片、数据中心、能源,这里会有一些有趣的金融工程要做,这些都包括在内。
然后第三件事是真正进行最好的研究并生产出最佳的模型。我认为这是价值的三大支柱,但除了最前沿的模型外,我认为大多数模型都会很快变成商品化。
Where I think there’s strategic edges, there’s building the giant Internet company. I think that should be a combination of several different key services. There’s probably three or four things on the order of ChatGPT, and you’ll want to buy one bundled subscription of all of those. You’ll want to be able to sign in with your personal AI that’s gotten to know you over your life, over your years to other services and use it there. There will be, I think, amazing new kinds of devices that are optimized for how you use an AGI. There will be new kinds of web browsers, there’ll be that whole cluster, someone is just going to build the valuable products around AI. So that’s one thing.
There’s another thing, which is the inference stack, so how you make the cheapest, most abundant inference. Chips, data centers, energy, there’ll be some interesting financial engineering to do, there’s all of that.
And then the third thing is there will be just actually doing the best research and producing the best models. I think that is the triumvirate of value, but most models except the very, very leading edge, I think will commoditize pretty quickly.
Ben Thompson 去年(2024 年)写过一篇题为 The Accidental Consumer 的文章,分析了 OpenAI 在战略上的转变。Sam Altman 自身的经历让他对领导一家拥有 10 亿量级的消费者科技公司建立了强大的信念,这种信念体现在他对潜在对挑战和压力的认知上:
但我也知道该怎么做,因为我已经指导过很多人,也看过很多。当我们推出 ChatGPT 时,每天都会有大量的用户,这会破坏我们的服务器。然后到了晚上,流量下降,每个人都说,“这完了,那只是一个病毒式传播的时刻”,然后第二天峰值会更高,然后下降,“这完了”。第二天峰值会更高,到第五天的时候,我就像,“哦,天哪,我知道会发生什么,这部电影我看过很多次了”。
But I also knew what to do because I had coached a lot of other people through it and watched a lot. When we put out ChatGPT, every day, there’d be a surge of users, it would break our servers. Then night time would come, it would fall, and everyone was like, “It’s over, that was just a viral moment”, and then the next day the peak would get higher, fall down, “It’s over”. Next day the peak would get higher, and by the fifth day I was like, “Oh man, I know what’s going to happen here, I’ve seen this movie a bunch of times”.
We do have to do a lot of things at once, that is a difficult part of, I think in many ways, yeah, I think one of the challenges I find most daunting about OpenAI is the number of things we have to execute on really well.
我们确实必须同时做很多事情,我认为在很多方面这都是一个困难的部分,是的,我认为我发现 OpenAI 最艰巨的挑战之一是我们必须非常好地执行很多事情。
同时,他很清楚,OpenAI 不仅仅需要一个 10 亿用户量级的产品,而是需要一个 10 亿用户量级的产品矩阵,从而构建消费者产品所必需的护城河。其中,统一 OpenAI 账号登录,并跟随账号绑定“记忆”,是这道护城河最关键的环节。
随身携带登录信息,也就是随身携带你的记忆、你是谁、你的偏好以及所有这类信息。
是的。
The carry around the sign-in, that’s carrying around your memory and who you are and your preferences and all that sort of thing.
Yeah.
访谈中还提到了关于商业模式(是否采用免费 + 传统广告)、开源(没有明确日期,但给出了肯定答复)、GPT-5(会比预想来的快)、监管和安全等问题。这里不做展开。
最后补充一个关于“幻觉”的话题,Sam Altman 这样讲道:
如果你想要确定性的东西,您应该使用数据库。这里很酷的一点是它可以很有创意,有时它并不能创造出您想要的东西。没关系,你再点一次。
好吧,你希望它在您想要的时候产生幻觉,而在你不想要的时候不产生幻觉。如果你问“告诉我这个关于科学的事实”,你不希望它成为幻觉。如果你问“给我写一个有创意的故事”,想要一些幻觉。我认为有趣的问题是,你如何让模型仅在对用户有利时产生幻觉?
If you want something deterministic, you should use a database. The cool thing here is that it can be creative and sometimes it doesn’t create quite the thing you wanted. And that’s okay, you click it again.
Well, you want it to hallucinate when you want and not hallucinate when you don’t want. If you’re asking, “Tell me this fact about science,” you’d like that not to be a hallucination. If you’re like, “Write me a creative story,” you want some hallucination. And I think the problem, the interesting problem is how do you get models to hallucinate only when it benefits the user?
个人认为这个回答很辩证,也很全面。特别是对于创意用例中“再点一次”这句话,其实有机会在产品中让用户感知更强一点。这么多年,我们已经习惯了机器给出的回答是确定性的,而不是概率性,这个认知转变,就像我们在 Deepseek 不知道机器的思考过程一样,需要更明确的提示。
The state of AI in early 2024: Gen AI adoption spikes and starts to generate value
这是一份由 McKinsey 最近发表的关于生成式 AI 的企业采用的报告,调研了多达 1363 名受访者,遍布各个地区和行业。调研进行于 2024 年 2-3 月,不知道为什么报告发布延迟了这么久)。虽然时间已经过去了一年,世界也发生了很多变化,但这份报告中的一些结论仍然值得一看。
毫无疑问,AI 的采用率出现了激增。报告中写道:“在过去六年中,受访者所在组织的人工智能采用率徘徊在 50% 左右。今年,调查发现采用率已跃升至 72%。”这种激增在全球范围内普遍出现,在企业内部则出现在各种不同的职能上。自 2023 年以来,增长最大的职能出现在营销与销售上。

67% 的受访者预计他们的组织将在未来的三年内加大对人工智能的投资。
这些老生常谈之外,报告令我觉得打开新视角的是在“风险”方面。虽然这些风险也都是生成式 AI 所与生俱来的,但当应用在企业上时,这些风险因素也被放大了。受访者认为最相关的三项风险是:不准确性、IP 侵权和网络安全,其中前面两项的认可度从 2023 到 2024 年在上升。

在上图中,我想特别提醒读者注意这个问题的提法:第一张图问的是 consider relevant,即认为与自己的组织相关;第二张图问的是 working to mitigate,即采取行动来避免这项风险。不准确性在上下两张图中都出于较高的水平,且逐年递增,而 IP 侵权则被认为和自身相关,但采取行动者只有 25%,也在两年中持平。
另外一个值得注意的数据点是 Workforce labor displacement 即劳动力替代,受访者的关注度(相关性)和行动意愿都呈现下降趋势。
不准确性一方面来自于 LLM 的幻觉,另一方面也来自于上游数据的质量。随着 Reasoning 能力的提升和 Deep Research 类的 Agent 产品出现,AI 能够通过更多的信息来源来验证自己产出结论的准确性,但从现有产品的结果来看,准确性问题仍然没有消失。
虽然 AI 应用在越来越多的场景中,准确性风险很可能会被放大。企业自身需要在内部流程中有意设计,并进行相应投入。这其中一定蕴含着很多企业解决方案的机会。
联想起上周 320 亿美元的 Wiz 收购,可以认为,网络安全是在互联网时代出现的“打补丁”行业机会。而在 AI 时代,很可能也会出现类似的机会。
用 Gemini Deep Research 做了一个初步调研,发现已经出现了一些创业公司,提供事实核查等方面的解决方案。
McKinsey 的报告中还提到,效能领先的企业往往更关注风险——很可能是因为先采用了 AI 技术而同时体验到了正面和负面的效果:
这些高绩效者还做了哪些不同的事情?首先,他们更加关注与人工智能相关的风险。也许是因为他们在人工智能的道路上走得更远,他们比其他人更有可能说他们的组织经历了我们询问的人工智能带来的每一个负面后果,从网络安全和个人隐私到可解释性和知识产权侵权。鉴于此,他们比其他人更有可能报告说,他们的组织认为这些风险以及监管合规性、环境影响和政治稳定性与他们的人工智能使用有关,他们说他们采取措施来减轻比其他人更多的风险。

What Kind of Disruption?
Benedict Evans 最近的一篇小短文。应该源自于他在写这页 PPT 时候的一个灵光乍现:

这张图的左侧说的是 Uber 对出租车市场的颠覆,右侧说的是 Airbnb 对酒店行业的影响。这两家公司是共享经济平台中的两个典型代表,很多时候会被拿出来相提并论,但从这两张图来看,Uber 对出租车市场的影响显然更具有颠覆性。
Evans 解释道:
But for all sorts of reasons, the actual effect of that on the taxi and hotel industries was very different. The regulation is different. The supply of people with a car and few hours to spare is very different from the supply of people with a spare room to rent out (indeed, there is adverse selection in that difference). The delta between waving your hand on a street corner and pressing a button on your phone is different to the delta between booking a hotel room and booking a stranger’s apartment. Roughly half of the global hotel industry is business travel and little or none of that has moved to Airbnb. You can probably think of more… or just look at the slide.
但由于各种原因,这对出租车和酒店行业的实际影响非常不同。监管不同。有车且空闲时间不多的人的供应量与有空余房间出租的人的供应量非常不同(事实上,这种差异中存在逆向选择)。在街角挥手和按下手机按钮之间的差值与预订酒店房间和预订陌生人公寓之间的差值不同。全球酒店业大约有一半是商务旅行,其中很少或根本没有转移到 Airbnb。您可能还能想到更多……或者只是看看幻灯片。
这里可以深究的一个点是:或许把出租车行业和酒店行业当作分母本身就是不对等的,出租车只是众多出行选择中的一个小分支,而酒店则几乎是旅行住宿的全部。
但仔细想想,的确也没有找到比出租车更适合的一个市场划分方式。
Evans 认为:颠覆有很多种,但当你选择不同的靶子的时候,颠覆的程度完全不同。就像我们从来没有意识到 Airbnb 虽然也很大程度上改变了我们不在家的时候住在哪的选择,但这种改变是有限的,特别是相对于 Uber 之于地面交通:
You can push this point in different directions. Sometimes disruption is much more about new demand than challenging the existing market, or only affects a peripheral business, as happened with Skype. Everything is probably disruptive to someone - online travel booking was very disruptive to travel agents but (for the sake of argument) didn’t change the fundamentals of the airline business, and generative AI will probably be much more disruptive to (say) profession services companies than the cement business. But in each case, it’s always easier to shout ‘disruption!’ or ‘AI!’ than to ask what kind.
你可以从不同角度推动这一点。有时,颠覆更多的是新需求,而不是挑战现有市场,或者只影响外围业务,就像 Skype 的情况一样。一切都可能对某些人造成颠覆——在线旅行预订对旅行社造成了很大的颠覆,但(为了论证的目的)并没有改变航空业务的基本面,而生成式人工智能对(比如说)专业服务公司的颠覆性可能比对水泥业务的颠覆性大得多。但在每种情况下,喊出“颠覆!”或“人工智能!”总是比问是哪种颠覆更容易。
截止上周最后第一个交易日(2025 年 3 月 21 日),Uber 的市值是 1584.3 亿美元,Airbnb 的市值是 783.8 亿美元。
YouTube’s Biggest Star MrBeast Makes More Money From Chocolate Than Videos
MrBeast(本名 Jimmy Donaldson)是全球最大的 YouTube 明星,但他的主要收入来源并不是视频,而是通过他拥有的巧克力品牌 Feastables。该品牌去年销售额达到 2.5 亿美元,利润超过 2000 万美元,而他的媒体业务则亏损了近 8000 万美元。为扩展业务,MrBeast 的公司 Beast Industries 计划筹集几亿美元,进军视频游戏、饮料和健康等新领域。
本文是 Bloomberg 对 Beast Industries 当下境况的报告,我做了一些摘抄,如下:
据了解 Beast Industries 过去融资情况的人士透露,为了资助这些业务,Beast Industries 在过去四年中筹集了超过 4.5 亿美元。根据文件显示,该公司目前正寻求再筹集几亿美元,这些文件提供了 2024 年前三个季度的业绩数据以及今年最后三个月及未来的业绩预估。该公司的目标是扩大现有部门并进军多个新领域,包括视频游戏、饮料和健康。

据知情人士透露,去年,与阿联酋有联系的投资公司 Alpha Wave 领投了 3 亿美元的 C 轮融资,Beast Industries 的估值约为 50 亿美元,高于几个月前的约 15 亿美元——对于一家连续三年亏损(其中 2024 年亏损近 6000 万美元)的公司来说,这是一个高昂的估值。在 The Colin & Samir Show 1 月份的播客 上,MrBeast 指出,扩大业务“非常非常困难”。
即便如此,Beast Industries 在花费超过 1 亿美元后,第一季最终还是亏损了。在拍摄过程中,MrBeast 一度当场决定将参赛者的奖金翻倍,这进一步增加了超支。“我在《Beast Games》上损失了数千万美元,”MrBeast 后来在《CEO 日记》播客中说道,并指出他只是想让节目尽可能精彩。
Housenbold 表示,他今年将削减约 1 亿美元的成本,同时将公司转变为一家盈利企业。该公司预计 2026 年的利润约为 3 亿美元。他将过去的损失归因于初创公司在快速扩张的早期经常犯的那种错误。除了其他节省外,Housenbold 认为该公司可以降低生产成本。Beast Industries 预测,2025 年和 2026 年的生产支出将低于去年,媒体部门也将实现盈利。

我一直都很关注 MrBeast,很大程度上是因为他代表了创作者经济能够发展到的一种极端情况:即以庞大的粉丝群体和流量规模,走向一个以其个人 IP 为内核的娱乐 + 消费公司。这样的模式与好莱坞——特别是 Disney 高度相似,只是利用了 YouTube 这样的互联网平台的流量红利。
当然,这不是唯一的方式。
我曾经一篇未公开发表过的 YouTube 研究报告中简单分析了 MrBeast 的成名路线:
2017 年,他发布了一段长达数十个小时的挑战视频,内容是从 1 数数到 100,000,这个视频大获成功,订阅者超过 100 万,一年后超过 1000 万,2022 年超过 1 亿,目前已经超过 4 亿。
MrBeast 摸索出流量增长的黄金共识:不可思议的挑战 + 巨额奖金。在一份长达 36 页的 PDF 中,MrBeast 分享了秘诀:每个视频创意都是从一张抓人眼球的封面图开始的,要求每个视频中都有一个 wow factor,每一分钱都要花在视频中肉眼可见的地方。
他在 2021 年制作的模拟 Netflix 剧集《鱿鱼游戏》的 真人秀 就是这一模式的典范:在这个 25 分钟的视频里,有 456 人争夺 456,000 美元的现金奖励,总制作成本超过 3 百万美元,MrBeast 甚至给它增加了 16 种不同语言的音轨。付出巨大,但回报也是惊人的:这个视频一周内被观看了 1.3 亿次,累积观看次数现在已经超过 6.5 亿,这一年,MrBeast 以 5400 万美元的收入登上了 Forbes 百大名人榜。
从 YouTube 上的 MrBeast 走到今天的 Beast Industries,前后不到 8 年时间。规模起来了,但利润还需要一些额外的努力。
当丹尼尔·卡尼曼决定去死
本文最先由 Jason Zweig 发表于《华尔街日报》(原文链接),由“中年不油腻男”翻译成中文并发表在他的公众号上。
Daniel Kahneman 逝世的消息是在去年这个时候。谁也没有想到,过了一年,这个消息会再一次浮上水面。消息是他死因的真相:这位心理学大师选择了用安乐死的方式结束自己的生命。
Jason Zweig 是 Kahneman 的生前好友,并曾在《思考,快与慢》一书上有过合作。这篇文章把 Kahneman 的临终告别邮件和他亲朋好友的看法与回忆交织在一起,拼成一个复杂而又简单的真相。
来自 Kahneman 的邮件:
当我还是一个少年时,我就相信生命末期的痛苦和丧失尊严是毫无必要的,我会践行这一信念。
...
我仍可自主行动,享受生活的诸多乐趣(每天的新闻报道除外),我会开心地死去。但我的肾脏已经退化,出现认知错误的频率越来越高。我已经 90 岁了,是时候了。
...
我发现在做出这一决定后,我不再害怕死亡,而且我认为死亡只不过是一觉睡去,不再醒来。人生最后的篇章实际上并不艰难,除非亲眼目睹我给他人带来的麻烦和苦痛。所以,如果你为我的决定感到遗憾,那真是大可不必。
可以看出,Kahneman 做了一个冷静而理性的决定,源自于从少年时代就坚持的看法。虽然生理状态尚好(也得到了很多亲朋好友的验证)。
Zweig 在文中提到了 Kahneman 生前研究的一项理论“峰终定律”
我们将某种体验视为快乐或痛苦的依据,并非取决于这种快乐或痛苦的感受维持了多长时间,而取决于那些感受在巅峰和终点时的强烈程度。
Zweig 还提到了一本名为《退出:知道何时离开的力量》(Quit:The Power of Knowing When to Walk Away)的书,书的作者安妮·杜克(Annie Duke)是卡尼曼的朋友,一位决策理论家和前职业扑克选手。在书中,她写道:
准时退出通常会让人觉得退出得太早。
Kahneman 的决定,还将在未来的很多年里,再次浮出水面。