05.12.25: 科技史即泡沫史

May 12, 2025

“读这本书，了解我们这个时代的另类历史。”

Peter Thiel 在推荐这本书上毫不吝惜自己的金句。

Byrne Hobart 和 Tobias Huber 的《繁荣：泡沫与停滞的终结》(Boom: Bubbles and the End of Stagnation) 由 Stripe Press 出版，甫一问世便引发热议。Hobart 是广受欢迎的科技商业分析通讯 The Diff 的主理人，以其对金融科技等领域的深刻洞察而闻名。

在这本新书中，他与合作者将目光投向了更宏大的命题：经济泡沫与人类创新之间，究竟是怎样的隐秘关联？

J 型曲线

Hobart 和 Huber 提出了一个“J 型曲线”的概念。

在这些不同的案例中，我们发现阶梯式进步呈现 J 形曲线。对于除了真正的信徒之外的所有人来说，初始阶段的努力看似徒劳无功，但这些早期尝试最终会带来超乎寻常的收益。

Across these disparate cases, we find that step-function improvements follow a J-shaped graph. To everyone but true believers, the initial stages of the endeavor look like wasted effort, but these early attempts ultimately deliver outsized gains.

它描述了许多重大技术突破的共同路径：最初阶段，投入巨大，进展缓慢，在大多数人看来像是浪费精力；然而，对于少数真正的信徒而言，这些早期尝试最终会带来不成比例的巨大回报。一旦技术成熟并被广泛采用，成本会下降，应用场景也会随之爆发。互联网的早期发展、个人电脑的普及，都曾经历过类似的轨迹，初期不被看好，随后深刻改变了世界。

芯片技术的发展和摩尔定律的诞生，是“J 型曲线”效应一个教科书般的案例。作者花费了大量篇幅对此进行了回顾。

集成电路 (IC) 最初并非明星技术，甚至可以说其潜力在早期被严重低估。书中写道：

媒体反应平淡。《纽约时报》将晶体管的报道刊登在第 46 页，这一细节已广为人知...更小的电视机、更可靠的收音机、更轻便的对讲机，以及可能出现的新型助听器，这些并未被媒体视为变革性的创新。新技术的应用前景很难被看清，因为当时现有产品的使用场景都受限于其自身的局限性。

The media reaction was subdued. The New York Times famously ran its transistor story on page 46... The prospect of smaller televisions, more reliable radios, lighter walkie-talkies, and perhaps a new kind of hearing aid did not strike the press as a transformative innovation. The applications for a new technology were hard to see because the use cases for existing products were defined by their limitations.

这项新技术最初也极其昂贵。书中提到，当麻省理工学院的仪器实验室为阿波罗计划首次采购集成电路样品时，单价高达约 1000 美元 (相当于 2022 年的 10000 美元)。然而，正是阿波罗计划——这个目标单一、投入巨大的“大型项目”，它本身就具有“泡沫”的一些特征：集中资源办大事——对集成电路产生了巨大的需求。

这种由集中采购带来的成本急剧下降（从数千美元到不足两美元），不仅为芯片的广泛应用铺平了道路，也催生了 Moore 的观察——即后来的摩尔定律。摩尔定律不仅仅是对趋势的总结，它更像一个“协调机制”和“自我实现的预言”：

换句话说，摩尔定律是一种协调机制：如果业界所有人都认为它是真实的，并且认为它会继续保持真实，那么它就是真实的，至少在处理器达到使进一步发展不可能的物理极限之前是如此。摩尔定律是一个向后看的观察，转变成了一个自我实现的预言。

In other words, Moore’s law was a coordination mechanism: If everyone in the industry thought it was true and acted as if it would stay true, then it was true, at least until processors reached physical limits that made further advances impossible. Moore’s law was a backward-looking observation that transformed into a self-fulfilling prophecy.

整个行业都按照这个“定律”来规划投资和研发，进一步推动了技术的飞速进步。书中总结道：“阿波罗计划催生了摩尔定律，而摩尔定律开启了计算机时代。” 如果没有阿波罗计划这种近乎“不计成本”的巨大投入，芯片技术很可能：

...依然是一个小规模的新奇事物，仅在少数用例中有趣，但由于缺乏大规模制造，在大多数实际应用中远远贵得无法取代真空管。

...remained a small-scale curiosity, interesting for a few use cases but, due to the lack of large-scale manufacturing, far too expensive to replace vacuum tubes in most real-world applications.

正是这种初期看似“浪费”的巨大投入（J 型曲线的底部），最终撬动了整个计算机革命和数字时代的到来（J 型曲线的急剧上扬），并如同 Bill Gates 后来意识到的：当计算能力变得“几乎免费”时，新的稀缺资源——软件——便应运而生，开启了新的创新浪潮。

怀疑论者眼中的过度支出，在“真正的信徒”看来，是实现“超额收益”的必要基础。作者认为，这种现象不仅是金融泡沫，更是关键的“创新加速器”。

更令人惊讶的是，我们发现技术突破和科学大项目与金融泡沫在一个非常特定的意义上有着共同的基本动态：它们协调行为以构建一个复杂的未来...我们开发了一个将泡沫视为创新加速器的模型。

Perhaps even more surprisingly, we find that technological breakthroughs and scientific megaprojects share an underlying dynamic with financial bubbles in one very specific sense: they coordinate behavior to build a complex future...we develop a model of bubbles as innovation accelerators.

Byrne Hobart 在 Stratechery 的访谈中，将 AI 现象描述为“以最好的方式呈现的泡沫”(in the best possible way)，并预想智能将成为一种“花钱就能获得更多”(pay money to get more of) 的资源。这与书中“拐点泡沫”(inflection bubble) 的概念一致——即人们坚信“未来将与过去截然不同”(the future will be meaningfully different from the past) 并因此行动。围绕 AI 潜力的近乎宗教般的热情——书中所述的孕育变革性泡沫领域的特征（James Grant 的评论称之为某种“超越性愿景” (transcendent vision) 的产物）——进一步凸显了这一点。

协调、FOMO 与并行进展

《繁荣》认为，“良性泡沫”的一个关键作用是，它能将不同背景、不同目标的力量，汇聚到一个单一且复杂的愿景上。“错失恐惧症”(FOMO) 这种常被负面看待的心理，在此时转变成了一个强大的协调工具。

由于好的泡沫的作用在于让人们和资本同时对准正确的问题，FOMO（错失恐惧）有助于确保每个人都能同时参与进来... FOMO 是一种挥之不去的感觉，那就是有人正在创造未来，而这个人可能就是你。

Since good bubbles function by aligning people and capital to work on the right problem at the same time, FOMO helps ensure everyone gets on board at once... FOMO is the nagging suspicion that someone is building the future, and it could be you.

科技巨头、创业公司、学术界和开源社区纷纷感受到了这种莫名的紧迫感，它们不约而同地开始探索 AI 的各个方面。正是泡沫促成了这种“大规模实验——包括大量并行的试错”(large-scale experimentation—which includes lots of trial and error done in parallel)，从而“加速了潜在颠覆性技术和突破的出现速率”(thereby accelerating the rate of potentially disruptive technologies and breakthroughs)。

曼哈顿计划是展现这种协调和并行力量的早期范例。面对制造原子弹这一空前挑战和紧迫的时间压力，该计划汇聚了全球顶尖人才和巨量资源。为了确保成功，科学家们同时探索了多种制造裂变材料的技术路径。

这种方法类似于曼哈顿计划同时追求多种裂变材料来源的决策，以防其中某一种行不通；如果目标是尽快交付一个可行的方案（而且如果成功带来的后果足够重大），那么为实现这一目标而造成的浪费是一个可以接受的代价。

This approach was similar to the Manhattan Project’s decision to pursue numerous sources of fissile material in case one of them didn’t work; if the goal was to deliver something that worked as quickly as possible (and if the consequences of success were extreme enough), waste was an acceptable price for making that happen.

这种看似“浪费”的并行尝试，在一个宏大、急迫的目标下，通过集中的资源投入和多路径探索，加速了创新进程，确保了最终的成功。

除了国家级的大型项目，早期芯片行业自身的研发模式也体现了并行进展的重要性。例如，仙童半导体和英特尔等先驱公司，在面临多种技术选择时，常常会组织多个独立团队同时攻关不同的设计方案或生产方法。

最终会采用效果最好的方案进行规模化实施。这虽然造成了一些浪费和重复，但也意味着发射不会延迟；这种并行化的过程确保了能在目标发射日期前准备就绪。

Whichever one worked best would be implemented at scale. This created some waste and duplication, but it also meant that launches weren’t delayed; parallelizing the process ensured that something would be ready by the target launch date.

这种内部的“赛马”机制，虽然会产生一定的资源重复，但确保了总有一条路径能够成功，并且能够按时拿出成果。这与泡沫时期，大量资本和人才涌向一个新兴领域，驱动众多参与者从不同角度尝试突破，最终筛选出可行方案的逻辑是相似的。无论是国家主导的宏大项目，还是行业内部的激烈竞争，那种“时不我待”的紧迫感和对成功的渴望，都有效地协调了力量，并通过并行探索大大缩短了从概念到成果的时间。AI 领域当前的群雄并起、多种技术路径和应用场景同时被探索，也与此异曲同工。

泡沫推动历史

回顾人类科技发展的长河，从铁路、电力到互联网，许多革命性的进步都伴随着看似非理性的“泡沫”时期。《繁荣》一书的核心观点正是挑战传统认知：这些泡沫不仅不是纯粹的浪费和妄想，反而是打破停滞、驱动人类文明跃迁的引擎。作者们认为，“只有创新加速型泡沫才能阻止停滞的‘末日’”(only innovation-accelerating bubbles can prevent the apocalypse)。

这种“泡沫引擎”的历史作用，在当前的人工智能浪潮中再次清晰显现。它首先表现为对社会过度“安全主义”(safetyism) 的冲击。当一个社会过于追求稳定、规避一切风险时，重大创新便难以产生。作者们警告：

特别是在硅谷，AI 安全主义已变得如此主导，以至于对人类与AI之间对齐的执念可能会抑制该领域的加速发展，这本身就可能成为一种存在性风险。

In Silicon Valley in particular, AI safetyism has become so dominant that the obsession with alignment between humans and AI could, by inhibiting accelerated progress in the field, become an existential risk in itself.

AI 以其颠覆性的潜力，迫使我们重新审视风险与进步的关系，挑战那些可能扼杀突破性创新的过度谨慎。

其次，历史上所有伟大的技术泡沫，都充满了宏大愿景与当下现实之间的巨大差异。作者以资本市场上的交易参与者为例，描述了买卖对手如何在“非共识”的“幻想世界”(fantasyland) 中交易：

如果买方是对的，那么卖方就是活在对过去的幻想中。如果卖方是对的，那么买方就是活在对未来的幻想中。无论如何，总有人活在幻想世界里。

If the buyer is correct, then the seller is living in a fantasy about the past. If the seller is correct, then the buyer is living in a fantasy about the future. Either way, someone is living in fantasyland.

AI 领域如今也充斥着对 AGI 的无限遐想和对社会即将被彻底改变的预期，尽管许多应用的落地仍步履维艰。但这种“幻想”并非全然负面，它恰恰是吸引人才、资本涌入，并支撑人们在重重困难下持续探索的动力。泡沫中的利益分配或许难以预测，但这并不妨碍它在整体上推动技术边界的拓展。

最重要的是，驱动这些历史性技术飞跃的，往往是一种必要的“疯狂”与“非理性”的执着。历史证明，重大的突破并非源于小心翼翼的优化，而是源于那些敢于拥抱“疯狂想法”的少数人。也正是在这种看似混乱的碰撞中，未来才得以被塑造：

为了让设想中的未来成为现实，妄想的想法、雄心勃勃的人、公司、实验室、硬件和计算机代码都需要碰撞到一起。

To make the envisioned future a reality, delusional ideas, ambitious people, companies, labs, hardware, and computer code all need to collide.

AI 续写泡沫史

纵观铁路、电力、互联网直至今日的人工智能，人类的科技进步与文明跃迁，其历史常常与“泡沫”现象相伴相生。

新的泡沫，自然要由 AI 来续写。我们已经不由自主的深陷其中了：关注 AI、使用 AI、讨论 AI、交易 AI，无意识的群体行为推动泡沫越筑越高，最终完成它在历史上的这一幕。

科技史，或者说人类的进步史，就是一部泡沫史。

✉️

我很高兴可以发布一个新的邮件订阅服务：Podmark。这是一个旨在将播客中的高光片段整理成邮件周报，并发送给订阅者的服务。
您可以在这里进行订阅。这份邮件通讯目前完全免费提供。

Links + Notes

本周的 Links + Notes 包含了 5 则长文和 2 则短文：

搜索引擎的衰落信号：Safari 浏览器中的 Google 搜索量 22 年来首次下降，暗示了 AI 正在改变用户获取信息的方式，传统搜索引擎和内容生态面临深刻转型。
Cursor 的护城河之辩：AI 原生代码编辑器 Cursor 通过卓越的产品体验和社区反馈建立了初步优势，但面临底层模型商品化和巨头竞争的双重挑战。
排行榜的幻象：一项研究揭示了 AI 模型评估平台 Chatbot Arena 存在系统性偏差，少数供应商能够通过私下测试和选择性公开来操纵排名。
摩擦力的重分配：在 AI 时代，"摩擦力"（完成任务所需的努力）正在经历重新分配 - 数字世界趋于无摩擦，物理世界摩擦增加，而某些精选空间则将摩擦力商品化。
智识生活的指南：一篇发人深省的文章探讨如何在信息过载时代构建丰富的内心世界，强调好奇心、例行公事和写作的重要性。

两则短文：

AI 作为新分发渠道：Tom Tunguz 观察到 AI 正成为产品分发的新渠道，例如 AI agents 创建 Neon 数据库的速度是人类的 4 倍，这预示着 AI 可能成为企业采购决策的重要影响者。
OpenAI 的垂直整合策略：A16Z 的 Anish Acharya 从"批发转移定价"的视角解读 OpenAI 收购 Windsurf 的动机 - 当基础模型供应商无法通过定价获取全部利润时，垂直整合消费层成为保护经济利益的必然选择。

请通过下方的链接订阅，阅读全部内容。

Stats from a dying web | 来自濒死的互联网的数据

The Platformer 的 Casey Newton（之前为 The Verge 撰稿）敏锐地捕捉到了一个可能正在发生的深刻转变：生成式 AI 的崛起，正对传统互联网的根基——尤其是搜索引擎和内容生态——构成潜在的颠覆性威胁。文章通过一系列关键数据和观察，描绘了一个“垂死互联网”的轮廓。

文章开篇即点出作者对生成式 AI 如何重塑网络的长期关注与深切忧虑。这种担忧并非空穴来风，而是基于 AI 模型日益增强的能力，它们正开始让大量用户偏离传统搜索引擎，从而可能切断出版商和网站赖以生存的流量与资金来源。

在过去一年多的时间里，我一直关注着生成式 AI 将如何重塑网络。我主要的恐惧是，像 ChatGPT 中的那些大型语言模型现在已经足够好，以至于大量用户开始放弃传统搜索引擎，使得出版商和网站无法获得继续运营所需的流量和资金。虽然一些出版商已经与 AI 实验室达成了利润丰厚的协议，但总体而言，新闻业的就业岗位正在萎缩。而且并非只有我一个人担心：上个月，皮尤研究中心报告称，大约一半的美国人认为 AI 对新闻业不利。

For more than a year now, I’ve had one eye trained on how generative AI will reshape the web. My primary fear has been that large language models like those found in ChatGPT are now good enough that large numbers of people are beginning to abandon traditional search engines, starving publishers and websites of the traffic and money they need to continue operating. While some publishers have made lucrative deals with AI labs, on balance the number of jobs in journalism is shrinking. And I’m not the only person worried: last month, Pew Research reported that about half of Americans believe that AI will be bad for journalism.

这不仅仅是理论上的推演。AI 的便捷性与日俱增，正悄然改变用户获取信息的方式。正如皮尤研究中心的调查所揭示的公众焦虑，这直接威胁到依赖流量生存的出版商和整个新闻业的未来。

这种深藏的忧虑，在近期谷歌反垄断案中一个戏剧性的细节上得到了惊人印证。苹果公司高管 Eddy Cue 的证词，如同一声警钟，敲响在平静水面之下。

苹果服务高级副总裁 Eddy Cue 在周三的谷歌反垄断案庭审中表示，上个月 Safari 浏览器内的谷歌搜索量首次出现下滑。“这在过去 22 年里从未发生过，”Cue 补充道。

Cue 将搜索量的下降与 AI 使用量的增长联系起来，苹果目前正考虑将 AI 整合到 Safari 中。像 ChatGPT、Perplexity、Gemini 和微软 Copilot 等 AI 工具中网络搜索功能的兴起，可能会让用户减少将谷歌作为获取信息主要途径的意愿。

Google searches fell in Safari for the first time ever last month, Apple’s senior vice president of services, Eddy Cue, said during Google’s antitrust trial on Wednesday. “That has never happened in 22 years,” Cue added.

Cue linked the dip in searches to the growing use of AI, which Apple is now considering integrating into Safari. The rise of web search in AI tools like ChatGPT, Perplexity, Gemini, and Microsoft Copilot may make users less inclined to visit Google as their primary way of finding information.

“22 年来首次下降”——这一数据点本身就充满了历史性的张力。它将 AI 对传统搜索的侵蚀从抽象的担忧推向了可观测的现实。苹果甚至开始考虑将 AI 整合进 Safari，这预示着搜索引擎的入口之争，乃至用户获取信息的第一触点，都可能进入一个全新的、由 AI 主导的阶段。

然而，搜索量的数字变化并非衡量网络健康的唯一尺度。更关键的问题在于，用户在哪里、以及如何找到答案——而答案正越来越多地停留在谷歌自身提供的 AI 概览（AI Overviews）中，而非导向原始网页。

当然，网络的健康状况并不仅仅由谷歌搜索量决定。同样重要的是人们从哪里获得答案——而他们正越来越多地在谷歌上获得答案。多项分析现已发现，谷歌的 AI 概览导致其信息来源网页的点击率下降了 70% 到 80%。这意味着网页访问量减少了 70% 到 80%，而主要的网页内容生产行业之一也相应萎缩：CNN、Vox Media、HuffPost 和 NBC 等出版商迄今已宣布在 2025 年进行裁员。

Of course, the health of the web is not determined by the number of Google searches alone. Equally important is where people get their answers — and increasingly, they are getting their answers on Google. Multiple analyses have now found that Google’s AI overviews have resulted in declines of 70 to 80 percent in the click-through rates to the web pages from which they derive their information. That’s 70 to 80 percent fewer visits to web pages, and one of the primary web page-producing industries is shrinking accordingly: CNN, Vox Media, HuffPost, and NBC are among the publishers that have announced layoffs in 2025 so far.

点击率骤降 70% 至 80%，这对内容创作者而言无异于釜底抽薪。当 AI 不再仅仅是信息的“导航员”，而是成为信息的“终点站”，原创内容的价值和生存空间便受到严重挤压。各大知名媒体接连不断的裁员潮，正是这一趋势在现实世界投下的残酷注脚，也是网络生态系统可能正在经历结构性改变的直接证据。

面对这些不安的信号，谷歌自然希望向市场传递其搜索霸主地位依然稳固的讯息。但表象之下，暗流涌动。

尽管谷歌试图用其市场地位和技术调整来平息疑虑，但投资者微妙的恐慌情绪并非空穴来风。搜索行为的底层逻辑可能正在发生结构性转变。这不仅仅是对谷歌商业模式的挑战，更对整个开放网络的生态系统造成了冲击。政府的反垄断行动是清晰可见的外部压力，而 AI 引发的用户行为变迁，则是一种更深层次、更不易察觉的内部颠覆。

这种行为变迁，在年轻一代中尤为突出和迅速。《纽约》杂志的一篇特写，通过学生群体的案例，揭示了一个令人深思的现象。

对 Walsh 而言，Lee 只是日益不容否认趋势中最显著的例子。“2023 年 1 月，就在 OpenAI 推出 ChatGPT 仅两个月后，一项针对 1000 名大学生的调查发现，近 90% 的学生曾使用该聊天机器人帮助完成作业，”Walsh 写道。

从那以后，这一趋势只增未减；一项研究发现，大学生中使用 AI 的比例从去年的 66% 增加到今年的 92%。那些再也无法可靠区分 AI 生成作业和学生亲笔作业的教授们，向 Walsh 倾诉了一种生存危机般的绝望。

To Walsh, Lee is only the most visible example of an increasingly undeniable trend. “In January 2023, just two months after OpenAI launched ChatGPT, a survey of 1,000 college students found that nearly 90 percent of them had used the chatbot to help with homework assignments,” Walsh writes.

It has only accelerated since then; one study found that AI usage among college students increased from 66 percent last year to 92 percent this year. Professors who can no longer reliably tell AI-generated assignments from student-written ones speak to Walsh of an existential despair.

学生群体对 AI 工具（如 ChatGPT）的依赖程度，从最初的“辅助”迅速演变为普遍的“必需”，这不仅仅是学术诚信的问题，更预示着未来信息检索习惯的根本性变革。当“用 AI 完成”成为新一代用户的默认操作模式时，传统搜索引擎的中心地位无疑将受到严峻挑战。教授们感到的“生存性绝望”，也折射出教育体系乃至整个知识传递方式在 AI 技术冲击下的深刻困惑与潜在危机。

谷歌的 AI 概览等策略，或许能在短期内减缓用户从其核心搜索引擎大规模流失的风险，但一个更基础、更长远的转变似乎已然启动。

目前看来，谷歌的 AI 概览似乎平息了用户突然大规模从其核心搜索引擎叛离的可能性。但现在清楚的是，几十年来第一次，一代人正在成长，他们可能会使用谷歌以外的东西作为默认搜索。今天，他们用 ChatGPT 完成所有作业。到他们毕业时，他们可能会用它来做几乎所有其他事情。

For the moment, Google’s AI overviews seem to have quelled the possibility of a sudden mass defection away from its core search engine. But it’s now clear that for the first time in decades, a generation is growing up with the possibility of using something other than Google as its default search. Today, they’re using ChatGPT to do all their homework assignments. By the time they graduate, they may be using it to do almost everything else.

文章最后回到了 Eddy Cue 证词所揭示的行业变局，以及这种变局对不同市场参与者的不同影响。

但曾几何时，谷歌可以向苹果支付 200 亿美元以获得默认搜索引擎的地位，然后在余下的一年里高枕无忧，Cue 的证词则表明情况已非如此。当前和未来几代人正一点一点地将他们的习惯从传统搜索转向聊天机器人。谷歌可以花费其剩余的数十亿美元来实施 B 计划。但其他人应该怎么做，目前仍不清楚。

But while there was once a time when the company could hand Apple $20 billion for default search placement and spend the rest of the year relaxing, Cue’s testimony shows why that is no longer the case. Bit by bit, current and future generations are shifting their habits away from traditional search and toward chatbots. Google can spend its many remaining billions of dollars on implementing Plan B. But it remains unclear what anyone else is supposed to do.

Does Cursor Have a Defensible Moat? | Cursor 拥有护城河吗

在当今 AI 驱动的技术浪潮中，开发者工具正经历一场深刻的变革。Zachary DeWitt，Wing VC 的合伙人对备受瞩目的 AI 原生代码编辑器 Cursor 进行了深入剖析。DeWitt 的分析清晰地呈现了支持和质疑 Cursor 长期竞争优势的各方论点，引导我们思考在快速迭代的 AI 时代，创新企业如何构建并维持其领先地位。

文章首先点出了 Cursor 的迅猛发展势头及其引发的核心问题：

Cursor 是拥有可防御的护城河，还是仅仅在 AI 编码竞赛中占得先机？

看多方的论点：Cursor 已初步构建的优势

DeWitt 首先阐述了看好 Cursor 未来发展潜力的观点，认为其在多个维度上建立了初步的竞争优势。

其中，卓越的产品体验和用户体验 (UX) 被认为是 Cursor 领先一代的关键。

支持者认为，Cursor 的产品体验和用户体验领先竞争对手一代。与在旧 IDE 中改造 AI 插件不同，Cursor 是 AI 优先构建的。它是一个独立的编辑器，其核心与大型语言模型（LLMs）深度集成。这意味着像下一操作预测、一键代码重写以及直接与整个代码库聊天等功能并非附加的，而是融入到你的编码方式中。开发者们盛赞这感觉就像与一个全天候待命的天才伙伴进行结对编程。据 A16Z（一位投资者）称，成千上万的用户已经注册并“对产品给予了高度评价”，其中许多人成为付费用户后“很少再切换回其他 IDE”。这种用户满意度和留存率暗示了一种用户体验护城河：一旦你习惯了一个真正理解你项目的 AI 协同编码器，回到一个愚笨的文本编辑器会感觉痛苦不堪。

Proponents argue that Cursor’s product experience and UX are a generation ahead of the competition. Unlike retrofitting an AI plugin into an old IDE, Cursor was built AI-first. It’s a standalone editor deeply integrated with large language models (LLMs) at its core. That means features like next-action predictions, one-click code rewrites, and chatting directly with your entire repository are not bolted on, they’re woven into how you code. Developers rave that this feels like pair programming with an genius partner on call 24/7. According to A16Z (an investor), thousands of users have already signed up and “give glowing reviews of the product,” with many becoming paid users who “rarely switch back to other IDEs”. That kind of user delight and retention hints at a UX moat: once you get used to an AI co-coder that actually understands your project, going back to a dumb text editor feels painfully limiting.

这种“AI 原生”的设计理念，使得 Cursor 提供的体验远超简单集成 AI 功能的传统 IDE。当一种工具能够深刻改变用户的工作流并带来数量级的效率提升时，用户粘性自然形成，构成了难以逾越的体验壁垒。这正是“Show, don't tell”的体现——用户在实际操作中感受到的流畅与智能，远比任何功能列表都更具说服力。

其次，早期的社群和反馈循环 进一步巩固了 Cursor 的优势。

早期的社群和反馈循环进一步加强了 Cursor 的优势。作为一个敏捷的初创公司，Cursor 团队以惊人的速度迭代，根据他们论坛和 Discord 上的用户输入推出新功能和改进。他们培养了一个充满热情的用户群，通过提出痛点和愿望清单，有效地共同开发产品。这种紧密的反馈循环使 Cursor 能够在大公司难以匹敌的方式下保持 UI/UX 的领先。其结果是一个快速发展的工具包，精确地调整以满足开发者的需求，成为潜在模仿者的一个移动目标。

Early community and feedback loops further reinforce Cursor’s advantage. As an agile startup, the Cursor team iterates at breakneck speed, pushing out new features and improvements based on user input from their forum and Discord. They’ve cultivated a passionate user base that effectively co-develops the product by surfacing pain points and wish lists. This tight feedback cycle lets Cursor stay UI/UX-forward in a way big incumbents struggle to match. The result is a fast-evolving toolkit finely tuned to developer needs, a moving target for would-be copycats.

这种与用户共创的模式，不仅加速了产品迭代，更重要的是构建了一个忠诚度极高的社区。在技术快速演进的今天，能够敏锐捕捉并快速响应用户需求，本身就是一种强大的竞争力。这让人想起早期 Not Boring 所描绘的，那些与用户深度绑定的明星初创企业的成长路径。

更深层次地，Cursor 正在积累潜在的数据和基础设施护城河。

在底层，Cursor 也在积累潜在的数据和基础设施护城河。开发者使用 Cursor 进行的每一次代码生成、编辑和修复都提供了反馈（无论是隐式的还是显式的），这些反馈可以改进其 AI 模型。随着时间的推移，这些使用数据创造了一个飞轮效应：Cursor 可以微调其系统以更好地适应真实世界的编码模式，以通用模型无法实现的方式捕捉错误或建议解决方案。该公司最近对 Supermaven 的收购也增强了这一数据优势。Supermaven 带来了一个名为 Babble 的内部生成代码模型，该模型能够以超低延迟理解庞大的代码库。通过集成 Babble 并与编辑器 UI 协同设计 AI，Cursor 控制了更多端到端的技术栈。换句话说，他们不仅仅是调用 OpenAI 的 API；他们正在逐步开发针对用户工作流程的专有模型增强功能。

Under the hood, Cursor is also amassing a potential data and infrastructure moat. Every code generation, edit, and fix that developers perform with Cursor provides feedback (implicit or explicit) that can improve its AI models. Over time, this usage data creates a flywheel: Cursor can fine-tune its systems to better fit real-world coding patterns, catching bugs or suggesting solutions in a way generic models can’t. The company’s recent acquisition of Supermaven bolsters this data advantage as well. Supermaven brought in an in-house generative code model called Babble that can understand massive codebases with super-low latency. By integrating Babble and co-designing the AI with the editor UI, Cursor controls more of the tech stack end-to-end. In other words, they’re not just calling OpenAI’s API; they’re gradually developing proprietary model enhancements tailored to their users’ workflows.

数据飞轮是 AI 时代构建护城河的关键。通过不断学习真实世界的代码交互数据，Cursor 的 AI 模型有望进化得越来越“懂”开发者，形成独特的竞争优势。收购 Supermaven 并整合其自研模型 Babble，更是显示了 Cursor 在核心技术上寻求自主可控的决心，这对于避免被底层模型提供商“卡脖子”至关重要。

看空方的警示：Cursor 面临的严峻挑战

然而，正如 DeWitt 所指出的，Cursor 的护城河并非坚不可摧。AI 领域的核心技术，尤其是大型语言模型，正面临快速商品化的趋势。

尽管有这些优势，怀疑论者反驳说，Cursor 的护城河可能更像是海市蜃楼而非堡垒。2025 年 AI 世界的残酷现实是，Cursor 背后的“大脑”，即执行繁重任务的大型语言模型，正在迅速商品化，Claude Code 变得越来越好就证明了这一点。今天驱动 Cursor 代码天才的底层模型（无论是 GPT-4、Claude、其他 API 还是 Babble）明天就可能被开源的等效模型所匹敌。事实上，我们已经看到开源模型以惊人的速度追赶专有模型。Meta 开源的 Code Llama 及其后续版本已经在野外展示了 GPT-4 级别的编码能力，而且一系列社区驱动的模型（例如 StarCoder、Mistral）每个月都在改进。最近的一项分析直言不讳地指出：“LLMs 现在是技术栈中……商品化的组件”，唯一真正的差异化因素是围绕它们构建的数据或生态系统。这意味着 Cursor 因其 AI 而拥有的任何技术优势都可能转瞬即逝。

Yet for all those strengths, skeptics counter that Cursor’s moat might be more mirage than fortress. The harsh reality of the AI world in 2025 is that the brains behind Cursor, the large language models doing the heavy lifting, are rapidly commoditizing ad evidenced how good Claude Code is becoming. Today’s underlying model that powers Cursor’s code genius (whether it’s GPT-4, Claude, another API, or Babble) could be matched by an open-source equivalent tomorrow. In fact, we’re already seeing open models catch up to proprietary ones at breakneck speed. Meta’s open release of Code Llama and its successors has demonstrated GPT-4-level coding prowess in the wild, and a host of community-driven models (e.g. StarCoder, Mistral) are improving monthly. One recent analysis put it bluntly: “LLMs are… commoditized components” of the stack now, and the only real differentiator is the data or ecosystem built around them. This means that any technological edge Cursor has due to its AI could prove fleeting.

这是所有依赖第三方基础模型的 AI 应用普遍面临的困境。当核心能力变得触手可及时，仅仅依靠模型本身带来的优势将难以持久。正如 Stratechery 经常分析的，价值链的重心会向上游（模型提供商）或下游（特定场景的应用和生态）转移。Cursor 必须证明其价值不仅仅在于调用了强大的 LLM。

此外，激烈的市场竞争不容忽视，来自四面八方的对手正蜂拥而至。

这个领域的竞争并非理论上的，它已经实实在在地存在，并且来自各个方面。大型现有企业正在将 AI 融入其自有工具：微软的 VS Code 并没有停滞不前（最近的发布暗示了更多 AI 原生功能以抵御 Cursor），而 GitHub Copilot（后端采用 ChatGPT）已深度集成到开发者现有的工作流程中。GitHub 拥有 180 万付费 Copilot 用户，并正在 IDE 中推出自己的聊天和语音功能。Windsurf 增长迅速且用户喜爱度高，但据传将被OpenAI以30亿美元收购，这将进一步扩大其分销。亚马逊拥有 CodeWhisperer。初创公司 Replit 凭借其 Ghostwriter AI，在浏览器中提供 AI 驱动的 IDE。对于那些积极性高的黑客来说，还有一些开源项目致力于创建模仿 Cursor 功能的“AIDE”（AI 开发环境），使用免费模型。

Competition in this arena is not theoretical, it’s already here, and coming from all sides. Large incumbents are baking AI into their own tools: Microsoft’s VS Code isn’t standing still (recent releases hint at more AI-native features to fend off Cursor), and GitHub Copilot (with ChatGPT in the backend) is deeply integrated into developers’ existing workflows. GitHub has an army of 1.8 million paying Copilot users and is rolling out its own Chat and voice features in the IDE. Windsurf has been growing very fast and has high user love, but is rumored to be acquired by OpenAI for $3B which will further extend its distribution. Amazon has CodeWhisperer. Upstart Replit, with its Ghostwriter AI, offers an AI-powered IDE in the browser. And for the highly motivated hackers, there are open-source projects to create “AIDEs” (AI development environments) that mimic Cursor’s functionality using free models.

从科技巨头微软、GitHub、亚马逊，到同样灵活的初创公司 Replit，乃至充满活力的开源社区，都在觊觎 AI 辅助编程这块蛋糕。巨头们拥有庞大的用户基础和分发渠道，可以迅速将 AI 功能整合进现有生态；而开源项目则以其零成本和高度可定制性吸引着一部分开发者。Cursor 不仅要跑赢同行，还要警惕巨头凭借生态优势的降维打击。

结论：在浪尖起舞，Cursor 的持续挑战

DeWitt 在文章结尾处，对 Cursor 的护城河问题进行了总结性思考，强调了其先发优势与持续构建壁垒的必要性。

最终，Cursor 是否拥有可防御的护城河，取决于哪种叙事最终胜出。一方面，有人认为 Cursor 卓越的开发者体验、紧密联系的社群以及在将 AI 深度融入编码工作流程方面的先发优势将使其获得持久的优势。其专注的团队和快速的执行力可能会使其领先于行动迟缓的竞争对手，并且随着时间的推移，它可能会积累起形成真正护城河的专有优势（数据、微调模型、企业集成）。另一方面，现实情况是核心技术，即编写代码的 LLM，正在成为一种商品，并且大量竞争者（从开源爱好者到万亿美元市值的公司）都在争夺同样的机会。我会说 Cursor 凭借其先发优势已经积累了一些护城河，他们需要继续打造最好的产品。如果他们做到了这一点，用户将继续使用他们的产品并涌向该产品，但竞争是激烈的，并且正在迅速追赶。

Ultimately, whether Cursor has a defensible moat comes down to which narrative wins out. On one side, you have the argument that Cursor’s exceptional developer experience, tight-knit community, and head start in integrating AI deeply into coding workflows will give it a lasting edge. Its focused team and fast execution could keep it ahead of slower-moving rivals, and over time it might accumulate proprietary advantages (data, fine-tuned models, enterprise integrations) that form a real moat. On the other side, you have the reality that the core technology, LLMS that write code, is becoming a commodity, and a slew of competitors (from open-source enthusiasts to trillion-dollar companies) are racing through the same opportunity. I would say Cursor has amassed some moats from its first mover advanatge and its on them to keep building the best product. If they do that, users will stick with them and continue to flock to the product, but competition is fierce and racing to catch up.

Zachary DeWitt 的分析清晰地揭示了 Cursor 面临的核心困境：它凭借 AI 原生的卓越体验和敏捷的社区运营，确实赢得了先发优势和用户喜爱，初步构筑了体验和数据层面的壁垒。然而，在底层 AI 技术快速商品化和巨头环伺的背景下，这些早期优势能否转化为持久的护城河，仍充满不确定性。

Cursor 的故事并非孤例，它代表了 AI 时代众多应用层创新者共同面临的挑战。正如 Platform Thinking 一直关注的，技术的颠覆性力量往往伴随着价值链的重塑和竞争格局的剧变。Cursor 的未来，不仅取决于其持续的产品创新能力，更在于它能否在开发者工作流中找到更深层次、更难被复制的价值锚点——或许是更强的代码理解与项目级智能，或许是独特的协作与知识沉淀机制，又或许是深入企业服务后的定制化与安全性。

DeWitt 的文章没有给出最终答案，而是帮助我们提出了更好的问题：在 AI 技术日新月异的今天，一个创新产品如何超越对底层模型的依赖，构建起真正属于自己的、难以被模仿的竞争壁垒？这不仅是对 Cursor 的拷问，也是对所有试图在 AI 浪潮中构建未来的创业者、投资者和建设者的深刻启示。我们期待看到 Cursor 如何应对这些挑战，在技术的前沿不断探索和进化。

The Leaderboard Illusion | 排行榜的幻象

衡量进步是任何科学领域发展的基石。然而，当基准测试扮演越来越核心的角色时，它们也变得越来越容易受到扭曲。这篇名为《排行榜的幻象》（The Leaderboard Illusion）的论文，由多位研究者共同完成，深入剖析了当前广受欢迎的 AI 系统排行榜 Chatbot Arena 所面临的系统性扭曲问题。研究发现，未公开的私下测试实践、有利于专有模型的数据访问不对称性，以及模型弃用方面缺乏透明度，共同导致了不可靠的排名，并可能引发对 Arena 特定动态的过度拟合。

论文的核心论点在于，Chatbot Arena 作为一个影响力日益增长的 AI 模型评估平台，其当前的运作机制未能确保公平和透明，反而可能误导研究方向和资源分配。正如论文摘要开篇所指出的：

衡量进步是任何科学领域发展的基石。随着基准测试扮演越来越核心的角色，它们也变得越来越容易受到扭曲。Chatbot Arena 已成为对最强 AI 系统进行排名的首选排行榜。然而，在这项工作中，我们识别出导致竞争环境扭曲的系统性问题。我们发现，未公开的私下测试实践使少数供应商受益，他们能够在公开发布前测试多个变体，并根据需要撤回分数。我们证实，这些供应商选择最佳分数的能力，由于选择性披露性能结果，导致了 Arena 分数的偏差。

Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results.

这不仅揭示了特定基准测试的瑕疵，更引申出一个普遍性问题：当评价标准本身成为竞逐焦点时，我们如何确保其公正性与有效性？这正是 Platform Thinking 需要关注的核心——机制设计如何影响生态行为。

论文进一步指出，对单一排行榜的过度依赖本身就蕴含风险。正如古德哈特定律所警示的，当一个衡量标准成为目标时，它就不再是一个好的衡量标准。

然而，过度依赖单一排行榜会产生一种风险，即供应商可能会过度拟合排行榜性能的某些方面，而没有以有意义的方式真正推进技术（Ensmenger, [2018]; Thomas & Uminsky, [2020]; Raji et al., [2021]; Bowman & Dahl, [2021]）。正如古德哈特定律所述，当一个衡量标准成为目标时，它就不再是一个好的衡量标准。在这项工作中，我们表明，少数供应商的刻意参与以及 Chatbot Arena 对同一小群体的优惠政策，放大了游戏化的可能性，而非创新性进展。

However, the over-reliance on a single leaderboard creates a risk that providers may overfit to the aspects of leaderboard performance, without genuinely advancing the technology in meaningful ways (Ensmenger, [2018]; Thomas & Uminsky, [2020]; Raji et al., [2021]; Bowman & Dahl, [2021]). As Goodhart’s Law states, when a measure becomes a target, it ceases to be a good measure. In this work, we show that willful engagement from a handful of providers along with preferential policies from Chatbot Arena towards the same small group have amplified the potential for gamification, in place of innovative progress.

古德哈特定律在此处得到了鲜明体现。当排行榜分数成为衡量 AI “进步” 的主要标尺之一时，真正的技术创新可能被策略性的“刷分”所取代。这对于期望通过排行榜发现真正前沿技术的投资者和构建者而言，无疑是一个巨大的警示。论文通过模拟和真实世界实验，具体指出了 Chatbot Arena 评估框架中存在的几个关键问题：

1. 私下测试和分数撤回方面的优惠待遇

研究者发现，Chatbot Arena 存在一项未明文规定的政策，允许特定供应商并行测试大量模型提交。

Chatbot Arena 有一项不成文的政策，允许选定的供应商并行测试许多提交。我们表明，某些模型开发者（最著名的是 Meta、Google、OpenAI 和 Amazon）受益于广泛的私下测试。在一个月内，我们观察到多达 27 个来自 Meta 的模型在 Llama 4 发布前夕在 Chatbot Arena 上进行私下测试。值得注意的是，我们发现 Chatbot Arena 并不要求所有提交的模型都公开，并且无法保证公共排行榜上出现的版本与公开可用的 API 相匹配。我们通过真实世界的实验和模拟表明，从 N 个模型中选择得分最高的变体的能力，使得对 Arena 评分进行系统性操纵成为可能。

Chatbot Arena has an unstated policy of allowing select providers to test many submissions in parallel. We show that certain model developers (most notably Meta, Google, Open AI and Amazon) have benefited from extensive private testing. In a single month, we observe as many as 27 models from Meta being tested privately on Chatbot Arena in the lead up to llama 4 release. Notably, we find that Chatbot Arena does not require all submitted models to be made public, and there is no guarantee that the version appearing on the public leaderboard matches the publicly available API. We show with real-world experiments and simulations that the ability to select the best-scoring variant from N𝑁Nitalic_N models enables systematic gaming of the Arena rating.

这种“潜规则”式的私下测试和选择性公开，为少数头部玩家提供了巨大的操作空间。这不仅是技术层面的不公平，更是平台治理的缺失。对于其他努力创新的团队，尤其是开源社区，这无疑设置了隐形壁垒。论文在第 3.2 节进一步阐述了这种“N 选最佳”（best-of-N）策略如何扭曲排名：

私下测试加上可选择撤回的功能，使得“N 选最佳”策略成为可能，即一个组织向 Chatbot Arena 提交多个模型变体，私下评估它们，并仅保留表现最佳的变体在排行榜上公开发布。在本节中，我们表明“N 选最佳”的提交违反了 BT（Bradley-Terry 模型）的无偏采样假设。这系统性地抬高了模型排名并扭曲了排行榜的排名。

Private testing coupled with the option to retract enables a best-of-N strategy, where an organization submits multiple model variants to Chatbot Arena, privately evaluates them, and retains only the top-performing variant to be publicly published on the leaderboard. In this section, we show that best-of-N submissions violate the BT unbiased sampling assumption. This systematically inflates model rankings and distorts the leaderboard ranking.

这种做法直接违背了 Bradley-Terry 模型关于无偏抽样的基本假设，使得排行榜从一个客观的度量工具，异化为部分参与者可以利用规则进行优化的竞技场。

2. 专有模型供应商获得更多数据

尽管 Chatbot Arena 是一个社区驱动的排行榜，依赖日常用户的免费众包反馈，但专有模型供应商收集到的测试提示和模型对战结果远多于其他方。

Chatbot Arena 是一个社区驱动的排行榜，受益于日常用户提供的免费、众包反馈。然而，专有模型供应商收集的测试提示和模型对战结果远多于其他供应商。据估计，谷歌和 OpenAI 分别收到了 Arena 上所有测试提示的 19.2% 和 20.4%。我们这是基于不同供应商模型在 Arena 上进行的对战总份额估算得出的（如 [图 4] 所示）。相比之下，总共 41 个完全开源的模型合计仅收到了估计占总量 8.8% 的数据。

Chatbot Arena is a community-driven leaderboard that benefits from free, crowdsourced feedback provided by everyday users. However, proprietary model providers collect significantly more test prompts and model battle outcomes than others. Google and OpenAI have received an estimated 19.2% and 20.4% of all test prompts on the arena, respectively. We estimate this based on the share of total battles played by the models of different providers on the Arena (as shown in [Figure 4]). In contrast, a combined 41 fully open-source models have only received an estimated 8.8% of the total data, collectively.

数据，作为 AI 时代的“石油”，其分配不均直接导致了起跑线的不平等。Chatbot Arena 本应是众包智慧的结晶，却在无形中加剧了数据富集效应，使得强者恒强。这对于依赖社区反馈进行迭代的开源模型而言，是结构性的不利。

3. Chatbot Arena 数据访问带来显著性能提升

数据访问的差异并非无关紧要。研究表明，通过在 Chatbot Arena 数据上进行训练，可以显著提高模型排名。

供应商之间数据访问的差异至关重要；我们估计，通过在 Chatbot Arena 数据上进行训练，模型排名可以得到显著提高。在一个受控的实验环境中，我们观察到将 Arena 训练数据比例从 (0% → 70%) 增加，在 ArenaHard (Li et al., [2024c]) 上的胜率从 23.5% 提高到 49.9% 以上，翻了一倍多。我们认为这是一个保守的估计，因为一部分供应商对私有 API 数据拥有不成比例的访问权限，如果使用这些数据，可能会产生更大的性能提升。

The differences in data access between providers matter; we estimate that by training on Chatbot Arena data, model ranking can be improved significantly. In a controlled experimental setting, we observe that increasing the arena training data proportion from (0% →→\rightarrow\leavevmode\nobreak\ →70%) more than doubles the win-rates from 23.5% to 49.9% on ArenaHard (Li et al., [2024c]). We believe this is a conservative estimate, as a subset of providers have disproportionate access to private API data, which, if used, can potentially yield even greater performance gains.

这一发现量化了数据不对称带来的直接后果。当特定数据集（如 ArenaHard）的训练数据能显著提升排行榜表现时，拥有这些数据就意味着拥有了影响排名的潜在优势。这不禁让我们思考，我们看到的“智能”在多大程度上是真实能力的体现，又在多大程度上是对特定测试环境的适应？

4. 模型弃用可能导致不可靠的排名

论文揭示了大量模型被“无声弃用”的现象，即模型在未正式通知的情况下被有效地从活跃评估中移除。

如 [图 17] 所示，在 243 个公共模型中，有 205 个已被无声弃用。这远高于 Chatbot Arena 后端代码库 FastChat 中正式列为已弃用的 47 个模型。我们表明，弃用会违反作为 Arena 评分基础的 Bradley-Terry 模型 (Bradley & Terry, [1952]) 的关键假设，从而降低排行榜排名的可靠性。至关重要的是，我们发现开放权重和开源模型更容易被弃用，因此获得的评级也不可靠。在被无声弃用的模型中，66% 是开放权重或完全开源的。

As shown in [Figure 17], out of 243 public models, 205 have been silently deprecated. This is a significantly higher number than the 47 models officially listed as deprecated as part of Chatbot Arena’s backend codebase, FastChat. We show that deprecation can violate key assumptions of the Bradley-Terry model (Bradley & Terry, [1952]), which underpins Arena scoring, thereby reducing the reliability of the leaderboard rankings. Critically, we find that open-weight and open-source models are far more likely to be deprecated and, hence, receive unreliable ratings. Among the models that are silently deprecated, 66% are open-weight or fully open-source.

模型的“无声下架”不仅影响了排行榜的即时准确性，更对历史数据的可信度造成了侵蚀。尤其是开源模型更容易受到此类操作的影响，这进一步削弱了排行榜作为中立评估工具的公信力。Bradley-Terry 模型作为评分基础，其假设被破坏，整个评价体系的可靠性便岌岌可危。

Arena 数据的独特性与过度拟合风险

论文还讨论了模型可能过度拟合 Chatbot Arena 特定数据特征的风险。

Arena 数据的独特性。供应商可能积极优化 Chatbot Arena 分布的一个原因是，如果它与供应商可能关心的其他评估环境有显著差异。有足够的信号表明情况确实如此。Chatbot Arena 提示的上下文长度限制为 12000 个字符，这使得某些类型的更长或更复杂的输入无法被评估，并可能导致提问内容的选择偏差。Arena 的用户群偏向于开发者，这可能导致对谜题、数学问题以及诸如“strawberry 中有多少个 r？”这类问题的过度索引。例如，在 Arena 发布的一个包含 33k 样本的数据集 (Zheng et al., [2024]) 中，没有提及乔叟的问题，而有几十个关于《星际迷航》的问题，突显了这个测试集中主题分布的不均匀。对于全球技术提供商而言，现实世界的商业应用可能与此分布有显著不同。

Uniqueness of Arena Data. One reason providers may be motivated to explicitly optimize for Chatbot Arena distribution is if it differs substantially from other evaluation settings that providers may care about. There is sufficient signal to suggest this is the case. There is a context length limit of 12000 characters on Chatbot Arena prompts, which excludes certain types of longer or more complex inputs from being evaluated, and can result in a selection bias of what is asked. The user base of the Arena leans towards developers, which could result in the over-indexing of puzzles, math problems, and questions such as How many r’s are there in strawberry?. For example, in a released dataset from Arena (Zheng et al., [2024]) with 33k samples, no questions are referencing Chaucer while dozens of questions are about Star Trek, highlighting the uneven distribution of topics in this test set. For a global technology provider, real-world commercial applications may differ significantly from this distribution.

Chatbot Arena 数据集的独特性——例如对特定类型问题（如谜题、《星际迷航》相关内容）的偏好和对上下文长度的限制——意味着模型可能在针对性优化中变得“偏科”。这种对特定基准的过度拟合，可能与真实世界多样化、复杂化应用场景的需求背道而驰。这提醒我们，任何单一基准都有其局限性，真正的技术突破需要在更广阔的舞台上得到检验。

结论与呼吁

论文的结论掷地有声，直指少数顶级行业实验室的“刷榜”行为是 AI 研究领域的一个“新低谷”。这不仅是对 Chatbot Arena 运营方的警示，更是对整个 AI 科研共同体的呼吁。研究者们提出的行动建议包括禁止分数撤回、限制私下测试变体的数量、制定明确的弃用标准、改进抽样公平性以及提高整体透明度。

The Most Valuable Commodity in the World is Friction | 世界上最有价值的商品是摩擦力

本文深入探讨了经济评论家 Kyla Scanlon 的一篇发人深省的文章——《世界上最有价值的商品是摩擦力》(The Most Valuable Commodity in the World is Friction)。Scanlon 以其将复杂经济现象“氛围化”（vibes-based analysis）的独特解读而闻名，她在这篇文章中敏锐地指出，在未来（设定于 2025 年），“摩擦力”——即驾驭系统所需的努力——已然成为最宝贵的商品。

文章的核心观点是，这种“努力”正在经历一场深刻的价值重估和分配重塑。一方面，人工智能正在迅速消除数字世界中的摩擦力，无论是模拟陪伴还是学术辅助；另一方面，精心策划的空间（如纽约的西村）则将摩擦力美学化、商品化，供特定人群消费以优化生活方式。而与此同时，那些资金不足的物理基础设施和不堪重负的劳动者，则被迫承接了被转移和倾倒的摩擦力。

这种摩擦力的重新分配，不仅加剧了社会的不平等，催生出三个截然不同的世界——无摩擦的数字世界、摩擦力饱和的物理世界，以及高价管理摩擦力的精选空间——更迫使我们重新审视经济的优先事项，并呼吁对物理系统进行再投资。文章还巧妙地穿插了对沃伦·巴菲特卸任及其对经济不可持续性警告的观察，为这一分析增添了更深远的宏观背景。

Kyla Scanlon 在文章开篇，通过一次因基础设施问题导致的旅行中断的个人经历，引出了她对“摩擦力”的核心思考：

我想谈谈摩擦力。不是法规或交易成本，而是穿梭于各个系统所需的努力，以及这种努力在当今经济中是如何被重新分配的。我们曾被教导努力至关重要！努力工作、认真学习、创造价值就会得到回报。我这听起来有点像老头子对着云彩抱怨，但我保证我有一个观点——我们正处在一个摩擦力被自动化地从体验中移除、在精心策划的生活方式中被美学化，并被倾倒在资金不足的基础设施和过度劳累的劳动力之上的世界。努力并没有消失，它只是转移了。

I want to talk about friction. Not regulations or transaction costs, but the effort required to move through systems, and how that effort is being redistributed in today's economy. We were taught that effort matters! That working hard, learning well, and building value would be rewarded. I sound a little like old-man-yelling-at-cloud, but I promise I have a point - we have a world where friction gets automated out of experiences, aestheticized in curated lifestyles, and dumped onto underfunded infrastructure and overworked labor. The effort doesn't disappear; it just moves.

Scanlon 此言点出了一个根本性的转变：我们长期以来所珍视的“努力”及其价值正在被重新定义和衡量。对于平台构建者和投资者而言，这不仅仅是用户体验的优化问题，更关乎价值在何处产生、如何被感知以及被谁捕获。当“努力”本身成为一种可转移、可交易的资源时，我们对效率、便利乃至成就的传统认知都受到了挑战。这正是“平台思维”需要解码的前沿动态——理解这种转移如何重塑市场逻辑和用户期望。

随后，Scanlon 构建了一个分析框架，将经济划分为三个因摩擦力不同而截然相异的领域：

摩擦力已成为整个经济的一个决定性特征，对从教育到基础设施的一切都产生了巨大影响。它创造了三个完全按不同规则运作的截然不同的世界：数字世界几乎没有摩擦力。物理世界充满了摩擦力。而在某些精心策划的空间——比如西村，或者你的 AI 伴侣——摩擦力已经被转化为一种你可以付费消除的东西。

Friction has become a defining feature across the economy, with huge consequences for everything from education to infrastructure. And it's created three distinct worlds that operate by entirely different rules: The digital world has almost no friction. The physical world is full of it. And in certain curated spaces - like the West Village, or your AI companion -friction has been turned into something you can pay to remove.

这个三界划分法（数字无摩擦、物理高摩擦、精选空间可控摩擦）为我们提供了一个极具穿透力的视角，去观察技术进步如何撕裂并重构我们的现实。

在探讨几乎消除了摩擦力的“数字世界”时，Scanlon 提出了一个超越“注意力经济”的新概念——“模拟经济”：

我认为我们正在见证的不仅仅是注意力经济的延伸，而是一种新的东西——模拟经济。它不再仅仅是为了让你粘在屏幕上。它是要说服你，任何形式的现实世界努力都是不必要的，摩擦力本身已经过时了。模拟不仅仅占据你的注意力，对吧，相反，它取代了参与本应需要努力的观念本身。这……太疯狂了。

I think what we're witnessing isn't just an extension of the attention economy but something new - the simulation economy. It's not just about keeping you glued to the screen anymore. It's about convincing you that any sort of real-world effort is unnecessary, that friction itself is obsolete. The simulation doesn't just occupy your attention, right, instead it replaces the very notion that engagement should require effort. Which is… wild.

“模拟经济”的提出，精准地捕捉了 AI 等技术带来的深层心理及行为转变。如果说注意力经济是将用户的关注时间货币化，那么模拟经济则是更进一步，它试图用无摩擦的数字体验替代现实世界的复杂互动，甚至消解“努力”本身的价值。

Scanlon 接着剖析了这种“去摩擦化”对教育等传统价值体系的冲击，揭示了一种“错位问题”：

这是一个错位问题。经济信号（文凭）仍在流通，好像基础工作已经完成。但工作并不存在。我们只是将摩擦力转移到了屏幕之外，并将其外包给了一个聊天机器人，让系统假装什么都没改变。因此，在此时此刻，我们正在认证那些能为你代劳思考的工具的熟练使用者。

This is a misalignment problem. The economic signal (the diploma) still circulates as if the underlying work has occurred. But the work isn’t there. We’ve just shifted the friction offscreen, and have outsourced it to a chatbot and let the system pretend nothing’s changed. So at this moment, we are credentialing fluency with tools that do the thinking for you.

这直指一个核心矛盾：当过程中的“努力”被 AI 轻易取代，结果（如文凭）的含金量便岌岌可危。这不仅是教育体系的危机，更是对整个社会价值评估体系的拷问。如果“思考”本身可以外包，那么我们培养的究竟是问题解决者，还是仅仅是工具操作员？对于构建未来工作平台和人才生态的企业而言，这意味着需要重新思考如何识别、衡量和培养真正的核心能力，而不仅仅是表面上的“工具熟练度”。

与数字世界的极致顺滑形成强烈反差的，是物理世界的日益“粗糙”。Scanlon 以美国联邦航空局 (FAA) 的系统性问题为例，生动描绘了物理基础设施在被忽视后的困境：

这就是我们将公共基础设施视为科技平台时发生的情况……永远在线、低管理费用、最少的人头。我自己航班改道只是更大规模问题模式中的一个小数据点。FAA 的设备现在每周大约发生 700 次故障。管制员每周六天，每天工作 10 小时。一些没人再生产的组件，其替换零件积压如山。

This is what happens when we treat public infrastructure like a tech platform… always on, low overhead, minimal headcount. My own diverted flight was just one minor data point in a much larger pattern of problems. The FAA's equipment now fails approximately 700 times weekly. Controllers work 10-hour shifts, six days straight. There's a backlog of replacement parts for components nobody manufactures anymore.

这段描述如同一面镜子，映照出技术乐观主义光环下被遗忘的角落。当资本和创新过度集中于“轻资产”的数字领域，那些构成社会运转基石的“重资产”——交通、能源、公共服务——却因投入不足而摩擦力剧增。这种“地面塌陷”不仅影响日常生活，更限制了数字经济的进一步发展。对创业者和政策制定者而言，这提出了一个尖锐的问题：如何在数字世界的无限可能与物理世界的有限承载之间取得平衡？被“倾倒”的摩擦力，最终会以何种形式反噬整个系统？

Scanlon 进一步指出，这种摩擦力的不均衡分配，正在固化一种新的阶层体验：

这就是当前的经济状况：摩擦力已经成为一种阶层体验。财富总是能帮助抚平颠簸——但是当物理世界如此混乱，而数字世界如此容易时，如果你有钱，将数字化的便利融入物理世界就变得很简单。

This is the economic story: friction has become a class experience. Wealth has always helped smooth over bumps - but when the physical world is such a mess and the digital world is so easy, it’s simple to curate the digital into the physical if you have money.

“摩擦力成为一种阶层体验”这一论断，揭示了技术进步可能带来的社会分化新维度。当一部分人能够通过财富购买“无摩擦”或“精选摩擦”的生活，而另一部分人则在日益恶化的物理环境中挣扎，社会契约的基础便受到侵蚀。这对于致力于构建普惠性平台的科技公司来说，是一个不容忽视的伦理和社会责任命题。我们是技术的普惠者，还是无意中成为了这种新型不平等的加速器？

在文章的结尾，Scanlon 并没有将摩擦力简单视为敌人，而是赋予了它新的意义——信息和机遇：

这就是现在的经济。不是机会的分配，而是摩擦力的重新分配。但是摩擦力并非敌人！！！！它是信息。它告诉我们哪些地方正在承受压力，哪些地方需要关怀，哪些地方应该投入关注。而且，这并非全是坏消息。因为摩擦力也是新系统得以涌现的地方。

This is the economy now. Not a distribution of opportunity. A redistribution of friction. But friction isn’t the enemy!!!! It’s information. It tells us where things are straining and where care is needed and where attention should go. And it's not all bad news. Because friction is also where new systems can emerge.

摩擦力，如同系统中的“痛点”，它暴露了既有模式的不足和张力，但也正是在这些压力点上，蕴藏着创新的巨大潜能。

How to live an intellectually rich life | 如何过上智识丰盈的生活

Utsav Mamoria 的这篇文章略显枯燥，但它是这样开头的：

95% 的维基百科文章都与哲学有关。

95% of all Wikipedia articles led to philosophy.

文章开篇即点出我们时代的核心困境——认知焦虑。Mamoria 精准地捕捉到，这种源于对知识真实性与完整性的不确定感，正困扰着每一个渴望求知的人。他并未止步于描述焦虑，而是引入了“康威生命游戏”这一精妙隐喻，为我们揭示思想如何如生命般演化与“涌现”。

康威生命游戏是涌现和自组织的一个例子。当我们被丰富多样的思想包围时，复杂的思想就会涌现。这些思想是独特的，与它们最初源于的那些思想并不相似。即使最初的思想看起来简单且互不关联，自发的秩序也可能出现，从而产生卓越的见解。

Conway’s Game of Life is an example of emergence and self-organisation. When we surround ourselves with abundant, diverse ideas, complex ideas emerge. These ideas are unique and do not resemble the ideas from which they emerged. Even if the initial set of ideas seem simple and disconnected, spontaneous order can emerge, leading to brilliant ideas.

这不仅是对智识成长规律的深刻洞察——即多元观点的碰撞能催生出超越原始碎片的独特洞见——更是对创新思维本质的生动诠释。随后，Mamoria 引领我们踏上一段穿越象征性奇境的旅程，每一步都旨在装备我们应对特定挑战、解锁更高层次的思考。

逃离“摩尔厄境”(Moradoom) —— 晚期资本主义的常青森林

首先，我们遭遇“摩尔厄境”，一个由“吞噬一切的常青树”构成的隐喻森林，象征着现代社会中永无止境的索取与压力。

在滋养这些树木的过程中，我们牺牲了自己的身心。它们的要求永无止境——它们总是想要更多，而每一次我们付出更多，我们就会被标记为可以被榨取更多的人。它们常青果实的代价，是通过日益剥削我们的闲暇时光来支付的。我们用逝去梦想的泪水和关系坟墓的残骸来滋养这些树木。

In the process of feeding these trees, we sacrifice our mind and body. They are relentless in their asks - They always want more, and each time we give more, we are marked as someone from whom more can be extracted. The cost of their evergreen fruit is paid through the ever increasingly exploitation of our leisure time. We nurture these trees with tears of our dead dreams and the graves of our relationships.

这段文字以其痛切的真实感，呼应了无数在“增长”与“效率”的巨轮下感到身心俱疲的个体。解决方案并非对抗，而是转向内心，挥起“满足之斧”(Axe of Satisfaction)。

因为一旦我们找到了满足感，我们通过过度消费物品和体验来提升地位的需求就会减少。我们将不再有地位焦虑，并且会大大减少对世界如何看待我们的担忧。

Because the moment we find a sense of satisfaction, our need to elevate our status through overconsumption of objects and experiences will diminish. We will no longer have status anxiety and we will worry far less about how the world perceives us.

“满足之斧”并非鼓励停滞，而是倡导一种内在的丰盈感，一种对“足够”的清醒认知。在物欲横流的时代，这份源自内心的平静，是重获精神自主、抵御外界无尽索求的盾牌。

告别“伊格默尔”(Igamor) —— 无知的迷失洞穴

旅程的下一站是“伊格默尔”，作者借用柏拉图经典的“洞穴之喻”，描绘了我们固守偏见、逃避与现有认知相悖的真理的倾向。

当我们面对真正挑战我们世界观的事物时，我们选择无知。只关心那些直接影响我们的事情。只消费那些我们感官容易感知的东西。我们退回到我们所知道的，我们回归到我们的偏见。我们将已知的无知作为真理的来源。而从本质上讲，这种无知是令人迷失方向的。

When we are faced with something that genuinely challenges our worldview, we choose ignorance. Caring only about the things which immediately affect us. Consuming only that which our senses can easily perceive. We fall back on what we know, we revert to our biases. We make our known ignorance a source of truth. And at its heart, this ignorance is disorienting.

在信息茧房效应日益显著的今天，这种对认知舒适区的固守尤为危险。走出洞穴的工具，是“好奇心火炬”(Torch of Curiosity)。

柏拉图说，是观念，而非我们通过感官所知的物质世界，拥有最高和最根本的实在性。让观念在我们生活中占据中心地位的最简单方法，我们为逃离迷失的无知洞穴所能采取的最小步骤，就是用好奇心的火炬来消灭这些洞穴的黑暗。

Plato says that it is ideas, and not the material world known to us through sensation, possess the highest and most fundamental kind of reality. The simplest way to have ideas take centre stage in our lives, the smallest step we can take to escape the disorienting caves of ignorance is to annihilate the darkness of these caves with The Torch of Curiosity.

这束光芒不仅照亮未知，更确立了“观念”的核心价值，鼓励我们超越表象，勇敢地拥抱那些可能颠覆我们既有认知的新思想。

航行于“恒久之河”(Evermore) —— 责任之河

日常生活中的责任与琐碎，如同“恒久之河”，川流不息。Mamoria 提出的导航工具是“常规之桨”(Oars of Routine)。

例行公事在一个方面非常出色——它们消除了做决策的需要。那些关于日常琐事、需要在短时间内做出的决策。我们渴望多巴胺、压力重重的大<x_bin_118>被要求做得太多、太频繁。一个精心设计的例行公事将释放出身体时间和精神空间，让我们的好奇心得以蓬勃发展。

Routines are amazing in one single way - They take away the need to make decisions. Decisions about mundane things, which need to be made in a short amount of time. Our dopamine hungry, stress addled brains are being asked to do too much, too often. A carefully crafted routine will free up both physical time and mental space to allow for our curiosity to thrive.

这并非倡导僵化刻板，而是强调通过建立高效的日常结构，将宝贵的认知资源从重复决策中解放出来，为深度思考和好奇心的滋养创造“留白”。

攀登“启明山脉”(Luminspire) —— 知识之巅

智识旅程的向往之地是“启明山脉”，代表着知识的顶峰。然而，真正的攀登者需要非凡的谦逊和勇气，愿意从已有的“山峰”上走下来。

因为离开你的顶峰意味着要经历放弃所有知识观念的不适，并愿意再次成为一名学生。你需要接受你对这个新顶峰一无所知。匈牙利裔美国精神病学家托马斯·萨斯曾说过：“每一次有意识的学习行为都需要承受自尊受损的意愿。”

Because getting off your peak would mean going through the discomfort of abandoning all notions of knowledge, and being willing to become a student again. You will need to accept that you know nothing about this new peak. Thomas Szasz, a Hungarian-American psychiatrist, once remarked 'Every act of conscious learning requires the willingness to suffer an injury to one's self-esteem.'

这种甘愿承受“自尊受损”的意愿，正是持续学习与成长的核心。它要求我们放下过去的成就，以初学者的心态拥抱未知，呼应了“成长型思维”的精髓——在挑战与“无知”面前，看到的是机遇而非威胁。

记录与涌现：写作的魔力

最后，Mamoria 强调了记录这场智识探险的重要性，而写作，则是实现这一点的最佳途径。

为自己写作，而不是为任何人。写作的行为迫使你清晰地思考。它让你以合乎逻辑的流程将你的想法付诸纸上。它让你建立起以前未曾看到的联系。它让你产生以前看似不切实际的想法。写作是思想和自我的涌现。

Write for no one but yourself. The act of writing forces you to think clearly. It makes you commit your ideas to paper in a logical flow. It allows you to make connections you did not see earlier. It allows you to come up with ideas that seemed implausible. Writing is emergence, of the ideas and the self.

写作，在此处被提升到了一个全新的高度：它不仅是知识的梳理与存档，更是思维的冶炼场和创新的孵化器。通过将模糊的念头付诸文字，我们被迫进行结构化思考，在这一过程中，新的洞见与连接往往会如“涌现”般自然生成。

结语：绘制你的智识生活地图

Utsav Mamoria 的这篇文章，为我们提供了一份极具启发性的智识生活指南。它昭示我们，在信息泛滥、焦虑丛生的时代，要构建一个丰盈的内心世界，需要我们主动拥抱多元的知识源泉，以永不枯竭的好奇心为罗盘，用精心构建的日常秩序为深度思考留出空间，并乐于与智者同行，虚心求教。而这一切的核心，在于通过持续的思考与书写，让思想在碰撞中升华，最终抵达的不是简单的答案，而是更深刻的理解与更有价值的追问——这本身就是一场不断发现自我、塑造未来的智识远征。

Short-form Notes

Tom Tunguz: AI Agent 作为新的分发渠道

由于人工智能直接回答用户查询，传统网站的流量急剧下降，一种新的爆炸性分发形式正在出现。

“人工智能代理现在创建 Neon 数据库的速度是人类开发者的 4 倍，这推动了对即时配置、自动扩展和隔离环境的新需求。”

...

产品主导型增长公司现在有了一个新的重要渠道需要掌握：人工智能作为首席采购官。

As traffic to traditional websites plummets due to AI answering user queries directly, there is a new explosive form of distribution.

“AI agents are now creating Neon databases at 4x the rate of human developers, driving new requirements for instant provisioning, automatic scaling, & isolated environments.”

...

Product-led growth companies have a new & important channel to master : AI as the Chief Procurement Officer.

via An Explosive New Distribution Channel

Anish Acharya (A16Z): 对 OpenAI 收购 Windsurf 并任命“应用 CEO”的看法

以下是我对 OpenAI 收购 Windsurf 并任命“应用 CEO”的看法。

有一个在大型电信时代流行的概念叫做“批发转移定价”，它实际上是供应商从价值链中的其他所有参与者那里提取利润的能力，特别是在消费层面。在极端情况下，这种能力如此之强，以至于他们可以从产业链的其他环节提取（几乎）所有利润，就像唱片公司（比如披头士的独家供应商）和音乐流媒体服务之间发生的情况那样。当你是行业的独家供应商时，根本不需要垂直整合。

我认为这就是 OpenAI 之前所处的情况，因为他们拥有最前沿和最主导的基础模型，所以他们只需要继续致力于通用人工智能（AGI）的研发，并通过提高价格来获取生态系统中的所有经济收益。

然而，我们现在生活在一个消费层应用可以复用和路由到不同基础模型的世界中，这对（基础模型）供应商不利，限制了他们获取下游经济效益的能力。在这种情况下，OpenAI 必须进行垂直整合并掌控消费层以保护其经济利益，因此最近才会关注 AI 应用。

Here is my 2 cents on OpenAI buying Windsurf + appointing a “CEO of applications”.

There is a concept that was popularized during the big telco era called “wholesale transfer pricing” which is effectively the ability of a supplier to extract margin from everyone else in the value chain, most notably the consumption layer. In extreme cases this power is so high that they can extract (largely) all of the profits from the rest of the stack, as has happened with record labels (unique suppliers of the Beatles, for example) and music streaming services. There is no need to vertically integrate when you're a unique supplier to an industry.

I think this was the situation that OpenAI seemed to be in as they had the most cutting edge and dominant foundation models, so all they had to do was keep working on AGI and raising prices to capture all of the economics in the ecosystem.

However, we're now living in a world where consumption layer apps are multiplexing and routing to different foundation models, which is disadvantageous for (foundation models) suppliers and limits their ability to extract down-funnel economics. In that world OpenAI must vertically integrate and own the consumption layer to protect their economics, thus the recent focus on AI Applications.

via https://x.com/illscience/status/1920899252508913913

← Back to Newsletter Archive