04.21.25: 自动运营的生意
或许特斯拉老员工可能还记得几年前的光景:司机小心翼翼地将刚下线的新车挪到指定位置,空气中弥漫着轮胎摩擦地面的味道和对讲机的嘈杂指令。但现在,他看到的只有一辆辆崭新的电动车,像被无形之手牵引,安静、精准地自行停靠。没有犹豫,没有错误,只有算法驱动下的冷酷效率。人类的角色,从方向盘后的主导者,变成了监控屏幕前的观察者。

这并非孤例。从推荐算法到自动化仓库,智能系统正在悄然接管那些曾经完全由人驱动的环节。这让我们不得不问:这种“自动驾驶”的模式,能否应用于公司运营的核心——那些充斥着沟通、协调、甚至办公室政治的日常决策?如果答案是肯定的,那么未来的公司,还需要多少“司机”——甚至于,公司这个概念本身,是否需要被重新定义?
要理解 AI 可能带来的颠覆有多深远,我们首先需要回溯“公司”这一组织形式是如何演变成我们今天熟悉的模样的。它的诞生和演化,本身就与技术和制度的变革息息相关。
公司的起源
回顾历史,现代公司并非凭空出现,而是技术、法律与商业需求长期互动塑造的产物。早期合作社的雏形,在中世纪演变为拥有“法人地位”的组织,能够独立于成员存在。
大航海时代是关键的催化剂。荷兰东印度公司等特许贸易巨头,不仅推动了全球贸易,也推动了有限责任和可交易股份等核心概念,将高风险的远洋探索转化为可投资的金融工具,这为现代公司聚集资本奠定了基础。
真正的标准化发生在工业革命时期。蒸汽机、铁路等技术突破要求更大规模、更复杂管理的组织。法律随之跟进:英国的《合股公司法》(1844)和《有限责任法》(1855)等关键立法,将法人资格、有限责任、股份制这些现代公司的核心特征普及开来,极大地释放了投资和创业的活力。技术(如蒸汽机)驱动了生产力(工厂),生产力需要资本,而现代公司正是承载大规模资本进行复杂生产的法律与组织载体。这个由技术和法律共同驱动的循环,塑造了我们所熟知的工业时代商业格局。
随后的电力、化工革命催生了更庞大的科层制工业集团和内部专业分工(如研发、营销部门)。而近几十年的信息革命,则通过互联网降低了信息成本和连接成本,催生了更灵活、网络化的组织形态,并由风险投资提供了新的燃料。
每一次技术浪潮都重塑了公司的运作方式和边界。
公司运营的“自动驾驶”
公司是人类社会分工的一个微观缩影。我们习以为常的组织结构是以人类为主视角设计的,传统意义上的公司运营也依赖人为设计的复杂分工。
这里所说的“分工”实际上有两层含义:
- 分工是为了协作,而协作就需要“接口”,这就是使得沟通和协调性的工作变得非常重要。
- 分工是为了制衡,人类复杂的利益动机,使得公司内的组织结构设计需要帮助权责利对等,而分工是实现这一目标的手段。
以财务部门为例,其核心作用体现在两方面:
- 统一语言:将各部门的业务数据转化为标准化的财务指标,建立公司内部通用的沟通体系。专业术语不是为了复杂化,而是为了精确表达经营状况。
- 客观制衡:作为中立角色,财务通过统一标准防止部门间的数据博弈。例如在季度末把关收入确认,既确保合规性,也维持内部公平性。
这种“接口 + 制衡”机制,正是公司内部协作的基础架构。
推演下来,公司的前台、中台、后台设计,往往都有类似的功能:设定接口,制衡利益。特别是中后台,很多时候既能通过接口来汇总微观业务,形成宏观判断,又是利益冲突的防火墙和守门员。
对于 AI 而言,这可能是多余的:我们已经看到,它最擅长的就是“转译”数据,汇总信息。类似财务这样的人类接口,其实就是在做类似的工作。多年积累下来的会计准则和监管要求,已经为 AI 准备了大量可以直接利用的规则,帮助 AI 形成对于业务的一致理解,最终在 Agent 的框架下,形成决策。同时,AI 本身没有人类的利益动机,也就无所谓“制衡”。
以供应链为例,传统模式下的库存管理往往是一场复杂的跨部门协调,涉及预测、采购、物流等多个环节,任何细微的偏差都可能导致代价高昂的库存积压或缺货。每个月末,财务团队的灯光都要亮到深夜,他们在 Excel 迷宫中核对数字,试图从滞后的报表中解读业务的脉搏。但 AI 绕过了这层“翻译”。它直接潜入实时交易流、用户点击路径、供应链的每一个节点,寻找人类视觉难以捕捉的模式——比如,一个错误的销售预测,意味着数百万的货物要么积压在深圳的仓库里,要么让焦急等待的客户扑空。而 AI 的动态调整能力,让库存像潮汐一样随市场需求自然涨落,既不留残渣,也不制造干涸。
更深一层,AI 的潜力在于重新定义信息的流动。想象一下市场部和销售部因为 KPI 冲突而互相隐瞒数据,导致决策失准——AI 则基于全局最优,冷酷地打破这些信息孤岛。传统企业中,数据被切割为部门专属的“领地”,财务看报表,市场看用户画像,运营看物流效率。而 AI 将这些数据整合为一个流动的整体,基于业务实质驱动决策。这种“去中介化”的能力,让公司运营从碎片化走向系统化,宛如自动驾驶汽车从感知到决策的无缝衔接。这不仅是效率的提升,更关键的是,它减少了对持续性人类协调和干预的依赖,为实现更高阶的运营自动化(类似于自动驾驶从 L1/L2 向 L3/L4 的跃迁)打开了可能性。
然而,这种 AI 驱动的“自动驾驶”并非万能钥匙。不同类型的公司,其核心价值和运营逻辑迥异,对 AI 自动化的接纳程度和实现路径也必然大相径庭。这引出了一个关键问题:哪些公司更容易驶入 AI 自动化的快车道,哪些又会面临独特的挑战?
两类公司,两种命运
借用自动驾驶的等级(L1-L4)概念,我们可以更清晰地理解不同公司在拥抱 AI 自动化运营时的差异。自动驾驶等级越高,意味着系统自主性越强,对人类干预的依赖越低。我们可以将公司大致分为两类:
第一类是追求 L3/L4 级运营自动化的平台型公司,如亚马逊、美团。这些企业处理海量重复性交易,核心竞争力在于效率和规模。AI 在这里可以扮演近乎全权的 Autopilot 角色,接管从供应链优化到定价策略的日常运营。例如,美团的配送系统通过 AI 实时调度骑手,基于交通、订单量和用户偏好动态调整路径,每提升 1% 的效率,就能带来巨大的利润增量。
在这种模式下,AI 不仅是工具,更是运营的核心。人类的角色退居幕后,负责设定战略目标和监控异常,就像 L4 级自动驾驶(系统完全自主,人类仅处理极端异常)汽车的乘客,只需在系统无法处理的极端情况下介入。未来,这些公司的组织结构可能彻底扁平化,传统管理层和部门分工被 AI 的跨职能协调取代,效率达到极致。
这一预测并非过于激进。科技平台型企业已经证明,在技术赋能下,单个员工创造的平均收入远超传统企业。以七大科技巨头(Magificent 7)为例,最新数据显示其员工人均创收约 177 万美元,而标普 500 企业的平均值仅为 34 万美元。这种差距源于科技企业对高价值技术领域和大规模运营的专注,使其在人效比上具有显著优势。

然而,我相信这样的变化并不是一夜之间发生的。过去二十年的互联网、数字化革命,实际上是在竞争、迭代和进化中,逐渐发生的。当我们用“革命”这个词进行叙事的时候,很可能低估了效率演进中缓慢而持续的变革,以及这些变革过程中必然会遇到的内部和外部阻力。从电灯、汽车到现在的 FSD 和 AI,人类社会在技术创新面前整体变现出的是迟疑和滞后,少数的早期采纳者则往往需要面对匮乏的资源和市场。
第二类是其核心价值决定了其自动化水平更接近 L1/L2 的价值驱动型公司。它们依赖创始人注入的独特理念或品牌调性。比如,一家追求独特品味的设计师品牌,其产品不仅是商品,更是一种文化表达。这种“品味”往往涉及人类社会的偏见和分歧,AI 难以完全理解或复制。当客户或合作伙伴对品牌理念产生分歧时,人类必须介入,做出平衡判断。这就像 L2 级自动驾驶(系统处理部分任务,人类需持续监控与介入),系统可以处理很多任务,但驾驶员(即公司决策者)必须时刻保持警惕并随时准备接管。
这就引出了一个反直觉的观察:规模体量更大的平台公司,虽然技术上具备实现 L3/L4 级运营自动化的潜力,但可能面临更大的内部变革阻力;而那些依赖人类判断、更适合 L1/L2 人机协作模式的“小而美”公司,其核心价值的维护本身就限制了自动化向 L3/L4 的深入。那么,AI 对于后者究竟意味着什么?它将如何在这种 L1/L2 的协作模式下,帮助它们在保持“美”的同时实现“自动”?
AI 与“小而美”:边界与协作
如果说平台型公司追求的是 AI 驱动的规模化效率,那么那些以独特价值(“美”)为核心的公司,则面临着一个更复杂的命题:AI 在这里并非简单的“自动驾驶员”,而更像是一个需要精确指令的“副驾驶”。它们是 AI 自动化边界的一个重要体现。
核心的挑战在于“美”——这种主观的、难以量化甚至描述的价值判断。无论是设计师品牌的独特品味,还是社区平台的特定文化氛围(如知乎的“专业”、豆瓣的“文艺”、B 站的“二次元”),这些往往是其生命线。AI 可以处理数据、优化流程,但难以完全理解和驾驭这种基于人类社会偏见、文化背景和微妙情感的“调性”。这天然地将涉及核心“美”的决策限制在需要人类深度介入的 L1(辅助)或 L2(部分自动化)层面。
“小”或许提供了一个可能的协作路径。专注于细分市场,意味着“美”的边界相对清晰,人类可以更容易地为 AI 设定规则和护栏。例如,在社区管理中,AI 可以辅助处理明确违反规则的行为、识别内容趋势,但涉及用户间微妙冲突、维护社区氛围的“居委会”式判断,仍需人类深度介入。AI 在此扮演的是增强者和效率工具的角色(对应 L1/L2 自动化),而非 L3/L4 级的核心决策者。
因此,对于“小而美”的公司而言,AI 自动化并非 L4 级的全盘接管,而是一种 L1/L2 级的人机协作模式。人类负责定义和守护核心的“美”,并做出关键的价值判断;AI 则在明确的边界内,处理标准化、数据驱动的任务,放大人的能力,提升运营效率。这种模式的成功,高度依赖创始人对“美”的清晰定义和战略定力,避免在规模扩张的诱惑下模糊了自身的核心价值。
自动运营公司的边界
将公司运营交由 AI“自动驾驶”,本质上是在追求一种“自动经营的生意”。这背后是人类长久以来的渴望:从维持生存、充满焦虑的“生意”(Business/生意)中解放出来,转向更有创造性或更自由的生活,如同开篇那位从驾驶者变为观察者的特斯拉员工。
公司,这种伴随着工业革命为大规模生产和资本积累而生的组织形式,或许真如一些人所言,只是人类历史上的一种“临时安排”。AI 的到来,无论是在平台企业推动 L4 级自动化,还是在价值型公司实现 L1/L2 级人机协作,都在从根本上动摇着这种安排的基石。
当机器能 autonomously (自主地) 或 collaboratively (协作地) 处理越来越多的经营活动时,我们被迫重新思考:这种 AI 驱动的“自动驾驶”模式,其边界究竟在哪里?它最终将在多大程度上重新定义我们数个世纪以来习以为常的“生意”和“公司”?这或许是未来几十年商业世界最值得探索的问题。
Links + Notes
本周的 Links + Notes 包含 6 篇文章,从 Google 的 AI 崛起到互联网历史,从预测市场的未来到 AI 的范式转变,从 AI Agent 工具协议的隐患,到对 ADHD 认知的重大转变,展现了科技与人文的多个维度。
以下是核心要点:
- Google 的 AI 反击:Google 通过 Gemini 2.5 在性能和成本效率上实现了全面领先,不仅在基准测试上名列前茅,更重要的是在“性能 - 成本”维度上达到了帕累托最优,展示了其在 AI 领域从“迟到者”到“领跑者”的转变。
- AI 的范式转变:AI 研究者 Shunyu Yao 提出我们正从解决问题的“上半场”进入定义问题的“下半场”。随着 RL 和 LLM 结合的技术路径成熟,重点不再是“能否解决问题”,而是“应该解决什么问题”以及如何评估真正的进展。这标志着 AI 发展重心从训练转向评估。
- 互联网起源的人性一面:互联网的诞生源于一个极其具体的痛点 - Robert Taylor 对办公室里太多终端的不满。这提醒我们,重大创新往往始于对日常问题的切实解决,而非宏大愿景的完美执行。
- 预测市场的新定位:Robinhood CEO 将预测市场重新定义为一种信息发现机制,而非赌博工具,强调其作为“更快的新闻源”的价值。这体现了金融科技对传统监管边界的挑战和重塑。
- MCP 的双刃剑效应:虽然 Model Context Protocol (MCP) 为 AI Agent 带来了强大的工具集成能力,但其快速普及也带来了安全、隐私和成本方面的严重隐患,需要在便利性和风险控制之间找到平衡。
- ADHD 认知的革新:《纽约时报》深度报道揭示了 ADHD 研究的重大转向——从将其视为固定的生物学障碍,转向理解它是个体与环境之间的"失配"信号。长期研究显示,药物治疗的效果可能被高估,而环境适配的重要性被低估,这对传统的医疗模式提出了挑战。
Google Is Winning on Every AI Front
Google 在 Gemini 2.5 这一代模型上获得了巨大的成功。前段时间,我一直想要找一篇回溯其 AI 发展的复盘文章,还让 Deep Research 写了个报告。显然,本文提供了更好的视角。
Alberto Romero 敏锐地捕捉到了一个正在发生的关键转变:曾一度被认为在生成式 AI 浪潮中反应迟缓的科技巨头 Google,如今正悄然(或者说,不那么悄然地)在各个关键领域超越竞争对手。

Romero 首先回顾了 Google 在 AI 领域的早期犹豫,那段时期,这家拥有顶尖技术、人才和资源的巨头似乎错失了先机。这种“起了个大早,赶了个晚集”的局面,一度让观察者们感到惋惜。
“所以,多年来,我一直对他们不断的失误感到有些难过。他们拥有技术、人才、资金、基础设施、声望和信念,本可以在 OpenAI 之前做出 ChatGPT——或者他们想做的任何东西。但他们没有。CEO Sundar Pichai 害怕阻碍 Google 的主要收入来源(搜索和广告)。他选择了审慎而非大胆。好吧——他们没有搬起石头砸自己的脚。因为他们根本没有‘开枪’。但那是他们犯的最后一个错误。今天,在 ChatGPT 引发轰动两年半后,Google DeepMind 正在获胜。”
“So, for years, I’ve been low-key saddened by their constant fumbling. They had the tech, the talent, the money, the infrastructure, the prestige, and the conviction to make ChatGPT—or whatever else they wanted—before OpenAI. They didn't. CEO Sundar Pichai was afraid to thwart Google’s main revenue source (search and ads). He chose prudence over boldness. Good—they didn’t shoot themselves in the foot. Because they didn’t shoot at all. But that was the last mistake they made. Today, two and a half years after the ChatGPT debacle, Google DeepMind is winning.”
Romero 指出的这种“审慎”与“大胆”之间的张力,正是大型科技公司面临的典型“创新者窘境”。Google 并非没有能力,而是其庞大的现有业务(搜索与广告)成为了创新的“甜蜜负担”。然而,Romero 强调,这种犹豫已经成为过去式。ChatGPT 的冲击波似乎最终唤醒了沉睡的巨人,使其认识到,最大的风险并非来自内部颠覆,而是来自外部的彻底超越。Google 的“最后错误”之后,迎来的是战略的重新聚焦和资源的全力投入。
Google 的反击并非空谈,其核心武器是其最新的 AI 模型——Gemini。Romero 引用了一系列基准测试结果,证明了 Gemini,特别是其 2.5 Pro 版本,在当前 AI 模型竞赛中的领先地位。
“Gemini 2.5 Pro 实验版是世界上最好的模型。在 LMArena、GPQA Diamond、Humanity's Last Exam 和 AIME(数学竞赛)上排名第一。在像 Aider Polyglot(代码)、Live Bench(多样化)这样的私人基准测试中也是最好的。它在玩《口袋妖怪》(一个有前景的智能体试验场)方面比 Claude Sonnet 更好,并且在 Minecraft Bench(一些示例)上迅速崛起。它在创意写作(例如,长文本理解)方面表现不错,这曾是多年来难以企及的里程碑。”
“Gemini 2.5 Pro Experimental is the best model in the world. Number one on the LMArena, GPQA Diamond, Humanity's Last Exam, and AIME (math competition). It's also the best on private benchmarks like Aider Polyglot (code), Live Bench (diverse). It's better than Claude Sonnet at playing Pokemon (a promising agentic playground) and rising quickly on Minecraft Bench (some examples). It is decent at creative writing (e.g., long-context comprehension), which has been an elusive milestone for years.”
这些基准测试结果不仅仅是数字上的胜利,它们代表了在代码生成、复杂推理、长文本处理乃至初步的智能体(agentic)能力等多个关键维度上的突破。这印证了 Google DeepMind 整合后的研发实力。但 Romero 进一步指出,Google 的优势并非仅仅在于性能的顶尖。
“Swyx 绘制了一张图表,揭示了在两个最重要的指标上——性能和成本——‘Google 凭借 Gemini 2.0/2.5(包括 Pro 和 Flash)占据了帕累托前沿’。不仅如此,Google 性能最强的模型仍然具有成本效益,而其最具成本效益的模型仍然性能良好。Google 在这一点上简直是在欺负竞争对手;Gemini 的表现确实‘爆表’了。”
“Swyx plotted a graph revealing that ”Google owns the Pareto frontier” with Gemini 2.0/2.5 (both Pro and Flash) on the two most important metrics: performance and cost. Not only that, but Google's most performant models remain cost-effective, and its most cost-effective models remain performant. Google is bullying the competition at this point; Gemini is off the charts, literally.”
Swyx 的分析点出了一个更深层次的战略优势:Google 在“性能 - 成本”这一核心竞争维度上,实现了帕累托最优。这意味着在同等性能下,Google 模型的成本更低;在同等成本下,Google 模型的性能更优。这种“鱼与熊掌兼得”的能力,对于需要大规模部署 AI 的企业和开发者而言至关重要,它直接关系到 AI 应用的经济可行性和普及速度。这不再仅仅是技术竞赛,更是商业模式和规模化能力的较量。

Romero 强调,Google 的 AI 野心远不止于聊天机器人背后的语言模型。它正在构建一个涵盖多种模态的生成式 AI 工具箱。
“支撑像 Gemini 和 ChatGPT 这样的聊天机器人的大型语言模型是主要吸引力,但远非唯一。Google 在其他生成式 AI 领域的主导地位,就像它在基于文本的模型领域一样清晰。他们宣布将把他们拥有的其他 AI 工具整合到 Vertex AI 中:Lyria(音乐)、Imagen 3(图像)、Veo 2(视频)和 Chirp 3(语音/言语)。在某种程度上,这些对 Google 来说是‘副业’。尽管如此,它们在各自的类别中仍然是世界级的。”
“The LLMs that underlie chatbots like Gemini and ChatGPT are the main attraction but far from the only one. Google dominates the other generative AI areas just as clearly as it dominates text-based models. They announced they will integrate the other AI tools they have into Vertex AI: Lyria (music), Imagen 3 (image), Veo 2 (video), and Chirp 3 (voice/speech). These are, in a way, side-projects for Google. Still, they’re world-class in their respective categories.”
这一点至关重要。当许多竞争对手仍在主攻 LLM 时,Google 正在利用其深厚的研究积累,在音乐、图像、视频和语音生成等领域同步发力,并将这些能力整合到其云平台 Vertex AI 中。这不仅展示了其技术的广度,更暗示了一种平台战略:提供一站式的、多模态的 AI 能力,从而锁定开发者和企业客户。这些看似“副业”的项目,共同构成了 Google AI 生态系统的护城河。
最后,Romero 指出了 Google 相对于纯 AI 初创公司(如 OpenAI、Anthropic)最难以复制的优势:其庞大的现有用户基础和产品矩阵。
“但搜索仅仅是 Google 七个拥有至少 20 亿月活跃用户的产品之一(搜索、YouTube、安卓、地图、Chrome、Gmail 和 Play Store)。我称赞 OpenAI 让 ChatGPT 达到了 5 亿周活跃用户(再次强调,值得称赞),但他们玩的不是同一个级别的游戏。当 Google 将 Gemini 添加到其整个产品套件中时会发生什么?突然之间,数十亿人将可以免费默认访问世界上最好的 AI。这还没算上同样极其流行的 Workspace 云服务(Drive、Gmail、Docs、Sheets…)。”
“But search is merely one of the seven Google products with at least two billion monthly active users (Search, YouTube, Android, Maps, Chrome, Gmail, and Play Store). I praise OpenAI for getting ChatGPT to 500 million weekly active users (again, laudable), but they play in different leagues. What happens when Google adds Gemini to its entire product suite? Suddenly, billions of people have default access to the best AI in the world for free. That’s without mentioning the also extremely popular Workspace cloud services (Drive, Gmail, Docs, Sheets…).”
Google 的路线或许不是 OpenAI 或 Anthropic 能复制的,但这不正是“幸福的公司”的共性——逃离竞争吗?
技术领先固然重要,但将技术触达数十亿用户的能力,才是 Google 真正的“王牌”。与需要从零开始获取用户的 OpenAI 不同,Google 可以将顶尖的 AI 能力无缝嵌入到用户已经离不开的日常工具中——搜索、邮件、地图、文档、手机操作系统等等。这种“默认访问”和“免费提供”的策略,有可能在一夜之间改变 AI 应用的普及格局,极大地压缩竞争对手的增长空间。这不仅仅是技术分发,更是用户习惯和工作流程的深度整合,其力量是指数级的。
The Second Half
来自 AI 研究者 Shunyu Yao 的这篇文章在周末已经被转发和解读很多了。但我自己读过之后,还是觉得应该在 newsletter 里面分享一下。
Yao 在文中断言,我们正从致力于解决问题的“上半场”,步入一个重心转向定义问题、并以“效用”为核心度量标准的“下半场”。
文章认为,过去数十年,AI 领域的突破主要围绕着开发新的训练方法和模型架构,以攻克日益复杂的基准测试(Benchmark)。然而,随着强化学习(RL),特别是与大型语言模型(LLM)结合进行推理的技术路径日渐成熟,一个强大的、通用的问题“解决配方”已经浮现。这使得单纯提升模型在现有基准上的表现,其边际价值开始递减。
真正的挑战不再仅仅是“我们能否训练模型解决 X 问题?”,而是“我们应该训练 AI 做什么?以及,我们如何衡量真正的进展?” Yao 指出,评价(Evaluation)的重要性正在超越训练(Training)本身,尤其需要我们重新审视现有的评价体系是否真正反映了现实世界的效用。AI 的“下半场”,本质上是如何将智能转化为有用的产品和服务。
Yao 开篇即点明了这场转变的核心:
So what comes next? The second half of AI — starting now — will shift focus from solving problems to defining problems. In this new era, evaluation becomes more important than training. Instead of just asking, “Can we train a model to solve X?”, we’re asking, “What should we be training AI to do, and how do we measure real progress?” To thrive in this second half, we’ll need a timely shift in mindset and skill set, ones perhaps closer to a product manager.
那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练人工智能做什么,以及我们如何衡量真正的进展?” 要在下半场茁壮成长,我们需要及时转变思维模式和技能组合,也许更接近产品经理所需的那些。
这里的关键洞察在于,当“如何做”的技术路径逐渐清晰,“做什么”以及“如何衡量做得好”就上升为主要矛盾。这不仅仅是技术路线图的调整,更是对研究者和开发者提出了新的要求——具备更强的产品思维和对现实世界需求的深刻理解。
为了理解这一转变的背景,Yao 回顾了 AI“上半场”的特征:
Why? A big reason is that, in the first half of AI, methods were harder and more exciting than tasks. Creating a new algorithm or model architecture from scratch – think of breakthroughs like the backpropagation algorithm, convolutional networks (AlexNet), or the Transformer used in GPT-3 – required remarkable insight and engineering. In contrast, defining tasks for AI often felt more straightforward: we simply took tasks humans already do (like translation, image recognition, or chess) and turned them into benchmarks. Not much insight or even engineering.
为什么?一个重要原因是,在人工智能的上半场,方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络(AlexNet)或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程技术。相比之下,为人工智能定义任务通常感觉更直接:我们只是将人类已经在做的任务(如翻译、图像识别或国际象棋)转化为基准测试。这其中需要的洞察力甚至工程量似乎并不多。
这解释了为何像反向传播、CNN、Transformer 这样的基础性创新能够定义一个时代。它们提供了解决一系列问题的通用工具箱,其难度和影响力远超当时定义具体任务(如 ImageNet 分类)本身。当时的重心在于锻造锤子,而非寻找钉子。
推动 AI 进入下半场的催化剂,是近年来以 RL 结合 LLM 进行推理的成功。Yao 对此的描述充满了惊奇:
Thinking, or reasoning, is a strange kind of action - it does not directly affect the external world, yet the space of reasoning is open-ended and combintocially infinite — you can think about a word, a sentence, a whole passage, or 10000 random English words, but the world around you doesn’t immediate change. In the classical RL theory, it is a terrible deal and makes decision-making impossible. Imagine you need to choose one out of two boxes, and there’s only one box with $1M and the other one empty. You’re expected to earn $500k. Now imagine I add infinite empty boxes. You’re expected to earn nothing. But by adding reasoning into the action space of any RL environment, we make use of the language pre-training priors to generalize, and we afford to have flexible test-time compute for different decisions. It is a really magical thing and I apologize for not fully making sense of it here, I might need to write another blog post just for it.
思考,或推理,是一种奇怪的行动——它不直接影响外部世界,但推理的空间是开放的、组合无限的——你可以思考一个词、一个句子、一整段文字,或者 10000 个随机的英文单词,但你周围的世界并不会立即改变。在经典的强化学习理论中,这是一个糟糕的交易,让决策变得不可能。想象一下,你需要在两个盒子中选择一个,其中一个盒子里有 100 万美元,另一个是空的。你的期望收益是 50 万美元。现在想象我增加了无限个空盒子。你的期望收益将变为零。但是,通过将推理添加到任何强化学习环境的行动空间中,我们利用了语言预训练的先验知识来进行泛化,并且我们能够为不同的决策灵活地使用测试时计算资源。这真的是一件非常神奇的事情,我很抱歉在这里没有完全解释清楚,我可能需要再写一篇博客文章来专门讨论它。
这段话揭示了这个“配方”的奇妙之处。将“思考”本身视为一种行动,并利用 LLM 强大的先验知识,极大地扩展了 RL 的能力边界,使其能够处理更复杂、更开放的任务。这种方法的成功,使得解决问题的“配方”变得相对标准化,从而将压力转移到了问题的定义和评估上。
尽管 AI 在基准测试上取得了惊人成就,但 Yao 指出了一个严峻的现实:
Inertia is natural, but here is the problem. AI has beat world champions at chess and Go, surpassed most humans on SAT and bar exams, and reached gold medal level on IOI and IMO. But the world hasn’t changed much, at least judged by economics and GDP. I call this the utility problem, and deem it the most important problem for AI.
惯性是自然的,但问题在于此。人工智能已经在国际象棋和围棋上击败了世界冠军,在 SAT 和律师资格考试中超越了大多数人类,并在国际信息学奥林匹克(IOI)和国际数学奥林匹克(IMO)中达到了金牌水平。但世界并没有因此发生太大变化,至少从经济和 GDP 的角度来看是这样。我称之为效用问题,并认为这是人工智能最重要的问题。
这就是“下半场”的核心困境——“效用难题”。AI 在封闭、明确定义的任务中表现出色,但在转化为广泛的、可衡量的现实世界价值(如经济增长)方面,似乎存在一道鸿沟。这也是我在《02.03.25: AGI 的价格》的中写过的:
基准测试是模型研发的风向标。基准测试很可能在无意中引导了模型走向在特定领域的竞争分化。
问题在于,当前的基准和评估方式,是否真正指向了我们期望 AI 创造的价值?

面对“效用难题”,Yao 给出的答案是,必须从根本上重塑我们衡量 AI 进展的方式:
I think we should fundamentally re-think evaluation. It means not just to create new and harder benchmarks, but to fundamentally question existing evaluation setups and create new ones, so that we are forced to invent new methods beyond the working recipe. It is hard because humans have inertia and seldom question basic assumptions - you just take them for granted without realizing they are assumptions, not laws.
我认为我们应该从根本上重新思考评估。这不仅仅意味着创建新的、更难的基准测试,而是要从根本上质疑现有的评估设置并创建新的设置,这样我们才能被迫发明超出当前有效配方的新方法。这很难,因为人类有惯性,很少质疑基本假设——你只是想当然地接受它们,而没有意识到它们是假设,而不是定律。
这里的呼吁极具穿透力。真正的进步,并非来自于在现有评价体系内卷出更高的分数,而是来自于勇敢地质疑评价体系本身。我们需要设计的,是能够更好模拟现实世界复杂性、模糊性和价值多元性的评估“场景”(setups),而非仅仅是更难的考卷。这要求我们打破思维惯性,审视那些被我们视为理所当然的“假设”。
An Ars Technica history of the Internet, part 1
Ars Technica 以其对技术发展脉络的深度挖掘和严谨叙事而著称。这篇互联网历史系列的第一部分,并非始于宏大的战略构想,而是聚焦于一个几乎可以说是充满“人味儿”的起点,通过一系列关键人物、技术突破和意想不到的转折,为我们“展示”了互联网诞生的偶然与必然。
互联网的诞生,并非源于某个改变世界的宏伟蓝图被完美执行,而是始于一个非常具体、甚至有些琐碎的痛点。Ars Technica 将我们直接带回 1966 年的五角大楼:
“In a very real sense, the Internet, this marvelous worldwide digital communications network that you’re using right now, was created because one man was annoyed at having too many computer terminals in his office. The year was 1966. Robert Taylor was the director of the Advanced Research Projects Agency’s Information Processing Techniques Office... He had three massive terminals crammed into a room next to his office. Each one was connected to a different mainframe computer. They all worked slightly differently, and it was frustrating to remember multiple procedures to log in and retrieve information.”
“从某种非常真实的意义上说,你现在正在使用的这个奇妙的全球数字通信网络——互联网,其诞生仅仅是因为一个人对他办公室里有太多计算机终端感到恼火。那是在 1966 年。罗伯特·泰勒(Robert Taylor)是高级研究计划局(ARPA)信息处理技术办公室(IPTO)的主任……他的办公室隔壁房间里塞了三台巨大的终端机。每一台都连接着不同的主机。它们的操作方式略有不同,要记住多种登录和检索信息的程序令人沮丧。”
Robert Taylor 的“用户体验”问题,成为了催生 ARPANET 的直接动因。许多颠覆性创新往往源于对现状效率低下或体验糟糕的切身感受,而非凭空想象。技术突破常常是为了解决一个迫在眉睫的、具体的问题。
为了解决 Taylor 的问题,并实现 Licklider 的网络愿景,需要一种全新的通信方式。文章生动地解释了“分组交换”这个核心概念:
“Packet switching was the answer. Messages were divided into multiple snippets. The order and destination were included with each message packet. The network could then route the packets in any way that made sense. At the destination, all the appropriate packets were put into the correct order and reassembled. It was like moving a house across the country: It was more efficient to send all the parts in separate trucks, each taking their own route to avoid congestion.”
“分组交换(Packet switching)就是答案。信息被分割成多个片段。每个信息包都包含了顺序和目的地信息。网络随后可以以任何合理的方式路由这些数据包。在目的地,所有相应的数据包按正确顺序排列并重新组装。这就像把房子搬到全国各地:把所有部件装在不同的卡车里,每辆卡车走自己的路线以避免拥堵,这样效率更高。”
分组交换是互联网的基石,其思想的优雅之处在于化整为零、动态路由。这个由 Paul Baran 和 Donald Davies 分别独立提出的概念,不仅解决了当时电话线路效率低下的问题,更奠定了网络去中心化、鲁棒性的基础。
然而,即便有了理论突破,将其工程化也并非易事,甚至连当时的科技巨头都望而却步:
“IBM, Control Data Corporation, and AT&T were among the first to respond to the request. They all turned it down. Their reasons were the same: None of these giant companies believed the network could be built... AT&T flat-out said that packet switching wouldn’t work on its phone network. In late 1968, ARPA announced a winner for the bid: Bolt Beranek and Newman.”
“IBM、Control Data Corporation 和 AT&T 是首批响应(ARPA 招标)的公司之一。但他们都拒绝了。他们的理由都一样:这些巨头公司都不相信这个网络能够建成……AT&T 直截了当地表示,分组交换在他们的电话网络上行不通。1968 年末,ARPA 宣布了中标者:Bolt Beranek and Newman(BB&N)。”
这是一个经典的历史注脚,揭示了创新扩散过程中的“巨头困境”。成熟的大公司往往受限于现有业务模式和对风险的规避,难以拥抱可能颠覆自身基础的技术。AT&T 对分组交换的否定,尤其具有讽刺意味。最终,是规模相对较小的 BB&N 抓住了这个历史机遇。这印证了克里斯坦森的“创新者窘境”理论,也为今天的初创公司提供了历史参照:技术的未来往往掌握在那些敢于挑战现有范式、不被“不可能”吓退的人手中。
硬件问题解决了,软件和协议的标准制定则体现了另一种智慧——协作与开放:
“It wouldn’t matter if the IMPs were perfect at sending and receiving messages if the computers themselves didn’t know what to do with them... Crocker didn’t want to seem like he was a dictator telling people what to do with their machines. So he titled his draft a “Request for Comments,” or RFC. This one act of politeness forever changed the nature of computing. Every change since has been done as an RFC, and the culture of asking for comments pervades the tech industry even today.”
“如果计算机本身不知道如何处理信息,那么即使 IMP 在收发信息方面做得再完美也无济于事……(负责主机软件规范的)克罗克(Steve Crocker)不想看起来像个独裁者,告诉人们该如何处理他们的机器。因此,他将草案命名为“请求评论”(Request for Comments),简称 RFC。这一礼貌之举永久地改变了计算的本质。从那时起,每一项(互联网相关的)变更都以 RFC 的形式完成,这种征求意见的文化至今仍弥漫在科技行业。”
Steve Crocker 的“谦逊”之举,无意间塑造了互联网开放、协作的技术治理文化。RFC 机制不仅避免了早期标准的强制推行可能带来的阻力,更重要的是,它建立了一种基于共识、持续迭代的开发模式。这种模式是互联网能够快速发展、适应性强的关键因素之一,其影响远超技术本身,成为开源运动和现代科技协作的重要文化基因。这再次说明,制度设计和文化建设,与技术突破同等重要。
当然,创新的道路从来不是一帆风顺的。第一次网络连接测试的场景,充满了戏剧性,也揭示了现实的复杂性:
“A single IMP connected to one computer wasn’t much of a network. So it was very exciting in September 1969 when IMP-1 was delivered... The first test of the ARPANET was done with simultaneous phone support. The plan was to type “LOGIN” to start a login sequence. This was the exchange: “Did you get the L?” “I got the L!” “Did you get the O?” “I got the O!” “Did you get the G?” “Oh no, the computer crashed!” ... It was the first time that autocomplete had ruined someone’s day.”
“只有一个 IMP 连接到一台计算机,算不上什么网络。因此,1969 年 9 月 IMP-1 交付时……ARPANET 的第一次测试是在同步电话支持下完成的。计划是输入‘LOGIN’来启动登录序列。当时的对话是这样的:‘收到 L 了吗?’‘收到 L 了!’‘收到 O 了吗?’‘收到 O 了!’‘收到 G 了吗?’‘哦不,计算机崩溃了!’……这是自动完成(autocomplete)第一次毁了别人的一天。”
这个“崩溃”瞬间诠释了“在实践中遇真知”。理论设计再完美,实际运行中总会遇到意想不到的问题(比如,谁能想到自动补全会是第一个 bug 的来源?)。这个故事提醒我们,创新过程充满了不确定性和“搞砸”的可能性。重要的不是不出错,而是快速发现问题、定位问题并从中学习。这种“边建边修”、快速迭代试错的精神,至今仍是硅谷文化的核心之一。
随着网络数量的增加,新的挑战出现了:如何让不同的网络互联互通?这催生了互联网真正的核心协议——TCP/IP:
“Robert Kahn asked Vint Cerf to try and fix these problems once and for all. They came up with a new plan called the Transmission Control Protocol, or TCP... TCP was like an envelope for packets... Afterward, Cerf, Jon Postel, and Danny Cohen suggested a small but important change: They should take out all the routing information and put it into a new protocol, called the Internet Protocol (IP). All the remaining stuff... would stay in TCP. Thus, in 1978, the protocol officially became known as, and was forever thereafter, TCP/IP.”
“罗伯特·卡恩(Robert Kahn)请文特·瑟夫(Vint Cerf)尝试一劳永逸地解决这些(网络互联)问题。他们提出了一个名为传输控制协议(TCP)的新方案……TCP 就像是数据包的信封……之后,瑟夫、乔恩·波斯特尔(Jon Postel)和丹尼·科恩(Danny Cohen)提出了一个虽小但重要的改动:他们应该把所有的路由信息拿出来,放到一个名为互联网协议(IP)的新协议中。所有剩下的东西……将保留在 TCP 中。因此,在 1978 年,该协议正式被称为 TCP/IP,并从此沿用至今。”
TCP/IP 的诞生是解决网络“巴别塔”问题的关键一步。它不仅仅是一个技术解决方案,更体现了一种分层、解耦的设计哲学。将负责数据传输可靠性的 TCP 和负责寻址路由的 IP 分开,使得网络各层可以独立发展和优化。这种模块化的设计极大地增强了互联网的灵活性和可扩展性,是其能够承载未来无数未知应用的基础。Kahn 和 Cerf 等人的工作,不仅统一了当时的各种网络,更为未来的全球互联网奠定了坚实的技术地基。
TCP/IP 的设计哲学,尤其是其分层思想,最终在与官方标准 OSI 的“协议战争”中胜出,并塑造了互联网的治理理念:
“The split design of TCP/IP, which was a small technical choice at the time, had long-lasting political implications... In 2001, David Clark and Marjory Blumenthal wrote a paper that looked back on the Protocol War. They noted that the Internet’s complex functions were performed at the endpoints, while the network itself ran only the IP part and was concerned simply with moving data from place to place. These “end-to-end principles” formed the basis of “… the ‘Internet Philosophy’: freedom of action, user empowerment, end-user responsibility for actions undertaken, and lack of controls ‘in’ the Net that limit or regulate what users can do,” they said.”
“TCP/IP 的分层设计,在当时看来只是一个小的技术选择,却产生了深远的政治影响……2001 年,戴维·克拉克(David Clark)和马乔里·布卢门塔尔(Marjory Blumenthal)在一篇回顾协议战争的论文中指出,互联网的复杂功能是在端点执行的,而网络本身只运行 IP 部分,仅仅负责将数据从一处传输到另一处。这些‘端到端原则’构成了‘……互联网哲学’的基础:行动自由、用户赋权、终端用户对其行为负责,以及网络‘内部’缺乏限制或管制用户行为的控制。”
TCP/IP 对比 OSI 的胜利,不仅是实用主义对官僚主义的胜利,更是“端到端原则”这一核心理念的胜利。这个原则主张网络本身保持“愚笨”(只负责传输数据包),而将智能和控制权放在网络的边缘(用户设备和应用)。这一看似技术性的选择,深刻地塑造了互联网的开放性、创新性和中立性,赋予了用户和开发者极大的自由。理解这一点,对于把握今天关于网络中立性、平台治理等诸多争论至关重要。历史的回声,依然响亮。
Are prediction markets gambling? Robinhood CEO Vlad Tenev is betting not
本文是 Robinhood CEO Vlad Tenev 在 Decoder 播客上的访谈实录。其中,Robinhood 进入预测市场(Prediction Market)领域成为了焦点话题。
自美国大选之后,一度爆火了 Prediction Market 领域有些沉寂,但我们都已经感受到了这个模式强大的预测能力及其背后的经济模式。本文是一次对它的不定期重返。
访谈深入探讨了 Robinhood 从股票交易平台向更广泛金融服务(包括银行业务和备受争议的预测市场)的扩张。CEO Vlad Tenev 认为,预测市场是获取信息的宝贵来源——“更快的新闻”,并强调其与赌博的本质区别:前者由市场共识驱动价格发现,后者则由设定固定赔率的“庄家”主导。
为了进一步将预测市场与传统体育博彩区分开,Tenev 强调了其市场机制的本质:
“因为这是一个市场,没有庄家。买家和卖家在一个交易所直接见面。我们撮合订单,这促进了价格发现。由于没有人设定赔率线,市场决定了赔率线。它成为一种更有效的预测,从用户角度看,价差变得更小,因为出于各种原因,价格发现会导致价差收窄。我认为这是最主要的区别。没有庄家。买卖双方相遇。你可以在比赛进行中退出头寸,这在 [体育] 博彩平台上不是一个常见的特性。它非常相似。你获得了金融市场的所有好处、力量和严谨性。”
“Because this is a market, there’s no house. Buyers and sellers are meeting directly in an exchange. We’re crossing orders, which facilitates price discovery. Since there’s no one setting the line, the market sets the line. It becomes a more effective prediction, and from the user standpoint, the spread gets tighter because, for a variety of reasons, price discovery leads to tightening of spreads. I think that’s the major thing. There’s no house. Buyers and sellers meet. You can get out of a position during a game, which at [sports] betting platforms is not a commonly offered feature. It’s very similar. You get all the benefits and the power and the rigor of financial markets.”
这段话是 Tenev 论证的核心:展示了预测市场如何运作,强调其“市场”属性——无庄家、价格发现、流动性。这是试图将其从感性的“赌博”领域,拉回理性的“金融市场”框架。然而,这种描述是否完全反映了用户体验,尤其是在波动性极高、信息可能被操纵的体育或事件预测中,仍是一个开放的问题。
Tenev 甚至将预测市场的价值提升到了社会信息层面,将其比作新闻业的进化:
“这是过去报纸所服务功能的演变。你有头版,报道人们想了解的、当下热门的事件;然后你有商业版、艺术休闲版、时尚版,当然还有体育版。报纸显然有价值。人们事后愿意为它付费。预测市场实际上让你更快地获得那些新闻;在某些情况下甚至在事件发生之前。我认为它当然具有巨大的经济价值。”
“It’s an evolution of what the newspaper served in the past. You have the front page, which is events that people want information about that are trending right now, then you have the business section, arts and leisure, style, and of course you have sports. And the newspaper obviously had value. People were paying for it after the fact. Prediction markets actually give you that news faster; in some cases before it even happens. I think it certainly has enormous economic value.”
这个类比颇具野心,将预测市场定位为一种先知式的“信息聚合器”。它描绘了一个诱人的前景:市场成为最高效的新闻来源。但这忽略了预测市场可能产生的噪音、操纵以及潜在的负面外部性(例如,过度关注短期预测而非长期价值)。这种理想化的叙事,服务于将预测市场合法化和主流化的目标。
当被问及将银行等“安全”产品与预测市场等高风险产品并列时,Tenev 阐述了他的投资哲学,试图为投机行为辩护:
“我认为我会区分大部分资金的正确投资方式——我确实认为对于大多数有收入和资产的人来说,应该是被动管理。但同时,我也确实认为,那些有收入并且能够被动管理一部分资金的人,我不认为应该全部被动管理,我认为在每个人的投资组合中,都有一部分空间可以进行主动管理。这可能是在你高度确信的领域,无论是 M 型基金、个股、加密货币还是期权。如果你在一家初创公司工作,你实际上就对你所效力的公司持有高度的信念和大量的集中度。如果你认为自己是某个行业甚至体育领域的专家,我认为衍生品市场就属于那个范畴。”
“I think I would distinguish between what the right way to invest is for the bulk of your money, which I do think for most people that have income and assets should be passively managed. But also, I do think people that have the income and can passively manage a portion of it, I don’t think it should all be passively managed, I think there is a room in your portfolio for every person for it to be actively managed. That could be in things that you have high conviction in, whether it’s individual stocks, cryptocurrencies, or options. If you’re at a startup, you implicitly have high conviction and lots of concentration in the company that you’re actually working for. And if you consider yourself an expert in an industry or even in sports, I think the derivatives markets live in that bucket.”
这段话揭示了 Tenev 如何看待风险和用户选择。他承认被动投资的重要性,但坚决捍卫主动管理和“高信念”押注的空间,并将衍生品(包括预测市场)归入此类。这是一种将投机行为正常化、甚至鼓励的视角,认为只要是在个人“专业领域”或“高信念”范围内,高风险交易就是合理的。这与 Robinhood 平台的设计理念——降低交易门槛、提供多样化(且风险各异)的产品——高度契合。
最后,Tenev 将矛头指向了现有的金融监管体系,特别是合格投资者规则,认为其不合时宜:
“但合格投资者规则基本上规定,你不能投资 OpenAI 或 SpaceX,除非你是合格投资者,理由是某种形式的‘它们风险太高’。为什么风险太高?在这些规定制定之初,获取信息很困难……现在我们处在一个 Meme 币都没问题的时代。你可以把你所有的钱,任何你想投的,都投到 Meme 币、体育博彩,或者其他任何东西上,但是像 OpenAI 或 SpaceX 这样的公司却被认为风险太大。我认为这站不住脚。正如你可能从我们的谈话中感觉到的,我不认为我们应该禁止 Meme 币和体育博彩的交易;人们通常应该被允许用自己的钱做想做的事。因此,我认为合格投资者规则需要彻底改革,可能更接近于自我认证……”
“But accredited investor rules basically stipulate that you can’t be investing in OpenAI or SpaceX unless you’re accredited because of some variant of “they’re too risky.” And why are they too risky? Back in the day when these regulations were created, it was hard to get information... Now we’re in a situation where meme coins are fine. You can put all of your money, anything you want in meme coins, sports betting, whatever have you, but OpenAI or SpaceX, companies like that are too risky. I think those cannot stand. As you can probably tell from our conversation, I don’t think we should ban trading in meme coins and sports betting; people should generally be allowed to do what they want with their money. And so I think the accredited investor rules need a complete reboot and probably something closer to self-certification...”
Tenev 通过对比 Meme 币的可及性与顶级私营公司投资的限制性,尖锐地指出现行监管的矛盾之处。这不仅是对特定规则的批评,更是对其背后“保护主义”逻辑的挑战。他所倡导的“自我认证”和“自由选择”,是典型的金融自由主义观点,也恰好为 Robinhood 拓展各类高风险产品(从期权到加密货币,再到预测市场)提供了哲学基础。这背后隐含的假设是:信息时代,用户应自行承担风险评估的责任。
Everything Wrong with MCP
Shrivu Shankar 这篇文章来得恰逢其时。当我们正惊叹于 AI Agent 通过 MCP 协议接入各种工具所展现出的强大能力时,Shankar 提醒我们放慢脚步,审视这条高速发展道路上潜藏的风险。MCP 的迅速普及本身就值得玩味:
“In just the past few weeks, the Model Context Protocol (MCP) has rapidly grown into the de-facto standard for integrating third-party data and tools with LLM-powered chats and agents. While the internet is full of some very cool things you can do with it, there are also a lot of nuanced vulnerabilities and limitations.”
“就在过去几周,模型上下文协议 (MCP) 迅速成长为将第三方数据和工具集成到 LLM 驱动的聊天和代理的事实标准。虽然互联网上充斥着用它能做的各种酷炫之事,但也存在许多微妙的漏洞和局限性。”

这种“事实标准”的快速确立,往往伴随着对其深层影响的滞后理解。当一项技术以远超安全审计和最佳实践建立的速度普及时,系统性风险便开始悄然累积。这不仅仅是技术问题,更是生态发展模式的问题——先扩张,后治理。
用户体验层面,MCP 带来的自动化便利性背后,潜藏着对风险钝化的担忧。Shankar 通过一个生动的例子点明了其中的危险:
“A user may be chatting with an assistant with a large variety of MCP-connected tools, including:read_daily_journal(…),book_flights(…),delete_files(…). While their choice of integrations saves them a non-trivial amount of time, this amount of agent-autonomy is pretty dangerous. While some tools are harmless, some costly, and others critically irreversible — the agent or application itself might not weigh this. Despite the MCP spec suggesting applications implement confirm actions, it’s easy to see why a user might fall into a pattern of auto-confirmation (or ‘YOLO-mode’) when most of their tools are harmless. The next thing you know, you’ve accidentally deleted all your vacation photos and the agent has kindly decided to rebook that trip for you.”
“一个用户可能正在与一个连接了各种 MCP 工具的助手聊天,包括:读取日记(...)、预订航班(...)、删除文件(...)。虽然他们选择的集成节省了大量时间,但这种程度的代理自主性相当危险。有些工具无害,有些代价高昂,还有些是不可逆的关键操作——代理或应用程序本身可能不会权衡这些。尽管 MCP 规范建议应用程序实现确认操作,但很容易理解为什么当大部分工具都无害时,用户可能会陷入自动确认(或称“YOLO 模式”)的模式。接下来你可能就意外删除了所有度假照片,而代理还“好心”地决定为你重新预订那趟旅行。”
这里触及了一个核心的人机交互难题:如何在提供无缝体验的同时,维持用户对高风险操作的警惕性?当低风险确认成为习惯,“YOLO 模式”就成了系统设计缺陷而非用户疏忽的产物。这要求未来的 Agent 设计必须在 UI/UX 层面引入更智能的风险分级和情境化确认机制,而不只是依赖一个简单的“确认”按钮。
成本问题是另一个常被忽视的维度。在传统互联网协议中,数据包大小通常不是主要矛盾,但在 LLM 的世界里,每一个 Token 都意味着实实在在的成本。
“Traditional protocols don’t really care that much about the size of packets. Sure, you’ll want you app to be mobile-data friendly but a few MBs of data isn’t a big deal. However, in the LLM world bandwidth is costly with 1MB of output being around $1 per request containing that data (meaning you are billed not just once, but in every follow-up message that includes that tool result). Agent developers (see Cursor complaints) are starting to feel the heat for this since now as a user’s service costs can be heavily dependent on the MCP integrations and their token-efficiency.”
“传统协议不太关心数据包的大小。当然,你会希望你的应用对移动数据友好,但几 MB 的数据不是什么大问题。然而,在 LLM 世界中,带宽是昂贵的,1MB 的输出大约需要 1 美元(包含该数据的每次请求),这意味着你不是只被计费一次,而是在包含该工具结果的每个后续消息中都会被计费。代理开发者(参见 Cursor 的抱怨)开始感受到这种压力,因为现在用户的服务成本可能严重依赖于 MCP 集成及其 Token 效率。”
这是一个经济现实:工具提供方(MCP Server)的实现效率,直接影响了最终用户的成本。一个设计粗糙、返回冗余信息的工具,可能导致用户账单飙升。这为 Agent 平台和工具开发者提出了新的挑战:不仅要关注功能,还要极度关注“Token 经济性”。未来,我们可能会看到基于 Token 效率的工具市场评级和选择机制。
而在 LLM 安全的核心地带,MCP 引入了新的、更隐蔽的攻击向量。将第三方工具提升到接近系统指令的高度,无异于在城堡的核心区域开了一扇侧门。
“LLMs typically have two levels of instructions: system prompts (control the behavior and policy of the assistant) and user prompts (provided by the user). Typically when you hear about prompt injections or “jailbreaks”, it’s around malicious user-provided input that is able to override system instructions or the user’s own intent (e.g. a user provided image has hidden prompts in its metadata). A pretty big hole in the MCP model is that tools, what MCP allows third-parties to provide, are often trusted as part of an assistant’s system prompts giving them even more authority to override agent behavior.”
“LLM 通常有两级指令:系统提示(控制助手的行为和策略)和用户提示(由用户提供)。通常当你听到提示注入或“越狱”时,指的是恶意的用户输入能够覆盖系统指令或用户自身意图(例如,用户提供的图片在其元数据中隐藏了提示)。MCP 模型中一个相当大的漏洞是,工具(MCP 允许第三方提供的东西)通常被信任为助手系统提示的一部分,这赋予了它们更大的权限来覆盖代理行为。”
这不仅是技术上的漏洞,更是一种信任模型的重塑。当工具描述本身可能被用于注入恶意指令时,整个 Agent 的行为边界就变得模糊不清。这要求 Agent 平台必须对接入的工具进行更严格的审查和隔离,或者发展出更鲁棒的机制来区分和限制工具描述的影响力。
即使排除了恶意行为者,MCP 的设计也可能在不经意间导致数据隐私泄露,暴露出 AI “过度帮助”的风险。
“Even without a bad actor and using only official MCP servers, it’s still possible for a user to unintentionally expose sensitive data with third-parties. A user might connect up Google Drive and Substack MCPs to Claude and use it to draft a post on a recent medical experience. Claude, being helpful, autonomously reads relevant lab reports from Google Drive and includes unintended private details in the post that the user might miss.”
“即使没有恶意行为者,并且只使用官方 MCP 服务器,用户仍有可能无意中向第三方泄露敏感数据。用户可能会将 Google Drive 和 Substack MCP 连接到 Claude,并用它来起草一篇关于最近医疗经历的帖子。Claude 为了提供帮助,可能会自主从 Google Drive 读取相关的实验室报告,并在帖子中包含用户可能忽略的、非预期的私人细节。”
这展示了 Agent 自主性与数据边界控制之间的紧张关系。AI 的“乐于助人”可能恰恰打破了用户心中默认的数据隔离墙。当 Agent 能够无缝访问并融合来自不同来源(如个人云盘和发布平台)的数据时,用户需要对信息流动的路径和潜在后果有更清晰的认知和控制。这不仅仅是技术问题,更是关乎用户授权、数据最小化原则如何在 Agent 生态中落地的问题。
更有甚者,MCP 可能颠覆企业内部传统的数据访问控制逻辑。即使 Agent 的权限严格限制在员工已有权限范围内,其强大的信息聚合与分析能力也可能带来意想不到的后果。
“Similar to exposing sensitive data but much more nuanced, companies who are hooking up a lot of internal data to AI-power agents, search, and MCPs (i.e. Glean customers) are going to soon discover that “AI + all the data an employee already had access to” can occasionally lead to unintended consequences. It’s counterintuitive but I’ll claim that even if the data access of an employee’s agent+tools is a strict subset of that user’s own privileges, there’s a potential for this to still provide the employee with data they should not have access to.”
“与暴露敏感数据类似但更为微妙的是,那些将大量内部数据接入 AI 驱动的代理、搜索和 MCP(例如 Glean 的客户)的公司很快会发现,“AI + 员工已有的所有数据访问权限”有时会导致意想不到的后果。这有点反直觉,但我认为,即使员工的代理 + 工具的数据访问权限是该用户自身权限的严格子集,仍有可能让该员工接触到他们本不应接触到的数据(指通过信息推导)。”
这里的关键在于,AI Agent 能够跨越人类处理信息的实际带宽限制,快速整合、关联海量信息,从而推导出那些虽然理论上可访问、但实际上因信息分散或处理复杂性而被“隐藏”的敏感洞察。这迫使企业需要重新思考,权限控制不仅在于“能否访问”,更在于“以何种方式、何种效率访问和整合”。传统的基于角色的访问控制(RBAC)可能不足以应对 AI Agent 带来的新挑战。
Have We Been Thinking About A.D.H.D. All Wrong?
《纽约时报》最近发表的长篇文章 Have We Been Thinking About A.D.H.D. All Wrong?(我们对 ADHD 的看法是否一直都错了?)深入探讨了专家们如何开始质疑长期以来关于注意缺陷多动障碍(ADHD)的普遍假设。尽管 ADHD 的诊断率和兴奋剂药物的使用量持续攀升,但越来越多的研究表明,ADHD 可能并非一种固定的生物学障碍,而更像是一种受环境与个体契合度深刻影响的状况。
对于将 ADHD 简单视为大脑缺陷并通过药物“修复”的传统医学模型,本文是一次集中挑战。它汇集了来自顶尖研究者的声音,他们的数据和观察指向了一个更复杂、更具情境性的理解,强调了环境调整和关注相关心理问题(如自尊)的重要性,而非仅仅依赖药物治疗。
故事往往始于希望,但终于现实。大型 M.T.A.(多模式治疗研究)项目是 ADHD 治疗领域的一块里程碑。早期结果似乎为兴奋剂药物(如利他林 Ritalin)的效果提供了有力证据。然而,参与该研究的研究心理学家 James Swanson 及其同事在多年的跟踪后,发现了一个令人不安的转折。Swanson 如今已近职业生涯尾声,他对毕生工作的反思,揭示了该领域深层的不安:
他和他的同事们持续追踪 M.T.A. 研究中的近 600 名儿童,到了 2000 年代中期,他们意识到新收集的数据讲述了一个与最初报告不同的——且不那么充满希望的——故事。治疗 14 个月后,服用利他林的孩子行为确实优于其他组。但到了 36 个月时,这种优势完全消失了,包括对照组在内的所有组别的孩子,表现出完全相同的症状水平。Swanson 现年 80 岁,接近职业生涯终点,当他谈论自己毕生的工作时,听起来很困扰——不仅是对 M.T.A. 的结果,也对整个 ADHD 领域的现状。“我们从事这项工作的方式,”他告诉我,“有些地方确实是错误的。”
He and his colleagues were continuing to follow the almost 600 children in the M.T.A. study, and by the mid-2000s, they realized that the new data they were collecting was telling a different — and less hopeful — story than the one they initially reported. It was still true that after 14 months of treatment, the children taking Ritalin behaved better than those in the other groups. But by 36 months, that advantage had faded completely, and children in every group, including the comparison group, displayed exactly the same level of symptoms. Swanson is now 80 and close to the end of his career, and when he talks about his life’s work, he sounds troubled — not just about the M.T.A. results but about the state of the A.D.H.D. field in general. “There are things about the way we do this work,” he told me, “that just are definitely wrong.”
Swanson 的反思并非孤例。这种从最初的乐观到长期效果存疑的模式,正是许多复杂干预措施(尤其是在行为和发展领域)面临的挑战。它提醒我们,短期改善并不必然转化为持久的改变,尤其当潜在的复杂因素未被充分理解或解决时。
Swanson 的不安感在更广泛的研究社区中得到了呼应。许多顶尖研究者都观察到,当前的临床实践与新兴的科学理解之间存在着令人担忧的脱节。伦敦国王学院的精神病学与神经科学研究员 Edmund Sonuga-Barke 将这种困境个人化了:
我花了一年时间与美国及海外一些顶尖的 ADHD 研究者交谈,他们中的许多人,像 Swanson 一样,对他们所看到的 ADHD 新兴科学理解与诊所和医生办公室的治疗方式之间的脱节表示担忧。伦敦国王学院的精神病学和神经科学研究员 Edmund Sonuga-Barke 用个人化的语言描述了这种情况。“我投入了 35 年生命试图找出 ADHD 的成因,但不知何故,我们似乎比开始时离目标更远了,”他告诉我。“我们对 ADHD 的临床定义,越来越脱离我们在科学研究中的发现。”
I’ve spent the last year speaking with some of the leading A.D.H.D. researchers in the United States and abroad, and many of them, like Swanson, express concern over what they see as a disconnect between the emerging scientific understanding of A.D.H.D. and the way the condition is being treated in clinics and doctors’ offices. Edmund Sonuga-Barke, a researcher in psychiatry and neuroscience at King’s College London, described the situation in personal terms. “I’ve invested 35 years of my life trying to identify the causes of A.D.H.D., and somehow we seem to be farther away from our goal than we were when we started,” he told me. “We have a clinical definition of A.D.H.D. that is increasingly unanchored from what we’re finding in our science.”
Sonuga-Barke 的话揭示了一种深刻的“模式错配”:一方面是数十年来寻找 ADHD 生物学根源的巨大投入,另一方面却是离清晰界定和理解目标越来越远的现实。这不仅是科学上的困境,更直接影响着千百万被诊断者的生活和治疗路径。当临床实践与基础研究脱节,我们可能在用过时的地图指导未来的航行。
不断增长的兴奋剂处方量背后,是几个根深蒂固的假设:ADHD 是一种需要医学解决方案的医学障碍;它源于儿童大脑的内在缺陷;我们给予的药物能修复这些缺陷。然而,科学界正在对这些假设逐一提出挑战,并揭示了环境在症状发展中的关键作用:
那座不断膨胀的药丸山建立在某些假设之上:ADHD 是一种需要医疗解决方案的医学障碍;它是由儿童大脑固有的缺陷引起的;我们给他们的药物修复了这些缺陷。研究 ADHD 的科学家现在正在挑战这些假设中的每一个——并发现了儿童环境对其症状发展作用的新证据。他们不质疑导致家庭寻求 ADHD 治疗的真实问题,但许多人认为我们目前的做法不足以提供帮助——而且我们可以做得更好。但首先,他们说,我们需要重新思考许多关于该障碍的旧观念,并开始以新的视角看待 ADHD。
That ever-expanding mountain of pills rests on certain assumptions: that A.D.H.D. is a medical disorder that demands a medical solution; that it is caused by inherent deficits in children’s brains; and that the medications we give them repair those deficits. Scientists who study A.D.H.D. are now challenging each one of those assumptions — and uncovering new evidence for the role of a child’s environment in the progression of his symptoms. They don’t question the very real problems that lead families to seek treatment for A.D.H.D., but many believe that our current approach isn’t doing enough to help — and that we can do better. But first, they say, we need to rethink many of our old ideas about the disorder and begin looking at A.D.H.D. anew.
系统中的某个节点(药物治疗)被过度优化,而忽略了整个生态系统(个体、环境、社会期望)的互动。对“大脑缺陷”模型的挑战,促使我们从单一解决方案转向探索更整体、更个性化的方法。
对生物学标记的不懈追寻未能如愿,这让 Sonuga-Barke 等研究者认为,将 ADHD 视为一个有明确界限的独立病症本身可能就是问题所在。他指出了该领域的“经验性危机”:
但现实是,他说,“实际上没有一个自然的分割点可以说,‘这个人有 ADHD,而那个人没有。’这些决定在某种程度上是任意的。这并不意味着与 ADHD 相关的痛苦是虚构的,只是说它存在于一个连续谱上。这就是难题——ADHD 的经验性危机。”
But the reality, he says, is that “there literally is no natural cutting point where you could say, ‘This person has got A.D.H.D., and this person hasn’t got it.’ Those decisions are to some extent arbitrary. That doesn’t mean that the suffering associated with A.D.H.D. is imaginary, it just means it’s on a continuum. And that is the conundrum — the empirical crisis — for A.D.H.D.”
将 ADHD 理解为连续谱而非二元类别,这对诊断、治疗乃至社会认知都具有颠覆性。它迫使我们思考:我们划定的界限是为了方便管理,还是真正反映了现实?这种视角也暗示,许多被标记为“障碍”的行为,可能只是人类多样性中不适应特定环境的极端表现。
即使在承认药物对行为有短期改善作用的研究者中,也存在着对其核心目标——促进学习和长期发展——效果的疑虑。神经科学家 F. Xavier Castellanos 对研究中一个持续存在的发现感到沮丧:
但像 M.T.A. 研究的主要研究者 James Swanson 一样,Castellanos 对 ADHD 的兴奋剂治疗有一些真正的担忧。他说,他对研究中一个持续存在的发现感到沮丧:虽然药物对儿童在课堂上的行为有强大的影响,但它们对改善学习效果的作用甚微。“这是一个谜,”Castellanos 说。“行为上近乎惊人的效果与学业成就或达成的微小效果之间存在着真正的脱节。让我困扰的是,孩子们确实做了更多的课堂作业——你可以看到他们完成了更多题目——但当你一两周后测试他们时,他们的分数几乎没有提高。或者根本没有提高。这才是真正让我沮丧的事情。”
But like James Swanson, the researcher who helped lead the M.T.A. study, Castellanos has some real concerns about stimulant treatment for A.D.H.D. He says he is frustrated by a persistent finding in the research: While the medications can have a powerful effect on how children behave in the classroom, they do little to improve how they learn. “It’s a puzzle,” Castellanos says. “There’s a real disconnect between the almost awesome effects on behavior and the minimal effects on academic achievement or attainment. What bothers me is that the kids do more seatwork — you can see that they’ve done more problems — but then when you test them a week or two later, their scores barely budge. Or they don’t budge at all. That’s the thing that really frustrates me.”
Castellanos 的观察点出了一个关键问题:我们是否在优化错误的指标?如果药物只是让孩子“看起来”更符合课堂规范,却没有真正提升学习能力和知识掌握,那么治疗的真正价值何在?这让人联想到技术领域对“虚荣指标”(vanity metrics)的批判——关注易于衡量但并非核心目标的数字。
基于数十年的研究,尤其是 M.T.A. 的长期数据,James Swanson 对兴奋剂的价值持有更为批判的立场。他不仅质疑长期益处,更强调了已知的副作用:
在研究兴奋剂三十年后,Swanson 在其价值上与许多同事意见相左。“我不同意那些说兴奋剂治疗是好的人,”他告诉我。“它不好。”他承认药物通常能短期改善儿童行为。但是,他说,“没有长期效果。我知道的唯一长期效果是抑制生长。如果你诚实,你应该告诉孩子们,听着,如果你只关心下周、下个月甚至明年,这或许是适合你的治疗。但从长远来看,你会长得更矮。有多少孩子会同意服药?可能一个也没有。”
After three decades of studying stimulants, Swanson differs with many of his colleagues on their value. “I don’t agree with people who say that stimulant treatment is good,” he told me. “It’s not good.” He acknowledges that medication can often produce short-term improvements in children’s behavior. But, he says, “there is no long-term effect. The only long-term effect that I know of has been the suppression of growth. If you’re honest, you should tell kids that, look, if you’re interested in next week or next month or even the next year, this is the right treatment for you. But in the long run, you’re going to be shorter. How many kids would agree to take medication? Probably none.”
Swanson 直接挑战了治疗决策中的风险收益平衡。当唯一的已知长期效果是负面的(抑制生长),而声称的益处(行为改善)却是短暂的,这迫使我们重新评估当前的治疗范式是否符合患者的最佳长远利益。这不仅是科学问题,更是伦理问题。
M.T.A. 研究的长期随访揭示了一个意想不到却极其重要的发现:许多被诊断为 ADHD 的孩子,在成年后通过自主选择更适合自己的环境,其症状显著减轻甚至消失。这指向了“个体-环境匹配”(person-environment fit)的关键作用:
研究人员注意到的是,他们的研究对象对谈论自己障碍的具体细节并不特别感兴趣。相反,他们想谈论的是他们现在所处的环境,以及这个环境如何影响了他们的症状。一个又一个受访者自发地提到在学校或工作场所找到自己的“生态位”(niche)或合适的“匹配”(fit)的重要性。作为成年人,他们在控制生活参数方面比孩童时期拥有更多自由——是否上大学、学什么专业、从事哪种职业。他们中的许多人明智地选择了比在学校经历的更适合自己个性的环境,结果,他们报告说自己的 ADHD 症状基本上消失了。事实上,他们中的一些人开始质疑自己是否真的曾经有过障碍——或者只是童年时身处错误的环境中。
What the researchers noticed was that their subjects weren’t particularly interested in talking about the specifics of their disorder. Instead, they wanted to talk about the context in which they were now living and how that context had affected their symptoms. Subject after subject spontaneously brought up the importance of finding their “niche,” or the right “fit,” in school or in the workplace. As adults, they had more freedom than they did as children to control the parameters of their lives — whether to go to college, what to study, what kind of career to pursue. Many of them had sensibly chosen contexts that were a better match for their personalities than what they experienced in school, and as a result, they reported that their A.D.H.D. symptoms had essentially disappeared. In fact, some of them were questioning whether they had ever had a disorder at all — or if they had just been in the wrong environment as children.
这个发现极具启发性。它暗示 ADHD 症状的表达可能高度依赖于环境压力和期望。当个体能够找到或创造一个与其神经特征相协调的环境时,所谓的“缺陷”可能不再是障碍,甚至可能转化为优势。这为我们思考干预措施开辟了新方向:与其试图“修复”个体,不如着力于优化环境或帮助个体找到更匹配的环境。这与平台设计中强调的“赋能”(enabling)而非仅仅“控制”(controlling)有异曲同工之妙。
基于这些观察和研究的困境,Sonuga-Barke 提出了一个不同的模型,将 ADHD 症状视为个体生物构成与环境要求之间的“失配”(misalignment)信号,而非内在缺陷的标志:
Sonuga-Barke 提出的模型将 ADHD 症状置于一个连续谱上,而不是将其呈现为一个独特的、自然的类别。它在另一个关键方面也偏离了医学模型:它不将这些症状视为神经缺陷的指标,而是视为儿童生物构成与其试图适应的环境之间失配的信号。“我不是说它不是生物性的,”他说。“我只是认为那不是正确的目标。与其试图治疗和解决生物学问题,我们不如专注于构建能够改善结果和心理健康的环境。”
Sonuga-Barke’s proposed model locates A.D.H.D. symptoms on a continuum, rather than presenting the condition as a distinct, natural category. And it departs from the medical model in another crucial way: It considers those symptoms not as indications of neurological deficits but as signals of a misalignment between a child’s biological makeup and the environment in which they are trying to function. “I’m not saying it’s not biological,” he says. “I’m just saying I don’t think that’s the right target. Rather than trying to treat and resolve the biology, we should be focusing on building environments that improve outcomes and mental health.”
这个“失配模型”将焦点从个体内部转移到了个体与环境的互动界面。它并不否认生物学因素,但主张干预的重点应该是调整环境以适应个体,而非仅仅试图改变个体以适应环境。这是一种更生态化、更具系统性的视角,可能为设计更有效、更人性化的支持策略提供基础。
这种视角的转变,也深刻影响了个体对自身经历的理解和感受。当人们将自己的挑战视为环境依赖而非内在缺陷时,羞耻感和无力感得以减轻:
“我们的受访者描述他们易分心的倾向是情境性的,而非在所有情况下都出现的静态‘注意力缺陷’,”M.T.A. 研究人员写道,“……相信问题在于他们的环境而非仅仅在于自身,这帮助个体减轻了不 adequacy 感:将 ADHD 描述为一种个性特质而非障碍,他们视自己为‘不同’而非‘有缺陷’。”
“Rather than a static ‘attention deficit’ that appeared under all circumstances,” the M.T.A. researchers wrote, “our subjects described their propensity toward distraction as contextual. … Believing the problem lay in their environments rather than solely in themselves helped individuals allay feelings of inadequacy: Characterizing A.D.H.D. as a personality trait rather than a disorder, they saw themselves as different rather than defective.”
这种叙事的重构力量巨大。它将诊断从可能带来污名和限制的标签,转变为理解自身与世界互动方式的工具。认识到“不同”而非“缺陷”,可以赋能个体去寻找或创造适合自己的环境,发挥独特优势,而不是终身背负“需要被修复”的重担。这正是“找到意义而非简化复杂性”的体现。