01.27.2025: Deepseek 并非巧合

January 26, 2025

1913 年，一场革命在底特律悄然展开。

当福特引入流水线生产后，T 型车的装配时间从 12 小时骤降至 1 小时 33 分钟，价格也从 850 美元降至 360 美元。这不仅仅是一次简单的降价促销，而是一场彻底的供给侧革命。这种效率的跃升，就像一把达摩克利斯之剑，悬在了 500 多家汽车制造商头顶。最终活下来的，只有那些及时跟进规模化生产的玩家：通用通过并购凯迪拉克、雪佛兰等品牌打造了全矩阵产品线，克莱斯勒则收购道奇完成扩张。到 1930 年代，“底特律三巨头”坐拥超过 80% 的市场份额，寡头格局就此确立。

一个世纪后的今天，AI 领域可能正在经历类似的转折点。

上周，一家名为 Deepseek 的中国创业公司发布了他们的最新模型 R1。这个消息原本不会引起太大关注，但一个细节让整个 AI 社区震动：只用了 2048 块显卡，就训练出了一个能与顶级模型相媲美的 Deepseek-V3 模型。更重要的是，他们选择了完全开源的路线，将代码、模型权重和训练日志全部公开。

几乎是同一时间，Trump 宣布了一项预算高达 5000 亿美元的 AGI 计划 Stargate Project。

多么巧合。

成本与效率革命

Deepseek 最引人注目的并不只是它的技术指标，而更多是它所面临的资源限制。在一个被 GPU 短缺和芯片禁运困扰的环境中，一家从未被计入中国“AI 六小龙”的量化基金公司，用最小的硬件配置和几十名年轻的博士生，完成了蛙跳式的技术突破。

业界展开了激烈讨论。

Yann LeCun 和 Jim Fan 等研究者把这样的突破归因于开放研究和开源生态：

Yann LeCun：那些把 DeepSeek 的成功解读为“”中国超越美国”的人完全理解错了。真正的故事是：开源模型正在超越专有模型。

Jim Fan：不管你喜欢与否，AI 的未来不会是被“安全委员会”控制的瓶中精灵。每个互联网用户都将能在他们的“烤面包机笔记本”上运行高阶模型。这是历史潮流，我们应该顺势而为，而不是逆流而上。

学术界和行业界的初步共识是：Deepseek 作为后来者，站在了巨人的肩膀上，开放的技术交流环境，包括论文、开源代码和各种正式或非正式的人才交流，为创新突破创造了条件。这种说法虽然对 Deepseek 自身的努力有些许低估，但放在生态整体上看，也没有什么错误。

而德国分析师 Holger Zschaepitz 的警告可能更值得关注：

DeepSeek 可能对美国股市构成最大威胁。当一家公司能在缺乏顶级芯片的情况下，以极低成本建立突破性的 AI 模型时，我们不得不重新思考：那些投入的数千亿美元资本支出，真的物有所值吗？

这个问题戳中了要害。

Deepseek R1 的训练成本没有被公开，但仅从 API 定价来看，R1 百万 tokens 输出价格为 16 元人民币，大概 2 美元多一点，而 OpenAI o1 则为 60 美元，前者仅为后者的 1/30。

关于 Deepseek 的成本分析，可以参考 Nathan Lambert 在 Interconnects 上发表的 DeepSeek V3 and the actual cost of training frontier AI models 一文。这篇文章对广为引用的“600 万美元”的 Deepseek-V3 训练成本提出了基于数据支撑的估算和质疑。Lambert 在文章中按照 H800 的单位成本和 V3 的预训练阶段的 GPU 小时数进行了估算，得到了 557.6 万美元的成本数据。

estimated training cost of deepseek v3.png

同时，Lambert 也指出，不能仅仅考虑训练一个模型的直接成本，而是应该考虑相关的间接成本，包含 GPU 购买或租赁成本、人员成本、能源费用等。林林总总加起来，Lambert 认为 Deepseek 的年运营成本应该不低于 5 亿美元。

对于任何一家中国的 AI 公司而言，这都不是一个小数字。但如果是和类似 OpenAI 这样的公司相比，这个数字确实可以和 API 价格的数量级差异相互对应。

杰文斯、福特与外部性

1865 年，英国经济学家威廉·斯坦利·杰文斯发现了一个令人困惑的现象：瓦特改良的蒸汽机将煤炭使用效率提高了 3-4 倍，按理说应该减少煤炭消耗，但事实恰恰相反 —— 英国的煤炭总消耗在随后的几十年里暴增了近十倍。这个看似违反直觉的现象后来被称为“杰文斯悖论”：技术效率的提升往往导致资源使用的增加，而非减少。

为什么会这样？因为更高效的蒸汽机降低了使用成本，让更多工厂开始采用蒸汽动力。效率提升→成本下降→应用场景扩大→总需求激增，这个循环在之后的每次技术革命中都会重演。

蒸汽机是工业革命的开端，此后又出现了效率更高的内燃机，也开启了汽车工业的时代。

20 世纪初期，福特的流水线让汽车制造效率提升了数倍，Model T 的价格从 850 美元降到 360 美元。结果呢？不是节省了资源，而是带来了前所未有的石油消耗。

70 年代，又碰上了石油危机。以丰田为代表的日本汽车厂商带来了能耗效率更高、售价更低的车型，到 1980 年，日系厂商拿下了 21% 的市场份额，而在 1976 年，这个数字仅为 9%。日本车高速增长的代价是：从 1978 年到 1982 年，福特销量下降了 47%，克莱斯勒销量下降了 27%。

这不是一个零和博弈。尽管美国汽车销量在 80 年代后至今仅保持温和增长（从 1980 年到 2019 年，CAGR 仅有 1.37%），但每年汽车行驶里程却稳定增长（参考：美国能源部数据），从 1971 年的每年 1 万亿英里多一点，到现在基本稳定的超过 3 万亿英里。

成本和效率革命带来了车轮滚滚，但汽车行业却没能提供很好的资本回报。

巴菲特对汽车业的评价一针见血：“到了 90 年代，在经历了永不停歇的企业大屠杀之后，我们只剩下三家美国汽车公司 —— 它们本身对投资者来说并不是什么好事。这是一个对美国产生巨大影响的行业，同时也对投资者产生了巨大影响，尽管不是预期中的那种影响......”

看看福特汽车的股价走势：40 年来，其投资回报率仅为 3.3%，远低于标普 500 的 16%。

从杰文斯悖论，到福特的流水线，再到底特律成为锈带，为什么未能带来优秀的资本回报？

我分析下来，有几个原因：

第一，行业技术迭代周期快于资本支出的回报周期，造成前期的重资本投入还未取得充分回报，就已经过时，需要加速折旧摊销。
第二，汽车行业对能源的依赖性大，无论是 70 年代的原油危机，还是 80 年代日本的小型车，还是最近的电动车，都极大的挑战了行业在位者。
第三，企业创造价值存在很大的外部性，体现为两点：首先，后来者容易学习到领先者的工艺、流程、方法，并进行成本效率改进，带来更激烈的竞争。其次，汽车带来的经济价值存在很强的额外溢性，比如：麦当劳这样的连锁餐饮和沃尔玛这样的零售业态，都得益于汽车行业的发展，但这些价值无法被汽车行业自身捕获。

这些特点，看起来是历史，实际上在每一轮技术周期中都存在。

戳破泡沫的前奏

关于 Deepseek 的另一种猜测是它的发布时机：正好卡在 Trump 上任的这几天里，从华盛顿到华尔街再到旧金山，美国举国上下正处在喜迎“黄金时代”到来的欢愉中。

Stargate Project 是这种欢愉的集中体现。

这个由 OpenAI, Oracle, SoftBank, and MGX 联合发起的计划宣布将在未来四年投入 5000 亿美元，规模远超曼哈顿计划（23 亿美元）和阿波罗计划（250 亿美元）的历史投入。有趣的是，在沸沸扬扬的讨论中，几乎没有任何争议是关于这个 5000 亿的预算规模以及钱要花到何处去的，而更多质疑指向了 Sam Altman 和孙正义到底有没有这么多钱投进去。

的确，考虑到 M7 在过去两年中动辄数百亿美元的资本支出，这个“举国项目”放个 5000 亿的预算，并不算太夸张。更何况，Stargate Project 被比作 1980 年代美国的“星球大战计划”，通过夸大技术愿景来施加战略压力。（说到这个，Apple TV+ 最近有部有趣的电影《Fly Me to the Moon》，讲述了 NASA 如何为登月计划做营销，颇具讽刺意味。）

这个计划公布之后，美股一片大涨，从半导体到电力配套。金融数据平台 Quartr 还发布了一张与之相关联的产业上下游的图，方便投资者按图索骥。

Nvidia 是一支在过去两年里几乎怎么买都不会错的股票，但自从 2024 年 9 月以来，Nvidia 股价开始徘徊不前，振幅逐渐扩大，每一次分歧，都有更多人的站队，一旦力量的平衡被打破，就可能成为崩溃的开端。华尔街见闻的一篇短文捕捉到了这个信号：在主流报道和社交媒体的多重发酵后，市场开始意识到 Deepseek 搅动的可能不仅仅是 AI 研究的方向，也可能会成为戳破泡沫的前奏。

判断一个行业是否存在泡沫，最终要回到一个简单的问题：用户愿意为最终经济价值支付多少钱？

这个问题在 AI 行业特别关键。Nvidia 一张显卡卖一万美金，评价这个价格是否合理，不是看 Microsoft 和 Meta 愿意为它付多少钱，而在于这些算力在最终客户手里能创造多少经济价值。

在评估这个经济价值时，我们常常被模型能力的上限所吸引——解决数学奥赛题目、挑战 AGI 的极限。但在实际应用中，基础场景的表现可能更重要：就像 GPT-4 在内容生成和客服等领域展现出的价值，虽然偶尔会犯错，但平均表现和下限在稳步提升。用风险投资人 Nat Friedman 的话说，我们在过去两年看到的是：可靠性这个“下限”在逐渐提高，而成本则呈现数量级式的下跌。

Deepseek 的出现揭示了 AI 行业的另一个关键特性：模型研发具有很强的外部性。特别是在蒸馏与合成数据等技术存在的情况下，后来者的追赶和学习效应异常强劲。这种内卷加外卷的结果，就是模型能力变好，而成本快速下降的原因，在这个过程中，行业利润被快速挤出，没有人能从自己创造的经济价值中分到一勺羹。

AGI 是支撑千亿美元投入的信仰。这个信仰也支撑着市场期待从成百上千亿美元得到长期回报，并支持对模型能力“上限”的追逐。但 o3 的单次推理成本还在几千美元的水平上，无法大规模使用，也就很难兑现成本——这里并不需要如很多行业评论分析的，需要区分预训练还是推理成本，关键在于去哪里寻找经济价值达到几千美元的任务。

这种以技术驱动的叙事很考验市场耐心，等久了，人总会不耐烦的。

更容易理解的故事，就是成本下降。推理成本每年都会下降一个数量级，Deepseek 可能只是让这个下降来临得更早了一些。

当模型以更低成本通过提高“下限”来解决实际问题时，算力需求的分布可能会发生根本性改变。有研究估算，在 AGI 时代需要 3300 万个 H100 GPU 同时运行（见推荐阅读 Links + Notes 中的 What would a world with AGI look like? 一文的估算，而目前 Nvidia 年产量仅为 150-200 万个。这个天文数字般的差距，既可以理解为巨大的供给短缺，也可能暗示我们忽视了某些能带来数量级改变的因素。

我丝毫不怀疑 AI 将创造巨大的经济价值，但这些价值将可能以全然不同的结构分布。

结语：R1 之后

如果通往 AGI 的道路比预期更漫长，如果市场对技术进展失去耐心，我们可能会看到第一波泡沫的破裂。但我绝非唱衰者：周期总是三步向前，两步向后，短期来看，高资本支出和高估值令人担忧，而长期来看，进步总是曲折向前：技术终会扩散，未来终是分布不均。

当一个行业进入效率驱动的扩张期，竞争加剧和价格战往往会侵蚀掉效率提升带来的收益。资本支出自身并不能构成护城河，技术也难以在长期中形成垄断。这是最简单的道理，也是人类会反复犯的错误。当效率革命粉碎了技术垄断的幻想，当创新使得昨日的巨额投资在今天贬值，我们或许会重新理解巴菲特在谈到汽车业时的那句警示：有时候，一个行业对世界的影响越大，对投资者的伤害可能就越深。

我最近在读一本美股的历史的书 Bull!: A History of Boom and Bust, 1982-2004，书名中的叹号不是笔误，而是作者出色的情绪传递。80 年代是全球化真正的开端，美国本土的制造业就是在这个时候逐渐让位给科技业和金融业的。Alan Greenspan、Bill Clinton、Mary Meeker 这些名字逐一登场，连续 20 次降息、电信法案、长达 300 页的互联网行业报告，如梦如幻的时代就此展开。

牛市并非一蹴而就，而是经历多个阶段累积势能，泡沫和崩盘交替发生，落到个体身上，很难用一出戏、一场梦来比喻？

无论是标普 500 还是 NASDAQ 100，都一再刷新历史新高，流动性仍然旺盛，资本市场的吹哨人不断放出警告，而无人应答。当 Stargate 和 R1 同时出现的时候，这怎么会是巧合？

这是历史在托梦。

你可能已经发现，1 月份的几篇更新中，我在开篇的文字中投入的精力更多了。这部分是因为我希望在 2025 年在写作上多花一点时间，写出更多的好的“作品”，另外也因为 1 月份的确有很多值得写的话题。

而每周更新中的传统项目：Links + Notes，也就是阅读推荐，也是过去几年读者最喜欢的内容。大部分时间里，我会从我每周的阅读中遴选 5 篇文章，加上引用和我的解读，作为每周更新的主要部分。开篇文章更多是一个导读，或是一些随记。

现在看来，这个重心发生了不小的迁移。

这是春节前最后一篇更新。我选了 5 篇文章，篇幅上第一篇很长，第 2-3 篇中等，第 4-5 篇比较短。前 3 篇都是围绕 AI 的，信息量足够多，但估计大部分人可能没有心情在假期前阅读枯燥的长文，这里做个预览，请通过邮件订阅的方式获取这些内容（预计还有几千字）：

Ben Thompson 与 Daniel Gross & Nat Friedman 的访谈：探讨了 AI 技术扩散、泡沫经济和基础设施建设的关系，指出虽然泡沫可能带来投资损失，但也会创造重要的公共基础设施，就像早期互联网时代一样。
AGI 世界展望文章：通过详实的数据分析预测了 AGI 的发展前景，指出到 2030 年数据中心将消耗美国 12% 的电力，需要全球半导体和能源行业的重新布局。
Benedict Evans 关于 AI 模型的思考：探讨了人们对 AI 和传统计算机不同的期待，提出了一个关键问题：我们是否应该像对待人类一样，而不是像对待传统计算机那样来看待 AI 的错误。
王川对投资机会成本的思考：指出许多投资者和从业者缺乏长期思维，过分关注短期比较和业绩压力，而没有耐心等待更好的机会。
“评论尸”的职场回顾：分享了其十年职场经历的感悟，强调了在现代社会中，个人与公司的关系应该是阶段性的，重要的是在每个阶段都有所收获并能顺利过渡。

春节期间，我可能还会做一次发布，预计在假期结束的时候。

预祝大家春节愉快！

AI

An Interview with Daniel Gross and Nat Friedman About Models, Margins, and Moats

这是 Ben Thompson 与 Daniel Gross & Nat Friedman 的关于 AI 的第 8 次访谈。

他们讨论了几个主题。第一个是关于 AI 技术的扩散和部署。

Nat Friedman 认为，模型的性能、成本都在快速进步，而这个趋势仍将继续，相比之下，产品化还有很多悬而未决的问题：

So I think one of the big lessons for me in this technology wave, and I guess if I were a better student of prior technology waves, I would’ve been less surprised, is just how long that diffusion into products can take from, “Okay, we have the core technology, we have the idea”, to, “Okay, now someone’s figured out how to turn it into a product that people enjoy using”. So yeah, there’s just still an enormous overhang there and the overhang feels like it’s increasing because even though the rate of productization has increased a lot, and we see so many startups and bigger companies building stuff, like you said, Ben, the technology’s getting better in multiple dimensions under the hood.

所以我认为，这次技术浪潮给我的一大教训是，如果我能更好地了解以往的技术浪潮，我就不会那么惊讶了，那就是从“好吧，我们有了核心技术，我们有了创意”，到“好吧，现在有人想出了如何将其变成人们喜欢使用的产品”，这种扩散到产品中需要多长时间。所以是的，这里面仍然存在巨大的悬而未决的问题，而且这种悬而未决的问题似乎在不断增加，因为尽管产品化的速度已经大大提高，我们看到许多初创公司和大公司都在制造产品，但正如你所说，Ben，技术在多个维度上都在不断进步。

在采纳新技术上，Thompson 认为，有两个问题要考虑：谁会接受 AI 的错误率，并把这种概率转换为一种实施成本；以及 AI 是否会塑造一批全新的公司。Friedman 提到，私募股权公司开始收购服务业公司（如房屋维修、会计师事务所等）并用 AI 技术进行改造，他认为这些投资将在未来几年看到成绩单。

So number one is, the way to overcome the error rate is to do a calculation of what is the error rate times the cost, and knowing that humans make errors as well. But individual employees are not going to make that calculation because they’re worried about job preservation, so that lends itself to being a top-down decision where the visionary CEO says, “People aren’t going to adopt this, they’re going to keep working slowly, we’re just going to eliminate the entire department and accept a 95% accuracy rate because the expected cost of the errors relative to our price savings is so much higher”. So that’s point number one.

因此，第一点是，克服错误率的方法是计算错误率乘以成本，并且要知道人也会犯错误。但是个别员工不会进行这种计算，因为他们担心保住工作，所以这需要自上而下做出决定，有远见的首席执行官会说：“人们不会采用这种方法，他们会继续缓慢地工作，我们只会裁掉整个部门并接受 95% 的准确率，因为相对于我们节省的价格而言，错误的预期成本要高得多。”这就是第一点。

But then point number two, this bit about AI-enabled companies, yeah, that was what I was writing about last week with AI’s Uneven Arrival. We saw this, this was the analogy to digital advertising, digital advertising didn’t transform existing advertising companies, it created entirely new companies that were predicated on the existence of digital advertising, which over time then come up from the bottom and disrupt the traditional ones.

但是第二点，关于人工智能公司，是的，这就是我上周在《人工智能的不均衡到来》中写的内容。我们看到了这一点，这与数字广告类似，数字广告并没有改变现有的广告公司，而是创造了全新的公司，这些公司以数字广告的存在为前提，随着时间的推移，这些公司从底层崛起，颠覆了传统公司。

之后，主题转向了 Stargate 和 R1 并不巧合的降临。

Daniel Gross 在 2023 年 12 月份指出：人在休息的时候的大致功耗是 100 瓦的功率能耗（后来他自己更正这个估计为 20 瓦），相比之下，iPhone 的功耗是 10 瓦，H100 大概是 800 瓦。由于现在的模型需要的大量的 H100，因而 AI 的能源使用效率还很差。和我在本期开篇讲到的情况类似。

Friedman 则猜测，Deepseek 可能采用了 OpenAI 的产出对模型进行蒸馏，他认为，可能最后一点 IQ 的提升需要花费数百亿美元的资本支出。他还指出，Trump + Altman + 孙正义的组合就是关于“大数字”（big numbers），而他很怀疑 5000 亿美元这个数字经过详细计算，而更多服务于未来融资的叙事。一个有趣而真实的说法是：软银是中东美元的 wrapper。他提到了硬件贬值的速度：

Yeah, they’re depreciating quite rapidly because — we didn’t talk about this. We talked about applications and models earlier, but the other thing that’s advancing rapidly is the hardware. We see H100 prices drop dramatically over the last year or two, and so I assume whatever chips these are will also depreciate quickly and so you only spend the money now to build this, if you’re rational, if you think now’s the moment to really go for it and you can get to the critical moment with this much compute right now.

是的，它们贬值得相当快，因为——我们没有谈论这个。我们之前谈到了应用程序和模型，但另一个快速发展的东西是硬件。我们看到 H100 的价格在过去一两年里大幅下降，所以我假设无论这些芯片是什么，它们也会迅速贬值，所以你现在只花钱来建造它，如果你是理性的，如果你认为现在是真正投入的时候，你现在就可以用这么多的计算能力进入关键时刻。

Gross 把话题转向了泡沫：

By the way, the other lens on the news today is an economic one, which is, put all this stuff aside, it is just the nature of bubbles that after spending a few quarters spending balance sheet money, debt comes into play. That happened at the telco bubble, that happened at the railroad bubble. It happened at the end of the SaaS bubble. I think if you look at telecom as a fraction of institutional grade debt, I think in 1996 it’s like 5%, and then in 1999 it suddenly spikes to 10%, and then just before the bubble bursts, it spikes again I think to like 15%. And so, it’s just like the nature of the way these things work. You spend your balance sheet, you want more capital, you start issuing debt.

顺便说一句，今天新闻中的另一个视角是经济，也就是说，抛开所有这些不谈，泡沫的本质就是在花掉资产负债表上的资金几个季度后，债务开始发挥作用。电信泡沫和铁路泡沫都是如此。这发生在 SaaS 泡沫末期。我认为，如果你将电信视为机构级债务的一部分，我认为在 1996 年它占 5%，然后在 1999 年它突然飙升至 10%，然后在泡沫破裂之前，我认为它再次飙升至 15%。所以，这就是这些事情运作的本质。你花光了资产负债表，你想要更多的资本，你开始发行债务。

值得参考的是 Meta 作为近年来发债较多的公司，有如下的记录：

2022 年 8 月，Meta 首次发行债券，筹集了 100 亿美元不同期限的投资级债券。1
2023 年 5 月，尽管利率很高，但该公司又筹集了 85 亿美元的债务。这只是 Meta 历史上第二次发行债券。2
最近，在 2024 年 8 月，Meta 利用市场条件的改善，发行了 105 亿美元的债券，期限为 40 年。 3

考虑到 GPU 的摊销周期在 3-5 年，而债券久期却长达数十年，其中的期限错配可能酝酿着一些危机。当然 5000 亿美元不是只花在 GPU 上，而会有相当一部分用于电力等配套设施上，这些技术的摊销周期更长，经济价值也更持久。

Friedman 评价道：

Yeah, bubbles are good for the country, they’re not good for sophisticated investor.

是的，泡沫对国家有好处，但对成熟的投资者却不利。

换句话说，一些投资最终将成为公共基础设施。这个理解很有趣：美国的很多公共基础设施都是由私人公司最初投资的，但由于这些投资太吸引人，导致行业竞争和过度投资，私人投资的回报不见得很好，而其巨大的正外部性为公众创造了福祉。

也可以用这个角度来理解 Stargate Project 的长期回报，但作为资本市场的参与者，则要小心泡沫破裂造成的损失。

Friedman 有一段精彩的评述：

So even if you’re $500 billion spend, that’s $75 billion in reusable knowledge, reusable infrastructure, okay, you lost an absolute fortune. There’s a bunch of people who lost a ton of money on that, but maybe that’s $75 billion that wouldn’t have gotten spent without the bubble and things move forward. I mean, this happened in dot-com, too. We had so much waste, some of it was in the form of the telco stuff that you’re describing, but some of it was just in the form of knowledge, and you ended up with these wonderful byproducts of it. The Webvan team was part of the bubble, and some of them spun out and built Kiva robots, which Amazon bought, and then those are now powering Amazon warehouses. That’s like a bubble side effect you can’t predict in advance, but it was net beneficial, because we get all these wonderful products from Amazon so quickly.

因此，即使你花费了 5000 亿美元，那也是 750 亿美元可重复使用的知识、可重复使用的基础设施，好吧，你损失了一大笔钱。很多人因此损失惨重，但也许如果没有泡沫和事情的发展，这 750 亿美元就不会被花掉。我的意思是，这在互联网泡沫时期也发生过。我们有太多浪费，其中一些是以你所描述的电信业务的形式出现的，但有些只是以知识的形式出现的，你最终得到了这些美妙的副产品。Webvan 团队是泡沫的一部分，其中一些团队分拆出来制造了 Kiva 机器人，亚马逊收购了这些机器人，现在这些机器人正在为亚马逊的仓库提供动力。这就像你无法提前预测的泡沫副作用，但它是净收益，因为我们可以如此迅速地从亚马逊获得所有这些精彩的产品。

Webvan 是一家互联网时代的在线杂货店创业公司，成立于 1996 年，旨在通过互联网提供 30 分钟内送货上门的创新服务。公司在 dot-com 泡沫期间迅速扩张，但最终于 2001 年破产。尽管失败，但 Webvan 为后来的在线杂货配送服务铺平了道路，亚马逊等公司后来都借鉴了类似的商业模式。

问题在于，谁愿意去做 Webvan 这样的先烈呢？正如 Thompson 问道：

but the problem is that in this view of distillation, the economic value of the large model is basically zero, because it’s too expensive to deploy, so you can’t make money on it relative to all these smaller models that learn from it and are much cheaper to offer as inference. If that’s the case, who’s going to keep building the big model to rule them all that actually teaches all the small models how to work?

但问题是，从这种蒸馏的观点来看，大型模型的经济价值基本上为零，因为部署成本太高，所以相对于所有这些从中学习且提供推理成本更低的小型模型，你无法从中赚钱。如果是这样的话，谁会继续构建大型模型来统治它们，而这些模型实际上会教所有小型模型如何工作？

让我想起，李开复为什么毅然决定终止在大模型训练上的投入。

Daniel Gross 提出一个理解：蒸馏可以提升模型的利润。但我认为这个理解是错误的，它忽视了蒸馏技术降低了进入门槛，而市场竞争将驱动利润水平降低。

Thompson 随后把话题转向了“信仰”：驱使人们做出如此巨大投入的原因不仅仅是来自于经济价值的，而是有类似宗教信仰的原因。Friedman 和 Gross 都表示了赞同，Gross 认为，这是为什么硅谷能够持续创新，在 Webvan 之后，接连出现了 Amazon、Instacart、Waymo 这样的公司的原因。

Thompson 的态度略显保守，他戏称自己是一个“无聊的经济人”（boring economic guy），他讲了这样一段话：

San Francisco has been the home of cults forever. It’s in the soil, it’s in the water. Daniel, actually, the thought just occurred to me. A couple of the things we’ve been talking about actually may not be in conflict, but may be aligned. So, my whole take is I’m skeptical on the assistant bit, I think there’s a high degree of arbitrage available to employees today, because you can be way more productive or work way less and your employer doesn’t capture that margin, and of course they want to, but they have a hard time doing it, because it’s how do you roll that out at scale to a workforce that’s not fully adapted to this, not grow up in it.

My whole take is SaaS is a demographic phenomenon, you needed a generation that grew up using web apps to make the whole thing work, and once kids today are in the workforce, yeah, everyone’s going to use AI, but in the meantime it’s going to be hard, which is why I think there’s going to be this top-down implementation that will just wipe out entire departments.

旧金山一直以来都是邪教的发源地。它在土壤里，也在水中。丹尼尔，实际上，我刚刚想到了这一点。我们谈论的几件事实际上可能并不冲突，反而可能是一致的。所以，我的整体看法是，我对助理部分持怀疑态度，我认为如今员工可以获得很高的套利空间，因为你可以更有效率或者更少地工作，而你的雇主无法获得这种利润，当然他们想要，但他们很难做到，因为要如何在一个还没有完全适应、没有在这种环境中成长起来的员工群体中大规模推行这个呢？

我的看法是，SaaS 是一种人口统计学现象，你需要一代在使用网络应用中成长起来的人才能让整个系统运转起来。而当今天的孩子进入职场后，是的，每个人都会使用 AI，但在此之前这会很困难，这就是为什么我认为会出现自上而下的实施方式，这将直接淘汰整个部门。

“人口统计学现象”和“自上而下的实施方式”意味着 AGI 的大规模部署比我们想象得更慢。Gross 和 Friedman 都认同这一点。

一些其它有趣的观点：

Friedman 提出了一个很符合 AI 现实的问题：一个具有高通用性但可靠性稍低的系统还能在哪些方面发挥作用？
Thompson 对中美差异对分析：如果一件事成为商品，那么长期盈利的来源就是可持续的低成本结构；相反，美国的思维模式是苹果的思维模式。盈利来自可持续的差异化，来自护城河建设。
Friedman 回应：America’s margin is China’s opportunity. Is that what you’re saying?

What would a world with AGI look like?

本文列举了很多数据，并基于这些数据进行推理，试图描绘一副 AGI 世界的图景。

我来摘取一些数据：

受人工智能浪潮推动，到 2030 年，数据中心将消耗美国约 12% 的电力。
H100 GPU 在数据中心的实际使用寿命相对较短，在 60-70% 的高利用率下运行，使用寿命为 1-3 年。按照 Meta 的使用率，这些 GPU 的年化故障率约为 9%。
推理成本似乎每年下降 10 倍。
如果一个查询同时分配给 64 个 H100（常见于大型 LLM 推理），则仅这些 GPU 每小时就需要支付 64 ×（3 美元 - 9 美元）= 192 美元 - 576 美元。
如果查询的总计算时间在约 4-5 GPU 小时的范围内（例如，64 个 GPU 上为 5 分钟 → 约 5.3 GPU 小时），那么一次推理就可能要花费数千美元——特别是如果您支付按需云费率的话。
现在，为了完成一项任务，人们会使用大约 20-30 个 Claude Sonnet 调用，耗时 10-15 分钟，如果需要修复问题，还会进行干预，耗时 2-3m 令牌。对于一个像样的程序员来说，另一种选择是花 30-45 分钟。
您可以聘请软件工程师 Devin，每月费用为 500 美元。为内部代码库创建测试套件大约需要 2 小时，或自动创建基准数据可视化需要 4 小时。这可以被认为是 AGI 的一个非常便宜但也非常糟糕的版本，因为它经常失败，但我们假设它可以达到“足够好”的覆盖率。

一些在 AGI 假设下的推理：

现在，到 2030 年，数据中心可能会使用美国 12% 的电力。美国每年消耗约 4000 太瓦时 (TWH) 的电力。如果人工智能消耗该数字的 40%，则每年为 192 太瓦时。连续运行 H100 每年将耗电约 4.38 兆瓦时。
因此，这意味着我们可以同时运行大约 4400 万个 H100 GPU。实际上，如果存在功率和过热等问题，那么可能约一半是更实际的数字。
如果我们考虑全球数字，这个数字将会翻倍——因此大约有 7600 万个最大并发 GPU 和 4000 万个现实的 AGI 代理日夜不停地工作。
为了实现这一目标，我们一开始需要大约 3300 万个 GPU，使用寿命约为 1-3 年，这基本上是全球可能的全部产量。Nvidia 的目标是每年生产大约 150-200 万台，因此需要加快生产速度。
整个半导体行业、能源行业和人工智能行业基本上必须重新布局，并成为世界经济中更大（更大！）的组成部分。

作者还按照“如果 AGI 不能完美替代人类会怎样？”、“如果 AGI 未能达到通用水平怎么办”和“无代理的 AGI”三个假设进行了相应的推演。

这篇文章整体的论调偏乐观。

Are better models better?

本文可以看作是 Benedict Evans 去年的一篇文章 Looking for AI use-cases 的后续版本。在那篇文章中，Evans 用自己在研究中碰到的问题来测试 ChatGPT，但结果并不好。我在《AI = 1000 个实习生》一文中写道：

自 1900 年开始，每年美国的电梯管理员数量有多少？对于分析师而言，这的确是一项再典型不过的工作：问题看起来简单明白，而做起来却很麻烦，你需要找到可靠的数据源，确认历年的统计口径，然后在浩如烟海的文件中找出逐年的数据——很可能还要面对某些年份数据缺失的问题。这样的问题往往会丢给初级的分析师，甚至是实习生来解决。我们都经历过职业的这个阶段，交给我们类似工作的 leader 希望用这样的工作证明我们的专业和严谨，或许还有——服从。

AI 却很诚实。在上面的截图中，它诚实的告诉我们，这是一项挑战性的任务，数据缺失严重，不足以完成交给的任务——如果这是一个实习生，leader 是否会打出满意的分数呢？

每周都会有新的模型和方法出现，大家都在问这些模型是否真的更好。虽然有些任务能通过更好的模型得到更准确的结果，但有些任务的结果是简单的，无法定义的“好”或“坏”。

很重要的假设是：

生成式人工智能的错误率是技术的基本特性，而不能轻易消除。
用户对计算机结果的期望是基于过去的经验，即计算机应提供确定性的答案。

这是一个关于预期偏差的问题：如果是我们的实习生犯了和 AI 模型相同的错误，我们是不是会产生相同的反应？

Evans 指出：

Part of the concept of ‘Disruption’ is that important new technologies tend to be bad at the things that matter to the previous generation of technology, but they do something else important instead. Asking if an LLM can do very specific and precise information retrieval might be like asking if an Apple II can match the uptime of a mainframe, or asking if you can build Photoshop inside Netscape. No, they can’t really do that, but that’s not the point and doesn’t mean they’re useless. They do something else, and that ‘something else’ matters more and pulls in all of the investment, innovation and company creation. Maybe, 20 years later, they can do the old thing too - maybe you can run a bank on PCs and build graphics software in a browser, eventually - but that’s not what matters at the beginning. They unlock something else.

What is that ‘something else’ for generative AI, though? How do you think conceptually about places where that error rate is a feature, not a bug?

“颠覆”概念的一部分是，重要的新技术往往在上一代技术所关注的事情上表现不佳，但它们却能做其他重要的事情。问法学硕士是否可以进行非常具体和精确的信息检索，可能就像问 Apple II 是否可以匹配大型机的正常运行时间，或者问你是否可以在 Netscape 中构建 Photoshop。不，他们真的做不到这一点，但这不是重点，也不意味着他们没用。他们做其他事情，而“其他事情”更重要，吸引了所有的投资、创新和公司创建。也许，20 年后，他们也可以做旧事——也许你最终可以在 PC 上经营银行，并在浏览器中构建图形软件——但这并不是一开始最重要的。他们解锁了其他东西。

但是，对于生成式 AI 来说，‘其他东西’是什么呢？您如何从概念上看待错误率是特性而不是缺陷的地方？

我们和机器打交道的经验告诉我们，机器一般不会犯错，如果错了，那么机器就“坏”了——这肯定是缺陷（bugs）而非特性（features）。

对于同类，也就是人，我们要宽容的多。

Evans 表达了类似的观点：

当应用于生成式 AI 时，这种期望和感知问题会更有趣。经过 50 年的消费计算，我们已经被训练成期望计算机是“正确的”——是可预测的、确定性的系统。这是我的电梯测试的前提。但如果你颠覆了这种期望，你会得到什么回报？

AI 或许是人类所造出的所有机器中最复杂的一个。在 AGI 和 ASI 的定义中，问题的范畴被不断的放大。假以时日，我们会对 AI 更加宽容吗？如果我们和它相向而行，最终会不会我们变得更宽容，而 AI 也越来越不像是“机器”？

Wealth and Health

短期思维的结构缺陷

这是硅谷王川 @Svwang1 在 X 上的一个发布，标题是 AI 加的。

摘录其中一句话，和我最近的阅读和思考很有呼应：

如果我知道每四五年会至少有一次小熊市，为什么要强迫自己耗费资源参与一些人声鼎沸，回报递减，但风险越来越大的游戏呢？

为什么不多囤一些弹药慢悠悠的等待那必然发生的恐慌性抛售和一地鸡毛呢？

仅仅十年的职场生涯

曾经写出《互联网是人类历史的一段弯路吗？》这样的优质长文的作者“评论尸”回顾了他的职业生涯。他在职场工作了十年，经历了多个行业和职位的变化。通过这些经历，他逐渐认识到工作不仅仅是谋生，而是应该为自己感兴趣的事情而工作。他的工作伦理也因此发生了变化，意识到生活中的工作并不是全部，应该关注更多的个人价值和幸福感。

他在文中提到一段话：

在这次半告别半汇报的见面中，这位联合创始人说了一段话，大意是在现代社会，一家公司只是一个人人生中的很小一段，每个人也只是一家公司发展中的很小一段，两方基于自由的选择而在特定的时期相伴一段时间，这是一件好事，但之后如果不再又交集也不是什么坏事。

春节前，抓紧返乡前的时间和一些朋友茶话聚会。很多人都在感叹，时代令人应接不暇。走过来回头看，更加意识到自己的渺小。如果能在每一个阶段能够有一点收获，还能全身而退，顺利进入下一个阶段，已经是很幸运的事情了。

← Back to Newsletter Archive