AI 杂记 7：通往通用之路

February 24, 2024

在 Sora 最火热的同时，我想起一个问题：类似 Perplexity 这样的产品是不是还有价值？或许这个问题不大恰当，因为两者没有什么可比性。而它唯一的合理性在于，Scaling Laws 驱动下的模型似乎是越大越好的，多模态、世界模型和 AGI 这些庞然巨物，可能会吞下其它的小鱼小虾。

在生态系统中，即便两个物种不处于同层，上层仍有可能吃掉下层。多年以来，iOS 就吃掉了很多本来处于 App Store 生态中的第三方应用开发者的生存机会。类似的情况也广泛存在于其它的生态系统中，奉行软硬件一体的苹果公司早年吃够了被第三方开发者抛弃的苦，始终没有放弃推出第一方应用的努力，但更多情况下，生态中的上层位置更容易发现有利可图的机会，也在研发、分发等资源上占尽优势。

像浏览器这样的位置，无论是在 iOS 还是 Android 上，都是生态拥有者牢牢占据的存在。即便开放如 Android，其 WebView（也就是在第三方应用中打开网页的界面）默认保留为自家的 Chrome。在这个意义上，Android 其实更像是 Chrome 的启动器，而 Chrome 则更像是 Google 搜索的启动器。这样的植入方式，隐秘而巧妙，在承诺开放的同时，也占据了最有利的位置。

多层叠加的技术栈构成了密不透风的商业栈。Android 已经是世界上最大的操作系统，Chrome 也是世界上最大的浏览器，Google 也守住了世界上最大的搜索引擎的位置。现在，Gemini 也在延循类似的方式走向世界最大的 AI 应用的位置：它在替代原有的 Ok Google 的入口，成为嘴边可以随时唤醒的 AI 助手。

有趣和有用，是 toC 产品最简单的分类方法。在这两个方向上，已经有 character.ai 和 perplexity.ai 两个产品初步证明了自身的 PMF，但他们也将面临商业模式的问题。而能对齐模式造成摧毁性打击的，更可能是在其上游出现降维打击的对手：OpenAI 可能在 ChatGPT 提供更及时、更优质的知识库索引，Google 可能利用自身强大的分发渠道（搜索、Andorid、Chrome）更快的触达用户。

高频打低频是这种降维攻击最常见的做法。很多时候，高频被视为是在战略上做出的预先选择，但从我的经验看，战略选择其实只是聪明人的概念游戏，真正困难的在于兑现这种选择的禀赋、时机或者干脆就是运气。先发优势往往体现在抢先在竞争开始之前就占据最优势的地形，而这有需要强大的资源支撑和领导 - 执行能力。这些因素往往互为因果，说不清谁能带来谁，偶然和运气甚至更有解释力。

类似 perplexity.ai 这样的产品，优势在于性能和成本效率更高，特别是与 GPT-4 这样的大模型相比，显然更接近于消费者普遍能接受的响应速度。这也符合颠覆式创新的原理：用成本更低但是性能够用的产品撬动细分市场，最终实现颠覆。这家公司在 1 月份刚刚宣布了新的融资，也只有几千万美元，和这个领域动辄十亿美元的融资额相比，竟然相差出 2 个数量级，更不用提 Altman 那个 7 万亿。

投资人 Elad Gil 在 X/Twitter 发表了一连串的问题，其中提出了一个 2x2 矩阵，以性能/成本为纵轴，通用性/智能为横轴。在这个矩阵中，perplexity.ai 大概处于偏左上的部分，Sora 可能在右下，右上方则是 GPT / Gemini 这样模型想要逐步逼近的地方。

如果市场走向细分，那么自然可以相安无事。但另一种情况就是：通用性战胜了特异性，perplexity.ai 成为了 GPT Store 上的一个应用，就像它今天也是 App Store 和 Google Play Store 上的一个应用一样。

说到 Google，它在 Gemini 1.5 中发布了超大上下文窗口的模型，根据 The Verge 的报道：

Gemini 1.5 has an enormous context window, which means it can handle much larger queries and look at much more information at once. That window is a whopping 1 million tokens, compared to 128,000 for OpenAI’s GPT-4 and 32,000 for the current Gemini Pro ... so Pichai makes it simpler: “It’s about 10 or 11 hours of video, tens of thousands of lines of code.” (Pichai also says Google’s researchers are testing a 10 million token context window — that’s, like, the whole series of Game of Thrones all at once.)

Gemini 1.5 具有巨大的上下文窗口，这意味着它可以处理更大的查询并同时查看更多信息。该窗口的 token 数量高达 100 万个，而 OpenAI 的 GPT-4 为 128,000 个，当前版本（1.0）Gemini Pro 为 32,000 个 ... 所以 Pichai 简而言之：“大约 10 或 11 小时的视频，数万行代码。”（Pichai 还表示，谷歌的研究人员正在测试一个 1000 万个令牌上下文窗口——这就像同时测试整个《权力的游戏》系列。）

AI 研究者 Ethan Mollick 测试了 Gemini 1.5、Claude 2.1 和 GPT-4 + RAG：

我上传了《了不起的盖茨比》，做了两处修改（提到了“盒装 iPhone”和激光割草机）。Gemini 成功了（并且发现了另一处错误）。Claude 完成了上传，但出现了幻觉。RAG 不起作用。

上述内容源于 Ben Thompson 的 文章。

不免让人想起，20 世纪的那些大企业，最喜欢用的名字就是 General，而今天，Open 则更受青睐。谁知道，它们实际上是一个意思。

特异性的机会在哪里？比如 Groq，可以说就是专门服务左上象限的。参考 SemiAnalysis 发表的对 Groq 的性能 / 成本分析：

Groq has a genuinely amazing performance advantage for an individual sequence. This could enable techniques such as chain of thought to be far more usable in the real world. Furthermore, as AI systems become autonomous, output speeds of LLMs need to be higher for applications such as agents. Likewise, codegen also needs token output latency to be significantly lower as well. Real time Sora style models could be an incredible avenue for entertainment. These services may not even be viable or usable for end market customers if the latency is too high.

Groq 对于单个序列具有真正令人惊叹的性能优势。这可以使思想链等技术在现实世界中更加有用。此外，随着人工智能系统变得自治，大语言模型的输出速度对于 Agent 等应用来说需求更高。同样，codegen 也需要显着降低令牌输出延迟。实时的 Sora 类模型可能是通往娱乐场景的一种路径。 如果延迟太高，这些服务可能对终端用户来说不可行或不可用。

Groq 是一家专注于实时 AI 解决方案的公司，其主要产品为 Groq LPU（语言处理单元）系统。这个系统由自定义设计的芯片组成，称为 LPU，它针对大型语言模型（LLM）而设计，具有更高速度和效率。Groq LPU 可以每秒生成约 500 个词 token，比 ChatGPT 快 12.5 倍。

换句话说，对于实时性要求更高的「串行」场景（e.g. Agents）而言，每一步都快一点更重要。就像我们设计一种工作流，要求每一步任务的执行者都更加专注于简单的一步，以最快的速度和尽可能高的质量完成，然后交给下一步的执行者接力。

在 Mistral 8x7B 的「小」模型上，Groq 表现出了遥遥领先的性能和成本优势。

SemiAnalysis 的另一篇文章中写道：

The hardware infrastructure on which AI software runs has a notably larger impact on Capex and Opex, and subsequently the gross margins, in contrast to earlier generations of software, where developer costs were relatively larger. Consequently, it is even more crucial to devote considerable attention to optimizing your AI infrastructure to be able to deploy AI software. Firms that have an advantage in infrastructure will also have an advantage in the ability to deploy and scale applications with AI.

与开发人员成本相对较高的前几代软件相比，运行人工智能软件的硬件基础设施对资本支出和运营支出以及随后的毛利率的影响明显更大。因此，更加重要的是投入大量精力来优化人工智能基础设施，以便能够部署人工智能软件。在基础设施方面具有优势的公司也将在利用人工智能部署和扩展应用程序的能力方面具有优势。

读起来像是一本新的政治经济学。

Sora 的突然发布，和 Altman 的另一个 7 万亿的放卫星言论结合起来，更让人浮想联翩，夜不能寐。

公众号「信息平权」估算，按照现在的价格，7 万亿美元可以购买 3 亿张 H100 GPU，摊到没法个人头上，大概是每 20 个人共享一张 H100 的算力。这个计算是静态的，没有考虑到算力的提升和成本的下降。不过，仅仅是这样的一个粗略估算，就已经可以模糊的描绘出未来的图景。

不管 Sora 到底和 AGI 之间有多远的距离，7 万亿模型的意图在于为每个人都提供一份足够的算力，这可能是 AI 降临之后，平权的一种实际表达。

互联网时代的愿景是：让地球上绝大部分成年人都拥有一部手机（或者更早的 PC 时代，让每个家庭的桌上都有一部电脑）这些理想的实现最终是依靠 Jobs 通过一代又一代的产品发布会来达成的。自由市场上的消费者，无论他们多么狂热，都是自发的走上街头，在 Apple Store 门口排起长队。Windows 和 Android 为消费者们提供了更多、更便宜的选择，让渗透率达到了前所未有的高度。

GPT 一出世就采取了付费模式，但即便如此，仍然不见得是一门好生意。对于算力成本是否能快速下降，以及要达成盈亏平衡的规模临界值，还有太多种版本的计算。类似 Perplexity AI 和 Character.AI 这样的创业公司，更加不知道融来的现金能够支撑多长时间。从去年年底到现在，对于算力提升及成本下降的预测并没有很乐观，人们所期待的「摩尔定律」还没有出现。

取而代之的，是所谓的 Scaling Laws，早在 2020 年，OpenAI 就发表了一篇题为 Scaling laws for neural language models 的论文，其摘要写道：

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as network width or depth have minimal effects within a wide range. Simple equations govern the dependence of overfitting on model/dataset size and the dependence of training speed on model size. These relationships allow us to determine the optimal allocation of a fixed compute budget. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

简言之，就是说模型、数据集和算力的规模决定了输出的质量。这项工作对于 OpenAI 具有极强的战略意义，使得 Sam Altman 坚定不移的走上了「暴力美学」的路线。

不在这条路线上的努力，无论设计多么巧妙，都很难掀起大的浪花。人们不知道 Altman 手里还有多少秘密武器，只能在每一次发布的时候惊叹不已。Sora 这一次和之前每一次都很像：惊艳的效果，对于成本昂贵的批评，不知道为什么这么快就做出来了的感叹，和对未来路线的猜疑。

人们开始把 Sam Altman 与 Elon Musk 和相比。的确，他们两人在宏大叙事上是很相似：他们都善于把一个看起来很夸张的未来讲述得栩栩如生，并预先拿到支撑未来庞大基建的资本投票。人们相信，他们看到了真正的未来，并且迫不及待的想要买一张通往那里的船票。

恐怕也只有这样的叙事，才能配上 Scaling Law，才能超前配置算力，不是为少数人，而是为每个人。商业模式？可以等到晚点再来讨论。

这和 Steve Jobs 及 Bill Gates 太不一样了。今天看起来，他们做事的方式太有年代感了，Jobs 从卖电脑开始，Gates 从给 IBM 做外包开始，即便后来转到软件上，也是卖实体的磁盘。这有时代的局限，而如果你看 Sergey Brin、Larry Page 和 Mark Zuckerberg 呢？似乎也和 Altman 不大一样，风险投资更早的进场，但资本参与的规模和「7 万亿」无法相比。

眼前出现了一个巨大的分水岭：一边是萎缩的风险投资，一边是「7 万亿」这样的大卫星。Scaling Laws 不仅仅是一篇学术研究，它更是一种新的资本主义。资本分配更加集中和极端，力出一孔，大力出奇迹。在这样的情形下，人们对未来的担忧，面子上是被 AI 支配，骨子里更是对中心化极权的恐惧。

或许，与人相比，AI 会更容易向善一些。

← Back to Newsletter Archive