Generative AI 杂记

January 27, 2023

对于 Generative AI，我尚未形成比较系统化的思考。这里仅就已经看到和想到的事情做一些罗列，以期能够逐步构建出更完整的想法。本文的内容杂糅了一些阅读笔记和我的主观臆断，很可能有理解不准确之处，以期后续修正。

技术 vs. 内容

在国内的产业语境下讨论 Generative AI，其实是在讲这项技术的产物，即 AIGC（AI 生成内容），而非这项技术本身。这就容易让讨论进入到内容产业而非科技产业中去。诚然，两者在对规模经济的诉求上，有强烈的相似性，而且两者在组合式进化的路径上也经常难分彼此。但是，混淆两者仍然可能让人低估 Generative AI 作为基础设施技术所需要的超前投入。相比而言，内容产业还没有这样一项具有如此通用性的基础设施诞生。

名字是最简洁有力的叙事。如果把名字的重点放在 AI 上，则意味着叙事和中心是 AI 技术向 AGI（Artificial General Intelligence）的进展；而若把重心放在 Content 上，则更多关注应用层，也就是用 AI 作为内容生产的工具。

这是美中两国在产业结构和阶段上的差异造成的。美国仍然在技术原创上遥遥领先，而中国则在技术应用层面上深谙其妙。我丝毫不怀疑，中国的 AIGC 可能更快的诞生令人瞠目结舌的应用层创新，而美国则会在基础模型上持续投入。其背后更可以分析产业的深层次原因。

规模经济与基础设施

大型语言模型（LLM）的训练成本巨大。据称，每一次模型训练的成本在千万美元以上，这可能意味着一家初创公司的全部融资也只能用来完成寥寥几次训练。2019 年，OpenAI 从最初的非营利性研究机构（non-profit）转为了「利润上限」公司（capped-for-profit），并接受了微软 10 亿美元的投资。其最初的投资者中也包含 Amazon (Web Services)，OpenAI 从微软和 Amazon 那里可以获得成本低廉的计算资源，这一点让模型训练的成本得到了显著的降低。

这也意味着，大模型的演进不是连续迭代的，而是更类似 PC 时代的软件工程方式，每隔一段时间发布一个大型升级，增加大量的新特性。这种迭代方式当然不如互联网时代的那种小幅更新、快速上线、A/B 实验的方式来得灵活。每一次升级都像是在下一次复杂的赌注，但一旦成功就能带来显著的飞跃。

通胀带来的充沛流动性在关键少数手中掌握着，私人资本正在以超出预想的方式放弃短期利润，而把目光着眼于长期基础的构建。这与 17 世纪滥觞的信贷金融不同，或许是资本主义的一种自我进化。

在 Dailo 的《原则：应对变化中的世界秩序》中写道：

没有任何一个政治体制、经济体系、货币或帝国可以永远存在。但当它们失灵时，几乎所有人都会感到惊讶，并受到毁灭性打击。

在这本书中，Dalio 对资本主义的现状展现了一种冷静的悲悯。但他也认为，无论是资本主义还是共产主义都在与时俱进的发生变化。资本主义的变化是自内而外的：债务周期催化了货币增发，让巨量资本流向少数个人手中，这些人在技术和商业的演进上扮演了某种专制者的角色，不受阻碍的投资于未来的基础设施。

除了在战争期间的中央政府，不再存在另外一种社会力量能够在短时间内满足规模经济所需要如此庞大的预先投入。而没有这些前期投入，大模型根本不可能诞生。这种超人式的政治经济学，很难以纯粹的资本主义哲学来理解。无论太空旅行还是人工智能，Elon Musk 和 Sam Altman 的动机都难以揣测，似乎在悲观和乐观的两极来回反转。

价值链与颠覆者

Sam Altman 在最近的一次分享中表示，由于大型语言模型（LLM）成本高昂，初创公司不大可能自行完成基础模型的构建，而它们的差异化机会在于基于基础模型（Foundation Model）构建「中间层」。这种推断的构想在于：AI 的终极界面将是自然语言界面，而底层模型则仅由 OpenAI 这样的少数机构提供，初创公司的价值在于找到特定的使用场景，并为之做垂直化的迭代。

这个论断的背后有着身后的技术原因。2020 年，题为 Language Models are Few-Shot Learners 的论文发表，其中详细论述了 GPT-3 的模型原理、评价和可能引发的后果。论文题目中提到的 Few-shot Learning 区别于传统的监督式模型调试（Supervised Fine-Tuning）方法，无需针对每一个任务向模型提供庞大的训练数据集，也避免了针对任务特定的数据集过度学习的产生的问题。GPT-3 也因此变得更加接近通用人工智能（AGI），模型可以完成的任务更加广泛。我理解，这个进展还有一个额外的好处，就是彻底把模型训练（规范的说法是「预训练」pre-training）和针对特定任务领域的优化解耦了。昂贵的预训练可以由拥有充足计算资源的机构来完成，而后续的调优过程则转变为 Prompt Engineering 这样的较为轻量级（相对于预训练而言）的工作，可以更加灵活和低成本的完成。

这意味着，Generative AI 已经开始初步形成价值链条上的自然分工：

计算层：云计算厂商提供基础的计算资源。
模型层：OpenAI 负责 LLM 的预训练，并以 API 的形式向公众开放。
中间层：垂直领域的机构甚至个人可以通过模型调优产生适用于特定场景的结果。

这个价值链的最大好处在于，在第 0 和 1 层都实现了极大的通用化后，在第 2 层实现了用例的多样化。这使得第 1 层可以和 App Store、搜索引擎甚至 OS 相比拟，这类事物能够获得大尺度成功的原因在于，它对于下游足够简单，又充分友好，并保持了在边界上的克制，并不会自己跳下场去干扰下游生态的发展。

第 0 和 1 层的巨额投入最终想要得到充分的回报。OpenAI 预计自己将在 2024 年产生 10 亿美元收入。这些收入最终将从第 2 层所开发出的大量中间层垂直用例中产生。

然而，这种说法可能近似于十几年前 App Store 刚刚发布时移动厂商对开发者的那种顶礼膜拜。开发一个手电筒应用赚到百万美金的创富神话比比皆是。今天 iOS 换成了 GPT，而 App 变成了「中间层」。

Sam Lessin 发文认为：AI 不大可能成为平台颠覆者。

It is pretty clear how zero-marginal-cost content will help ads get more compelling, engagement more 'engaging', etc. it is clear how it will make the 'rich' richer ... but what exactly does it topple?

New infrastructure winners? Nope. The big cloud providers are the ones who have the logistics, infra, and money to get access to any new hardware needed / it all fits on their glide-path, no opportunity there.
Creative tools? Nah. Maybe on the margin there are a few winners, but the big winner is gonna be adobe (canva?), etc. They can just muscle through new solutions to the same people they already serve.
Consumer experiences? Search / Social? Mobile should be the lesson here... if vou think that was the great last 'disruption' who won that? The existing people, just winning harder.

So, is Al cool? Yes. Is it gonna make folks money? Yup. Should you buv big tech stocks if vou believe. Yes. But beware the narratives that people tell because the HAVE to believe them emotionally, and don't equate 'new tech' with actual disruption.

简言之，硅谷已经很长时间没有出现真正的颠覆者了。AI 很可能也不是。

A16Z 也认为，云计算厂商作为基础设施提供者可能是「堆栈中利润丰厚、耐用且看似可防御的层」，尽管它也承认，新一代软件公司或许能够建立起新形态的护城河。

准确性预期

业界普遍认为，此刻的 LLM 还不能作为准确的信息来源使用。尽管 ChatGPT 已经能够在很多问题下提供足够令人惊艳的回答，但它也经常会出现事实错误或者逻辑混乱的情况。我们在社交媒体上看到的那些正面例子，都是经过人类筛选后的结果。对于一个没有自我判断能力的人来说，很可能会被 ChatGPT 似是而非的回复搞糊涂。

现阶段的模型仍然高度依赖人类向它投喂的训练和反馈数据。换句话说，它仍然如同生存在保温箱里面的婴儿，与外部世界的关联极度稀缺，尽管它的大脑正在快速发育，但大脑无法凭空想象出认知。在 Murray Shanahan 的论文 Talking About Large Language Models 在开头就充分揭示了这一点：

In an important sense, we are not really asking who was the first person to walk on the Moon. What we are really asking the model is the following question: Given the statistical distribution of words in the vast public corpus of (English) text, what words are most likely to follow the sequence “The first person to walk on the Moon was ”? A good reply to this question is “Neil Armstrong”.

在一个重要的意义上，我们并不是真的在问谁是第一个在月球上行走的人。我们真正要问的模型是以下问题：考虑到庞大的公共（英语）文本语料库中词语的统计分布，哪些词语最有可能出现在「第一个登上月球的人是」这个序列中？对这个问题的一个好的回答是「尼尔·阿姆斯特朗」。

Shanahan 论文的一个重要观点，也在之前的 newsletter 中引用过：

Humans are members of a community of language-users inhabiting a shared world, and this primal fact makes them essentially different to large language models. We can consult the world to settle our disagreements and update our beliefs. We can, so to speak, “triangulate” on objective reality.

人类是居住在一个共享世界的语言使用者社区的成员，这一原始事实使他们与大型语言模型有着本质的区别。我们可以通过咨询世界来解决我们的分歧和更新我们的信仰。可以说，我们可以对客观现实进行「三角测量」。

三角测量（triangulate）其实就是我们在社会语境下惯常使用的第三方视角。只要找到一个独立而利益不相关的第三方，我们就能够便捷的确认事实。无论是司法还是学术，都以这种低成本而高通用性的方式来保证信息的准确性。

LLM 没有这样的便利条件进行「三角测量」，这恐怕也是为什么 ChatGPT 需要尽早开放给公众——人们在兴奋的尝试中为模型提供更多输入，并且耐心学习如何写出更容易令机器理解的 prompts，引导机器给出更合意的回答——在我阅读相关文献的时候，几乎感受到一种人类教自己幼子说话的那种耐心。

只要我们降低对模型准确性的预期，那么机器几乎就是万能的（召回率高），但极度简化的对话式 UI 对于公众而言无疑是具有迷惑性的：流利的对话能力掩盖了对事实的一知半解。高准确性预期一方面可能造成使用不当，另一方面也限制了模型的通用适配能力。OpenAI 选择 API 作为自己的产品形态，ChatGPT 这样的聊天机器人更像是一个技术演示。这也意味着「中间层」在面向使用场景的调试和封装上还有不小的空间可以拓展。而越是垂直的场景，用户对准确性的预期可能就会越高，比如常见文案撰写、客服回复、论文写作等，如果用户需要频繁深度介入干预，那么就会对模型的实际价值产生怀疑。这就要求「中间层」能够在准确性预期的满足上拿出一些真功夫来。

互联网的流量 + 广告模式实际上是建立在低准确性预期上的商业模式，继承自传统媒体时代的非个性化广播式内容分发逻辑。一般而言，可供选择的广告数量是有限的，准确性预期越高，召回率就越低，最终就是没有合适的广告可以展示（或者干脆撕破脸皮强插）——这就是所谓用户体验与商业模式内在冲突的定律。在高准低召的情况下，可选的商业模式几乎只剩下向用户收费。

很多人认为搜索引擎将受到来自 GPT 的巨大挑战。可能是对的。但这种挑战首先可能是间接的，而非直接替代性的：原因是目前的 GPT 可以廉价产出的低准确性内容可能被混杂到高准确性场景中，破坏平台固有的用户信任；在此之后，才是漫长的提升准确性的过程，这意味着 Google 将需要建立一套类似「三角测量」的机制，辨别并接纳那些准确性过关的内容进入搜索结果。正如移动应用的「封闭花园」没有淘汰搜索引擎一样，GPT 的一种可能是融入现有的流量生态，其结果是搜索引擎的入口价值得以强化（特别是考虑到 Android + Chrome 这两条护城河）。

← Back to Newsletter Archive