AI 杂记 6:从 AI 原生到 +AI
Sequoia Capital 的 Sonya Huang 发表的 Generative AI's Act Two 一文是去年 9 月发表的 Generative AI: A Creative New World 的后续,仅仅过去一年时间,文章就更新了第二版,而标题也加入了「第二幕」。
Act 2
去年这个时候,今天世界所熟知的 GPT——也就是 3.5 及以后的版本——都还没有面世,在那篇文章里,Huang 提出了 AI 的 4 波浪潮:
- 第一波浪潮:小模型占据主导地位(2015 年之前) 5 年前,小模型被认为是理解语言的“最先进技术”。这些小型模型擅长分析任务,并可用于从交货时间预测到欺诈分类等工作。然而,它们对于通用生成任务的表达能力不够。生成人类水平的写作或代码仍然是一个梦想。
- 第二波:规模竞赛(2015 年至今) Google Research 的一篇具有里程碑意义的论文(Attention is All You Need)描述了一种用于自然语言理解的新神经网络架构,称为 Transformer,它可以生成高质量的语言模型,同时具有更高的可并行性和要求训练时间明显减少。这些模型是小样本学习器,可以相对轻松地针对特定领域进行定制。
- 第三波:更好、更快、更便宜(2022 年及以后)计算变得更便宜。扩散模型等新技术可以降低训练和运行推理所需的成本。研究界不断开发更好的算法和更大的模型。开发人员访问权限从封闭测试版扩展到公开测试版,或者在某些情况下,扩展到开源。
- 第四波:杀手级应用程序出现(现在)随着平台层的巩固,模型不断变得更好/更快/更便宜,模型访问趋于免费和开源,应用程序层的创造力爆发的时机已经成熟。
在一年之后,Huang 宣布生成式 AI 已经进入了 Act 2,也就是第二幕。在传统戏剧的结构中,整个戏剧被分成单独的几幕,第二幕是指戏剧的第二个主要部分或片段,通常代表戏剧中情节和人物关系的重大发展或升级。Huang 这样解释道:
We now believe the market is entering “Act 2”—which will be from the customer-back. Act 2 will solve human problems end-to-end. These applications are different in nature than the first apps out of the gate. They tend to use foundation models as a piece of a more comprehensive solution rather than the entire solution. They introduce new editing interfaces, making the workflows stickier and the outputs better. They are often multi-modal.
我们现在相信市场正在进入「第二幕」——这将来自于客户的支持。第二幕将端到端的解决人类问题。这些应用程序在本质上与第一批推出的应用程序不同。他们倾向于使用基础模型作为更全面的解决方案的一部分,而不是整个解决方案。他们引入了新的编辑界面,使工作流程更具粘性,输出也更好。它们通常是多模态的。
从「第一幕」到「第二幕」的最大转变来自于技术不再是单纯的技术,而是更多的和粘稠的现实世界纠缠在一起。在 Huang 随后举出的几个例子中,他提到了为律所开发定制大语言模型的 Harvey,和基于企业内部知识构建 AI 搜索的 Glean。这些应用场景比起一年或半年前我们所听到那些模糊的弘大愿景相比,更加聚焦在实际问题的解决上,有时候甚至于觉得过分的实用主义,以至于有些预期落差。
Huang 总结了过去一年对产业变化判断的正确与谬误。错误的有:
- 事情比想象的发展得更快。无论是代码、视频、3D、语音合成,每个方向上都诞生了超乎预期的应用。
- 供给侧成为瓶颈,主要是 GPU 算力问题。
- 垂直分工没有出现,最成功的面向用户的应用往往是由垂直整合的公司开发的(也就是同时具有模型和应用能力的公司)。
- 割喉式的竞争环境,大公司的快速反应,为市场带来了更多的动态,也让客户的选择变得更多。
- 护城河在客户身上,而非数据。
最后这一点极为重要,我们来读一下原文:
The moats are in the customers, not the data. We predicted that the best generative AI companies could generate a sustainable competitive advantage through a data flywheel: more usage → more data → better model → more usage. While this is still somewhat true, especially in domains with very specialized and hard-to-get data, the “data moats” are on shaky ground: the data that application companies generate does not create an insurmountable moat, and the next generations of foundation models may very well obliterate any data moats that startups generate. Rather, workflows and user networks seem to be creating more durable sources of competitive advantage.
护城河在于客户,而不是数据。我们预测,最好的生成式人工智能公司可以通过数据飞轮产生可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。虽然这在某种程度上仍然是正确的,特别是在数据非常专业且难以获取的领域,但「数据护城河」的基础并不稳固:应用程序公司生成的数据并没有创造出不可逾越的护城河,并且下一代基础模型很可能会消除初创公司产生的任何数据护城河。相反,工作流程和用户网络似乎正在创造更持久的竞争优势来源。
最后一句话中的「工作流程」和「用户网络」是两个关键点。
Ask & Adjust
工作流程这个概念在最近几次的 newsletter 中被反复讨论过,在「工作、组织与人才」一文中,我这样区分了组织结构、组织文化和组织流程三个概念的区别(主要参考了《与运气竞争》一书):
- 组织结构:最为显性和刚性。组织中的每个个体都会清晰的看到自己在组织结构中的位置,无论是垂直的汇报关系还是水平的协作关系,都是个体在组织中发挥作用的首要前提。比如:我的老板是谁,你的老板是谁,往往决定了个体在处理同一件事情中的不同行为选择。组织结构把组织分割成了若干更小一号的组织,并规定了这些小型组织之间的协作方式。
- 组织文化:最为隐性和弹性。几乎所有企业都会把组织文化作为组织工作的优先事项,但由于它往往是一些定性的行为描述(甚至于连行为描述都没有),也就难以在日常工作中被衡量和要求。虽然它被预期为一种影响广泛且深远的手段,但实际情况是大部分人对它的理解是一种类似于「向善」的规劝。
- 组织流程:介于结构和文化之间,也是原书中的主要建议。原书认为流程(Processes)是「正式的、书面定义的步骤和预期」,同时也是「非正式的、习俗性的随时间演进而来的工作方式」。流程像是文化的表征,而强大的流程最终会驱使结构的固化。
换句话说:结构最硬,文化最软,流程居中。但是流程不可能独立存在,它作为一种人们约定出来的协作方式,一定需要依赖于特定的组织结构和文化而存在。打个比方,流程就像是在山上建房子,房子的设计一定是和山脉的走势一致的,否则,房子即便建起来,代价也会太大。
如果 AI 要在组织中发挥作用,就需要完成对原有工作流程的重塑,当然也就不可能脱离组织自身的特质(结构和文化)。而 AI 并没有直接学习这些特质的能力,只能间接的通过对沉淀下来的各种数据的学习来获得这种知识。设想在一个高度重视顾客满意度的组织中,AI 可能会通过对过往客服对话记录的学习,理解到这家公司对待顾客的独特方式,进而能够按照过往的最佳实践来和顾客进行对话。
这意味着,AI 需要一个敲门砖,才能真正进入人类世界内部,学习到那些在各个组织内部积累的字面意思之外的知识。它或许最终会超越人类的智能,把我们过去的工作流程改变得面目全非,但它仍然需要一个可以发挥作用的角度和位置,才能开始工作。AI 没有如预想的那样完成对工作的全部替代,而更像是在工作流程中找了个位置,坐了下来。
而「用户网络」这一点的提出说明人们开始意识到 AI 仍然要以人类为中心来构建网络,而对于已经拥有用户网络的企业而言,AI 就变成了一个加分项,而非事情的全部价值——这也正是 Huang 在文章开头讲到的那样:AI 并非解决方案的全部。
移动互联网毫无疑问曾经是用户网络构建的核心,十多年前的 SoLoMo(如果你记得这个词的话)精确的概括了数以十亿计的普通人是如何通过手机重新建立了彼此的社交关系的。AI 在网络构建的最大问题就是它不像手机那么个人化:你会在手机上联系亲朋好友,查询吃饭的地点,甚至写下心情日记;但和 AI 之间却远远没有这么亲密,它更像是一个无所不知的老师,你不会把一切私人生活都交给它。
AI 很可能需要在已有的用户网络基础上生长,而非自己完成网络的构建。
Zach Lloyd 的文章 Ask & Adjust: # The Future of Productivity Interfaces 进一步从界面设计角度解释了 AI 可能将在当前的阶段(或者说是这一幕)扮演的角色。
他写道:
In an ask and adjust world the human asks an AI within the app for help creating or editing something, and the AI provides a draft or revision. This asking could be explicit (e.g. through a chat interface) or implicit (e.g. through an autocompletion interface) but the net result is the same: the AI suggests something that looks like fully formed content. I believe the “asking” will still happen within vertical productivity apps rather than being part of some “uber” AI creation interface because (as I’ll discuss below) I don’t see the hand-editing part of these interfaces going away anytime soon.
在询问和调整的世界中,人们向应用程序内的人工智能寻求帮助创建或编辑某些内容,人工智能会提供草稿或修订版。这种询问可以是显式的(例如通过聊天界面)或隐式的(例如通过自动完成界面),但最终结果是相同的:人工智能建议一些看起来像是完成形态的内容。我相信「询问」仍然会发生在垂直生产力应用程序中,而不是成为某些「超级」人工智能创建界面的一部分,因为(正如我将在下面讨论的)我不认为这些界面的手动编辑部分会随时消失很快。

实际上,这就是 Huang 的文章中讲到的「工作流程」的一部分。在人类创造的工作流程中,反复的调试、修改、迭代是这个流程中的关键部分,其背后原因,如 Llyod 所言:
The reason these drafts will usually not be perfect is that for a lot of creative pursuits the human author doesn’t know what perfect actually looks like when they ask for help. There are two issues: one, humans are not able to perfectly express their intents; so even if the AI was a perfect translator of stated intent into form it would still be wrong a lot of the time. Secondly, creation is an inherently iterative process where intent is often discovered as you draft and edit.
这些草稿通常不完美的原因是,对于许多创造性的追求,人类作者在寻求帮助时并不知道完美实际上是什么样子。存在两个问题:一是人类无法完美地表达自己的意图;二是人类无法完美地表达自己的意图。因此,即使人工智能能够完美地将既定意图转化为形式,但很多时候它仍然会是错误的。其次,创作本质上是一个迭代过程,在起草和编辑时经常会发现意图。
Lloyd 认为,这种 Ask & Adjust 的界面范式可能是当前阶段生产力界面设计成功的关键,特别是 Adjust 部分,如何能让人类用户更加简单的调整 AI 产生出来的草稿,通过简单的而又准确的反馈,最终形成人类用户想要完成的工作成品。在这个过程中,或许还会出现多人协作的情况,比如:设计师 A 和 AI 互动完成了一份初稿,提交给客户 B,客户 B 也会提出一些修改意见,这时候,设计师 A 与 AI 谁更理解客户的意见呢?客户 B 是否可以直接告诉 AI 自己的想法,从而就能获得最终的成品呢?
+AI
我们看到,越来越多的即时通信、笔记、邮件、文字办公等应用都开始 +AI,也就是通过增加 AI 的新功能来提供更多增值能力。也由于成本结构的原因,大部分此类应用的商业模式都选择了向用户收费。
这隐隐的让我感觉一丝变化:在 6 个月前,AI 颇有一种占据舞台中央的感觉,AI first 和 AI 原生是这一时期的产品主题:人们把 AI 和移动互联网作为两个技术周期的主角,也就天然的认为,AI 会如移动互联网时代的应用那样,会改掉原有的用户界面和交互形式。
无论是企业还是消费者,人们对于「界面」的接受范围并不算宽泛。移动互联网早期的设计范式,在 Steve Jobs 和 Jonathan Ive 的推动下,是以拟物的风格开始的。在经过了一段时间的快速普及后,这种风格被大幅简化,才有了今天各种应用的基本形态——更加扁平、简约和现代。但无论设计风格如何变化,我们仍然会认为红色的按钮意味着删除、停止和警告,这些刻在我们基因里面的风格暗示无法改变。
如前文所述,AI 最大的问题在于它起初的很多假设都是和人类对立的,这种由于潜在替代而带来存在威胁极大了拉远了人们和这项其实远未成熟的技术之间的距离。它目前的状态还太像是一个生产力工具,而无法真正进入十亿消费者的生活。
于是,AI 成为了很多现有应用界面中的一个按钮,往往有着梦幻般的渐变色作为装饰,表明了人们对它仍然充满种种幻想,但又无法全部兑现,反而给它增加了一些神秘感。在我每天使用的 Spark 邮件客户端中,就有很多 +AI 的按钮,比如:你可以设定为特定发件人发送的邮件自动生成 AI 摘要,对于那些长篇累牍的周报,这个功能能够节省一些时间。但另外一个功能就不大好用了:智能生成回复,Spark 提供了几种选项,如谢谢、我知道了等,我不知道这些用例是怎么想出来的,至少在我的几次尝试中,AI 生成的回复生硬得甚至有些诡异,无法成为社交对话中一部分。
之所以是 +AI,就是因为在加号之前的那个应用实际上是以人类为第一人称为主体来设计的,而不是像 AI 一样,试图自身成为那个第一人称主体。