Home

AI 杂记 6:从 AI 原生到 +AI

Sequoia Capital 的 Sonya Huang 发表的 Generative AI's Act Two 一文是去年 9 月发表的 Generative AI: A Creative New World 的后续,仅仅过去一年时间,文章就更新了第二版,而标题也加入了「第二幕」。

Act 2

去年这个时候,今天世界所熟知的 GPT——也就是 3.5 及以后的版本——都还没有面世,在那篇文章里,Huang 提出了 AI 的 4 波浪潮:

在一年之后,Huang 宣布生成式 AI 已经进入了 Act 2,也就是第二幕。在传统戏剧的结构中,整个戏剧被分成单独的几幕,第二幕是指戏剧的第二个主要部分或片段,通常代表戏剧中情节和人物关系的重大发展或升级。Huang 这样解释道:

We now believe the market is entering “Act 2”—which will be from the customer-back. Act 2 will solve human problems end-to-end. These applications are different in nature than the first apps out of the gate. They tend to use foundation models as a piece of a more comprehensive solution rather than the entire solution. They introduce new editing interfaces, making the workflows stickier and the outputs better. They are often multi-modal.
我们现在相信市场正在进入「第二幕」——这将来自于客户的支持。第二幕将端到端的解决人类问题。这些应用程序在本质上与第一批推出的应用程序不同。他们倾向于使用基础模型作为更全面的解决方案的一部分,而不是整个解决方案。他们引入了新的编辑界面,使工作流程更具粘性,输出也更好。它们通常是多模态的。

从「第一幕」到「第二幕」的最大转变来自于技术不再是单纯的技术,而是更多的和粘稠的现实世界纠缠在一起。在 Huang 随后举出的几个例子中,他提到了为律所开发定制大语言模型的 Harvey,和基于企业内部知识构建 AI 搜索的 Glean。这些应用场景比起一年或半年前我们所听到那些模糊的弘大愿景相比,更加聚焦在实际问题的解决上,有时候甚至于觉得过分的实用主义,以至于有些预期落差。

Huang 总结了过去一年对产业变化判断的正确与谬误。错误的有:

最后这一点极为重要,我们来读一下原文:

The moats are in the customers, not the data. We predicted that the best generative AI companies could generate a sustainable competitive advantage through a data flywheel: more usage → more data → better model → more usage. While this is still somewhat true, especially in domains with very specialized and hard-to-get data, the “data moats” are on shaky ground: the data that application companies generate does not create an insurmountable moat, and the next generations of foundation models may very well obliterate any data moats that startups generate. Rather, workflows and user networks seem to be creating more durable sources of competitive advantage.
护城河在于客户,而不是数据。我们预测,最好的生成式人工智能公司可以通过数据飞轮产生可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。虽然这在某种程度上仍然是正确的,特别是在数据非常专业且难以获取的领域,但「数据护城河」的基础并不稳固:应用程序公司生成的数据并没有创造出不可逾越的护城河,并且下一代基础模型很可能会消除初创公司产生的任何数据护城河。相反,工作流程和用户网络似乎正在创造更持久的竞争优势来源。

最后一句话中的「工作流程」和「用户网络」是两个关键点。

Ask & Adjust

工作流程这个概念在最近几次的 newsletter 中被反复讨论过,在「工作、组织与人才」一文中,我这样区分了组织结构、组织文化和组织流程三个概念的区别(主要参考了《与运气竞争》一书):

换句话说:结构最硬,文化最软,流程居中。但是流程不可能独立存在,它作为一种人们约定出来的协作方式,一定需要依赖于特定的组织结构和文化而存在。打个比方,流程就像是在山上建房子,房子的设计一定是和山脉的走势一致的,否则,房子即便建起来,代价也会太大。

如果 AI 要在组织中发挥作用,就需要完成对原有工作流程的重塑,当然也就不可能脱离组织自身的特质(结构和文化)。而 AI 并没有直接学习这些特质的能力,只能间接的通过对沉淀下来的各种数据的学习来获得这种知识。设想在一个高度重视顾客满意度的组织中,AI 可能会通过对过往客服对话记录的学习,理解到这家公司对待顾客的独特方式,进而能够按照过往的最佳实践来和顾客进行对话。

这意味着,AI 需要一个敲门砖,才能真正进入人类世界内部,学习到那些在各个组织内部积累的字面意思之外的知识。它或许最终会超越人类的智能,把我们过去的工作流程改变得面目全非,但它仍然需要一个可以发挥作用的角度和位置,才能开始工作。AI 没有如预想的那样完成对工作的全部替代,而更像是在工作流程中找了个位置,坐了下来。

而「用户网络」这一点的提出说明人们开始意识到 AI 仍然要以人类为中心来构建网络,而对于已经拥有用户网络的企业而言,AI 就变成了一个加分项,而非事情的全部价值——这也正是 Huang 在文章开头讲到的那样:AI 并非解决方案的全部。

移动互联网毫无疑问曾经是用户网络构建的核心,十多年前的 SoLoMo(如果你记得这个词的话)精确的概括了数以十亿计的普通人是如何通过手机重新建立了彼此的社交关系的。AI 在网络构建的最大问题就是它不像手机那么个人化:你会在手机上联系亲朋好友,查询吃饭的地点,甚至写下心情日记;但和 AI 之间却远远没有这么亲密,它更像是一个无所不知的老师,你不会把一切私人生活都交给它。

AI 很可能需要在已有的用户网络基础上生长,而非自己完成网络的构建。

Zach Lloyd 的文章 Ask & Adjust: # The Future of Productivity Interfaces 进一步从界面设计角度解释了 AI 可能将在当前的阶段(或者说是这一幕)扮演的角色。

他写道:

In an ask and adjust world the human asks an AI within the app for help creating or editing something, and the AI provides a draft or revision.  This asking could be explicit (e.g. through a chat interface) or implicit (e.g. through an autocompletion interface) but the net result is the same: the AI suggests something that looks like fully formed content. I believe the “asking” will still happen within vertical productivity apps rather than being part of some “uber” AI creation interface because (as I’ll discuss below) I don’t see the hand-editing part of these interfaces going away anytime soon.
在询问和调整的世界中,人们向应用程序内的人工智能寻求帮助创建或编辑某些内容,人工智能会提供草稿或修订版。这种询问可以是显式的(例如通过聊天界面)或隐式的(例如通过自动完成界面),但最终结果是相同的:人工智能建议一些看起来像是完成形态的内容。我相信「询问」仍然会发生在垂直生产力应用程序中,而不是成为某些「超级」人工智能创建界面的一部分,因为(正如我将在下面讨论的)我不认为这些界面的手动编辑部分会随时消失很快。

实际上,这就是 Huang 的文章中讲到的「工作流程」的一部分。在人类创造的工作流程中,反复的调试、修改、迭代是这个流程中的关键部分,其背后原因,如 Llyod 所言:

The reason these drafts will usually not be perfect is that for a lot of creative pursuits the human author doesn’t know what perfect actually looks like when they ask for help. There are two issues: one, humans are not able to perfectly express their intents; so even if the AI was a perfect translator of stated intent into form it would still be wrong a lot of the time.  Secondly, creation is an inherently iterative process where intent is often discovered as you draft and edit.
这些草稿通常不完美的原因是,对于许多创造性的追求,人类作者在寻求帮助时并不知道完美实际上是什么样子。存在两个问题:一是人类无法完美地表达自己的意图;二是人类无法完美地表达自己的意图。因此,即使人工智能能够完美地将既定意图转化为形式,但很多时候它仍然会是错误的。其次,创作本质上是一个迭代过程,在起草和编辑时经常会发现意图。

Lloyd 认为,这种 Ask & Adjust 的界面范式可能是当前阶段生产力界面设计成功的关键,特别是 Adjust 部分,如何能让人类用户更加简单的调整 AI 产生出来的草稿,通过简单的而又准确的反馈,最终形成人类用户想要完成的工作成品。在这个过程中,或许还会出现多人协作的情况,比如:设计师 A 和 AI 互动完成了一份初稿,提交给客户 B,客户 B 也会提出一些修改意见,这时候,设计师 A 与 AI 谁更理解客户的意见呢?客户 B 是否可以直接告诉 AI 自己的想法,从而就能获得最终的成品呢?

+AI

我们看到,越来越多的即时通信、笔记、邮件、文字办公等应用都开始 +AI,也就是通过增加 AI 的新功能来提供更多增值能力。也由于成本结构的原因,大部分此类应用的商业模式都选择了向用户收费。

这隐隐的让我感觉一丝变化:在 6 个月前,AI 颇有一种占据舞台中央的感觉,AI first 和 AI 原生是这一时期的产品主题:人们把 AI 和移动互联网作为两个技术周期的主角,也就天然的认为,AI 会如移动互联网时代的应用那样,会改掉原有的用户界面和交互形式。

无论是企业还是消费者,人们对于「界面」的接受范围并不算宽泛。移动互联网早期的设计范式,在 Steve Jobs 和 Jonathan Ive 的推动下,是以拟物的风格开始的。在经过了一段时间的快速普及后,这种风格被大幅简化,才有了今天各种应用的基本形态——更加扁平、简约和现代。但无论设计风格如何变化,我们仍然会认为红色的按钮意味着删除、停止和警告,这些刻在我们基因里面的风格暗示无法改变。

如前文所述,AI 最大的问题在于它起初的很多假设都是和人类对立的,这种由于潜在替代而带来存在威胁极大了拉远了人们和这项其实远未成熟的技术之间的距离。它目前的状态还太像是一个生产力工具,而无法真正进入十亿消费者的生活。

于是,AI 成为了很多现有应用界面中的一个按钮,往往有着梦幻般的渐变色作为装饰,表明了人们对它仍然充满种种幻想,但又无法全部兑现,反而给它增加了一些神秘感。在我每天使用的 Spark 邮件客户端中,就有很多 +AI 的按钮,比如:你可以设定为特定发件人发送的邮件自动生成 AI 摘要,对于那些长篇累牍的周报,这个功能能够节省一些时间。但另外一个功能就不大好用了:智能生成回复,Spark 提供了几种选项,如谢谢、我知道了等,我不知道这些用例是怎么想出来的,至少在我的几次尝试中,AI 生成的回复生硬得甚至有些诡异,无法成为社交对话中一部分。

之所以是 +AI,就是因为在加号之前的那个应用实际上是以人类为第一人称为主体来设计的,而不是像 AI 一样,试图自身成为那个第一人称主体。

← Back to Newsletter Archive