Home

10.01.23: Partially Synthetic

本周的主题是 Partially Synthetic 部分合成。

在 Meta 本周的发布会上,AI 和元宇宙走到了一起,Ben Thompson 的文章 AI, Hardware, and Virtual Reality 表明了他的看法:

I don’t think the existing interfaces are the right ones. Talking to ChatGPT is better than typing, but I still have to launch the app and set the mode; vision is an amazing capability, but it requires even more intent and friction to invoke. I could see a scenario where Meta’s AI is inferior technically to OpenAI, but more useful simply because it comes in a better form factor.
我不认为现有的交互界面是正确的。与 ChatGPT 交谈比打字更好,但我仍然必须启动应用程序并设置模式;视觉是一种惊人的能力,但需要更多的意图和摩擦来调用。我可以看到 Meta 的 AI 在技术上比 OpenAI 差,但由于它以更好的形式出现,因此更有用。

读者可能知道,对于 AI 应用而言,我一直以来的看法都是现在这个依靠大段打字来进行交互的方式肯定会被剧烈的改变掉。除了 Meta 之外,Microsoft 本周(再次)发布的 Copilot,以及 OpenAI 在 ChatGPT 上发布的语音应用,都可以认为是在交互界面上的努力尝试。

人们经常把 ChatGPT 和搜索引擎做对比,而后者在全人群的渗透率到今天仍然堪忧——很多人不喜欢打字,也不喜欢那种需要猜想机器可能会返回给你的什么的不确定状态。ChatGPT 或许减轻了一些「人机猜疑」的坏感觉,但仍然依靠打字来输入更加冗长的提示词,甚至于让交互变得更加困难。

在类似于 Pi 这样尝试中,交互界面变得友好一些,而有趣之处在于,AI 会反客为主的先来问人类一个问题,好像是在社交中用来打破尴尬局面的破冰者。

Pi 是前 Deepmind 创始人 Mustafa Suleyman 的新作,在精心的调教和设计之下,对话似乎显得充满同理心,交互界面跟随人类的呼吸节律而缓缓展现,令人心情舒缓。可以说,在所有的对话机器人中,这可能已经达到了登峰造极的水准。

然而,当 Sam Altman 和 Jonathan Ive 的名字联系在一起的时候,人们不免会产生新的想象:一个结合了 AI 的硬件会是什么样子?软硬结合的设计,是否能为 AI 打开全新的边界,成为更多人的日常?

Ben Thompson 在文中写道:

In fact, I would argue that defining “virtual reality” to mean an immersive headset is to miss the point: virtual reality is a digital experience that has fully broken the bounds of human constraints, and in that experience the hardware is a means, not an end. Moreover, a virtual reality experience need not involve vision at all: talking with ChatGPT, for example, is an aural experience that feels more like virtual reality than the majority of experiences I’ve had in a headset.
事实上,我会认为将「虚拟现实」定义为一种沉浸式头戴式设备是误入歧途:虚拟现实是一种数字体验,它完全打破了人类的局限,在这种体验中,硬件只是一种手段,而不是一种目的。 此外,虚拟现实体验并不一定非得涉及视觉:例如,与 ChatGPT 交谈是一种听觉体验,感觉更像虚拟现实,而不是我在 VR 头显中经历的大多数体验。

他紧接着给出了对 virtual reality 与 AI 相互联系的更多假设:

True virtual reality shifts time like media, place like communications, and, crucially, does so with perfect availability and infinite capacity. In this view, virtual reality is AI, and AI is virtual reality. Hardware does matter — that has been the focus of this Article — but it matters as a means to an end, to enable an interactive experience without the constraints of human capacity or the friction of actual reality.
真正的虚拟现实像媒体一样改变时间,像通信一样改变地点,而且最重要的是,它具有完美的可用性和无限的容量。在这个观点中,虚拟现实就是人工智能,人工智能就是虚拟现实。硬件确实很重要——这一直是本文的重点——但它作为达到目的的手段很重要,在不受人类能力限制或现实摩擦的情况下实现交互式体验。

如果你对这段话中 Thompson 对媒体、通信改变时间和地点的说法感到跳脱,建议去阅读原文。

跳到 Casey Newton 的评论,同样是在观看 Meta AI 的演示后,他得到了这样的预测:

And when that happens, feeds that were once defined by the connections they enabled between human beings will have become something else: a partially synthetic social network.
当这种情况发生时,曾经由它们在人类之间建立的联系定义的信息流将变成其他东西:部分合成的社交网络

这里的「部分合成」非常关键:这意味着网络中有一部分并不是我们过去理解的「用户」,而是混合了人类思想和机器算法的智能体。我不知道这能不算是 Agent,或者是「数字分身」,但它们可能会大面积的存在于未来的社交网络 / 媒体上。

Newton 对这个前景保持了一定程度的怀疑:

All of this feels like an intermediate step to me. To the extent that there is a market of people who want to have voice chats with a synthetic version of MrBeast, the character they want to interact with is MrBeast — not big brother Zach. I haven’t been able to chat with any of these character bots yet, but I struggle to understand how they will have more than passing novelty value.
所有这些对我来说都像是一个中间步骤。在某种程度上,存在一个想要与合成版 MrBeast 进行语音聊天的人的市场,他们想要与之互动的角色是 MrBeast,而不是老大哥扎克。我还无法与这些角色机器人中的任何一个聊天,但我很难理解它们除了传递新奇价值之外还有什么其他价值。
At the same time, this technology is new enough that I imagine celebrities aren’t yet willing to entrust their entire personas to Meta for safekeeping. Better to give people a taste of what it’s like to talk to AI Snoop Dogg and iron out any kinks before delivering the man himself. And when that happens, the potential seems very real. How many hours would fans spend talking to a digital version of Taylor Swift this year, if they could? How much would they pay for the privilege?
与此同时,这项技术还足够新,我想名人还不愿意将他们的整个角色托付给 Meta 来保管。最好让人们体验一下与 AI Snoop Dogg 交谈的感觉,并在亲自解救该男子之前解决所有问题。当这种情况发生时,潜力似乎非常真实。如果可以的话,粉丝今年会花多少小时与数字版泰勒·斯威夫特交谈?他们愿意为这种特权支付多少钱?

这些怀疑不令人意外,关键在于 AI 能否让自己逐渐变成授意之下的「自动驾驶员」。真实性会被再一次重新定义:我们所听到的和看到的,只要是通过数码设备(几乎是全部)传送的,其实已经经过了或多或少的算法加工,但区别在于,艺术家或创作者在发布它们之前,仍然会做出最后的确认——当这一步也彻底消失之后,那么 Newton 所讲的「合成」就真正的到来了。

在 Medium CEO Tony Stubblebine 的最新文章中,他认为,创作者在允许自己的作品被 AI 公司拿去训练模型之前,需要考虑 3 个因素——它们都以 C 开头:

Unfortunately, the AI companies have nearly universally broken fundamental issues of fairness: they are making money on your writing without asking for your consent, nor are they offering you compensation and credit. There’s a lot more one could ask for, but these “3 Cs” are the minimum.
不幸的是,人工智能公司几乎普遍违反了公平的基本问题:他们在没有征求你授意的情况下通过你的写作赚钱,也不向你提供酬劳和认可。人们还可以要求更多,但这些“3C”是最基本的要求。

3C = 授意 Content + 酬劳 Compensation + 认可 Credit。

Medium 正在尽其所能阻止人工智能公司抓取创作者的内容用以模型训练,宣称在人工智能公司能够解决这个公平问题之前不会改变这一立场。

然而,这些阻碍的尝试可能是徒劳的。在 Rex Woodbury 的文章中,他从技术和产业周期的视角分析道:

The key argument I’ll make is this: the AI Revolution isn’t comparable to the Mobile Revolution, as the latter was more a distribution revolution. Rather, AI is more comparable to the dawn of the internet. Or, more fundamentally, AI is an even larger-scale technology shift—it’s the dawn of a new discrete revolution that’s built not around computers acting like calculators, but computers acting like the human brain.
我要提出的关键论点是:人工智能革命与移动革命无法相提并论,因为后者更多的是一场分发革命。相反,人工智能更像是互联网的黎明。或者,更根本的是,人工智能是一种更大规模的技术转变——它是一场新的离散革命的黎明,这场革命不是围绕像计算器一样运行的计算机,而是像人脑一样运行的计算机。

以及,更简单的版本:

The internet blew open the gates of distribution.
 Generative AI blows open the gates of production.
互联网打开了分发之门。
 人工智能打开了生产之门。

或许最后的这半句话不够准确,所谓的 production 实际上只是 re-production,但这没有关系,信息不记得它是从哪里来的,它只是不顾一切的传播向更远方。

← Back to Newsletter Archive