9/18/2022: Diffusion

September 17, 2022

本周的主题是 Diffusion 扩散。

Crossing the Chasm 跨越鸿沟显然被很多人低估了。在十多年前，移动互联网的创业浪潮刚刚开始的时候，我读到了这本书的某个早期版本，其中的案例还在讲 PC 年代的故事，但这丝毫不妨碍我从中理解创新扩散的规律。这本书不仅仅是创业者的圣经，更是风险投资的一般规律，不同阶段对应不同风险，也就对应了不同的估值定价。它很可能还会继续指导数个世代的创投人。

技术创新的扩散并不是均匀的。其本原在于，人们对新事物的接受程度不同，这里说的「程度」既可能收到认知能力的影响，也可能单纯是保守心态在作怪。总有一些乐于尝鲜的人跑在曲线的最前沿，书中称他们为 Tech Enthusiasts 技术狂热者，这些人可能在社交场合中会显得有些别扭；在他们之后就是所谓的 Visionaries 愿景者，这些人视野宽广而长远，善于预测未来。此后，就是那个巨大的鸿沟 Chasm，意味着从早期市场到主流市场之间需要完成的跨越。在鸿沟右边是 Pragmatists 实用者、Conservatives 保守者和 Skeptics 怀疑者。

这张图每过几年就会出现在我面前，每次去看的时候，都会觉得自己仍然处于鸿沟的左侧，需要完成一次新的跨越。这是为什么呢？

原因可能在于技术周期的叠加。每当我们在一条技术曲线上走向了主流市场，新的技术曲线已经在地平线上出现，有人会成为新的扩散原点，推动新的跨越发生。而站在商业角度，新技术的涌现意味着某处产生了新的机会——也可能是新的风险。关键在于，是否在正确的时机完成跨越，过早或过晚都可能是问题。

在创新扩散的过程中，总能感受到每一层潮水带来的细微差异，既让人兴奋，也感到敬畏。

本周将分享几篇「AI 生成内容」这个主题下的文章。

Essays

When Creation Goes To Zero by Evan Armstrong

The Napkin Math 的 Evan Armstrong 本周发表了一篇长文，讨论了在 AI 生成内容技术推动内容创作成本逐步逼近零之后产生的问题。文中包含了大量 AI 生成内容的案例，对于理解目前技术所处的阶段有很多帮助。

Armstrong 认为，商业模式可以简化认为是：生产、获客和分发三个环节。从内容行业的角度看，互联网已经将分发这个环节的成本降为零。而在 AI 生成内容的时代，内容生产的成本可能是下一个被颠覆的环节。

The internet broke the third category of distribution, and now AI is going to break the first one. Innovations like GPT-3, DALL-E, and other AI tools will dramatically decrease the cost of producing all goods with a digital component (aka everything).

互联网颠覆了分发环节，而现在人工智能将颠覆生产环节。像 GPT-3、DALL-E 和其他人工智能工具这样的创新将极大地降低所有具有数字成分（实际上是所有）的商品的生产成本。

作者认为，变化的周期可能是 5-10 年，也就是说在 2030 年前后，内容生产和创作将发生重大的变化，进而影响知识工作者的权力分配，而每个人与信息的关系也会发生剧烈的变化。

Armstrong 从创造和协作两个角度分析可能产生的影响：

创造。从零开始制造东西，完全替代以前需要人工投入的产品。
协作。人类与人工智能工具配对，极大地改善和加快了他们的工作流程。

他倾向于认为，协作可能是 AI 颠覆性更强的地方。而这意味着权力或利益的重新分配：

自动化去掉重复的、低价值的工作是生产力提高的主要来源。Automating away rote, low-value work is where the majority of productivity gains will come from.
在技术领域，新的创新总是在执行幂律法则。表现出色的人将不再需要支持人员，他们可以直接用人工智能来处理简单的事情。As always in the technology sector, new innovations enforce the power law. Top performers will no longer require support staff, they can just AI away the easy stuff.

这一点也将发生在行业结构的变化上。获益最大的产品是那些能够向 AI 模型中输入最多最好数据的，显然，拥有广泛用户规模的大型科技公司仍然会比小型创业公司更有优势。作者认为，突破性的机会可能存在于提供基础设施能力，为创作者提供工具（本周 Adobe 以 200 亿美元收购的 Figma 可能就是一个例子）。

在全文结尾，Armstrong 回顾了 1964 年 Marshall McLuhan 的「媒介即讯息」理论，并提出了一个关键问题：

If the algorithm is determining what medium is successful, what is the real determining factor?

如果算法决定什么媒介是成功的，那么真正的决定因素是什么？

这个问题背后的含义是：如果算法可以创造媒介本身，那么算法就已经是一个「超媒介」或「元媒介」。McLuhan 的理论建立在以人为驱动力的媒介升级进程上，从报纸到广播再到电视，这些媒介形态和其它的内容，都是人类创造的，在漫长而缓慢的内容创作过程中，不断融合受众需求和技术边界，最终形成了不同媒介上的不同风格。

如果你去看一些 Stable Diffusion 或者 DALL-E 生成内容的例子，这些算法模型会基于相同的输入产生风格不同的内容（媒介），风格可能是因受众不同的个性化产物。虽然这些差异并没有像报纸与电视的差别那么大，但已经足以改变之前对媒介分析的固化框架：算法可能是下一个阶段媒介升级的主驱动力，内容的长度、结构和风格都将以前所未有的花式出现，并因受众及其所在场景的变化而变化。

正如 Nathan Baschez 在 Intelligent Tools 一文中讲到的**：**

Instead of software that mimics a paintbrush, we now have software that mimics the painter.

相比于之前模仿画笔的软件，我们现在拥有的是模仿画家的软件。

The AI Unbundling by Ben Thompson

Ben Thompson 用他擅长的插画风格解析了 AI 生成内容带来的产业影响。

道理和 Armstrong 讲的类似：互联网解除了内容复制到分发这个环节的瓶颈，而这彻底颠覆了报纸媒体的商业模式。

而 AI 则可能颠覆内容产业链的更上游，他把这个部分进一步分为 Creation 和 Substantiation。

这个区分值得注意：

Creation 是创意的本原，我更愿意把它称之为 Ideation，就是产生主意和想法的阶段。这个部分其实是整个内容产生的开端，或许是算法永远都无法替代人类的部分——因为它具有很强的主观性，也是创作者从自身出发，为内容创作赋予意义的过程。
Substantiation 是创意的实现过程，也即是把想法变为内容本体的阶段。比如我现在码字就是把头脑中的想法落为可以被其他人阅读的文本。这个部分实际上占据了每一次创作的大部分时间，但这个过程早晚会被算法生成所替代——实际上这个 newsletter 中大量的英文翻译工作已经被算法替代掉了。

Ben Thompson 写道：

If the connection between idea creation and idea substantiation is being severed, it seems reasonable to assume all attendant business models might suffer the same fate.

如果想法创造和实现之间的联系被切断，似乎有理由认为所有相关的商业模式都可能遭受同样的命运。

这里说的「同样的命运」就是指当内容复制和分发环节被互联网颠覆后，报纸行业所遭受的命运（补充：复制和分发对于报纸行业而言对应了印刷和分销两个不同环节，而互联网将这两个环节压缩为一个了）。

When Art and Technology Collide by Rex Woodbury

Woodbury 的文章首先回顾了 DALL-E、Midjourney 和 Stable Fusion 三个模型。

DALL-E 来自 OpenAI，可以通过 API 进行访问，它在今年出现以后，引发了「生成艺术」的轰动。
Midjourney 把自己架设在 Discord 上，你可以免费加入这个数十万人同时在线的频道，并获取免费积分以生成图像，在免费积分花完之后，每月支付 10-30 美元就可以继续生成更多图像。作者描述第一次尝试 Midjourney 的感受是：类似于你第一次使用iPhone的技术时刻——一种令人愉快、神奇的体验，让你不由得说出「这将改变一切」。
Stable Fusion 则是免费和开源的，你可以在自己的电脑上运行这个模型。它最大的特点也是问题在于，它没有内容护栏，因此带来了大量的色情、暴力和 deepfake 问题。同时，一份报告发现，其图像训练集可能存在大量未经授权的情况。

作者引述 Charlie Warzel 在大西洋月刊上的评述说：

AI art tools are evolving quickly—often faster than the moral and ethical debates around the technology.” This isn’t unusual: technology breakthroughs happen, and society struggles to keep up; cultural digestion, reflection, and action take time.

人工智能艺术工具正在迅速发展，往往比围绕这项技术的道德和伦理辩论更快。这并不罕见：技术突破发生，社会难以跟上；文化消化、反思和行动需要时间。

值得思考的是：AI 会替代艺术家的工作吗？当算法基于艺术家的作品「生成」新内容的时候，艺术家的权利是否被侵犯了？如何追溯和保护？

Midjourney 的创始人这样回答：

We don’t think it’s really about art or making deepfakes, but — how do we expand the imaginative powers of the human species? And what does that mean? What does it mean when computers are better at visual imagination than 99 percent of humans? That doesn’t mean we will stop imagining. Cars are faster than humans, but that doesn’t mean we stopped walking. When we’re moving huge amounts of stuff over huge distances, we need engines, whether that’s airplanes or boats or cars. And we see this technology as an engine for the imagination. So it’s a very positive and humanistic thing.

我们并不认为这真的是关于艺术或制作深度伪造品，但是——我们如何扩展人类的想象力？这是什么意思呢？当计算机比 99% 的人类更擅长视觉想象时，这意味着什么？这并不意味着我们将停止想象。汽车比人类快，但这并不意味着我们停止了行走。当我们在很远的距离上移动大量的东西时，我们需要发动机，无论是飞机，船只还是汽车。我们将这项技术视为想象力的引擎。所以这是一件非常积极和人性化的事情。

想象力的引擎，这是一种粉饰，还是一种现实呢？

‘An engine for the imagination’: the rise of AI image generators by James Vincent

本文是 The Verge 对 Midjouney 创始人 David Holz 的采访。

采访文本的机器翻译几乎已经无可挑剔。

Shortform

@runwayml:

Make any idea real. Just write it.

Text to video, coming soon to Runway.

Sign up for early access: https://t.co/ekldoIshdw pic.twitter.com/DCwXcmRcuK
— Runway (@runwayml) September 9, 2022

从文本生成视频。

Longform

过去两周读完了 After Steve 和《非零和博弈》两本书。其中 After Steve 这本书主要讲述了 Steve Jobs 身后的 Apple 如何发展，这本书有两版不同的封面，其中一版把 Tim Cook 和 Jonathan Ive 做了强烈的对比暗示，我不是很喜欢这个设计。虽然书中的章节是交替写两个人的历程，但我更愿意认为这只是一种戏剧化的呈现，并不利于读者理解公司内部发生的真实变化。

本周开始读 Henry Kissinger 的 Leadership: Six Studies in World Strategy。这是基辛格从个人视角讲述 6 位世界领袖（大多数是二战后的西方国家领袖）的领导风格。

本周的分享就是这些。

下周见，

Neo

← Back to Newsletter Archive