视频生成：AI 的十亿消费者机会

August 18, 2024

视频，是吞噬注意力的黑洞，是制造下一个明星的舞台，也是屈指可数的几个可能吸引十亿消费者的应用。它是房间里的大象。无论如何假装看不见，它永远都在哪里，一个躲不开、逃不掉的庞然巨物。

如果今天 AI 还没有找到大规模的应用场景，还在独立开发者和企业软件上打转，有没有一种可能性，是因为它还没有搞定视频？

十年

在 Sora 横空出世之前，很多人对视频生成这件事多半还持有怀疑态度，甚至一些投资人开始重新检视自己的投资判断是否过早的乐观了。对于 Runway 和 Pika 这样已经出现在公众视野中的初创公司而言，Sora 无疑带来了压力，但同时也迅速为整个赛道带来了新的关注热度。

对于这个领域的研究者而言，热度总是太迟才到。GAN (Generative Adversarial Networks) 和 VAE (Variational Autoencoders) 的论文在十年前（分别是 2014 年和 2013 年）就发表了。它们是深度学习领域中两种重要的生成模型，极大地推动了生成式 AI 的发展，为后来的扩散模型（如 DALL-E、Stable Diffusion）等更先进的生成技术铺平了道路。

GAN 的出现是突破性的，在此后很长的一段时间里，基于 GAN 衍生出了各种模型。这些迭代也快速反映到了移动互联网的各种社交媒体应用中，中国的抖音和快手，美国的 Instagram、Snap 等，都很好的利用了这一波的技术红利推动自身的消费产品升级换代，制作简单，内容有趣，随时可看，短视频很快成为了席卷全球的媒介形态。粗略估计：全球每天短视频的上传条数在 3 亿条以上，而消耗掉的用户时长在每天 300 亿小时以上。

GAN 也有它的问题：它会出现「模式崩溃」（mode collapse），这是指生成器总是生成相似或相同的样本，无法产生多样化的输出，其原因是生成器找到了能够「愚弄」判别器的特定样本，不再探索其他可能性，这导致生成器的多样性下降，无法很好地学习真实数据分布。这也是为什么基于 GAN 的各种应用往往是「模板」式的，每过一段时间，就会爆一个新的玩法套路，几天后达到流量顶峰，之后就再也消失不见。比如：看看你 60 岁的样子、毕加索风格滤镜、以及增加烟花特效等。这其中有一些功能的确经受住了时间的考验，比如各种美颜滤镜，以及把口型、表情和文本进行对应等，这些功能将逐渐发展出独立产品，并找到相应的商业模式。

消费互联网在吞噬用户时长的同时，也无意中为商业化铺设了道路。广告主在短视频上投入的营销预算超过每年 1000 亿美元。竞争越来越激烈，这些营销导向的视频内容出现了巨大的供需缺口。视频更考验创意，制作成本也更高，而在投放竞价的过程中，一条视频一旦被验证失效，就只能重头来过。相比于搜索引擎和图文信息流，短视频营销的门槛高得多。

一个自然产生的想法是：从脚本到视频，中间有哪些步骤可以自动生成？在路线图上还缺少几个重要的里程碑。一个是 2015 年首次出现的 Diffusion 模型，它借鉴了非平衡热力学中的扩散，并通过「逆扩散」过程来恢复被破坏的数据，从而获得从噪声中恢复数据的能力，另一个就是大名鼎鼎的 Transformers。前者提供了质量更高的图像生成能力，而后者则赋予机器以强大的语言能力。另一个重要的进展发生在 3D 领域，Neural Radiance Fields (NeRF) 能够实现从 2D 到 3D 的重建，提供空间建模能力。

2021 年 1 月 5 日，OpenAI 发布了 CLIP (Contrastive Language–Image Pre-training)，这是一个神经网络模型，它可以有效地从自然语言监督中学习视觉概念。只需提供要识别的视觉类别的名称，CLIP 就可以应用于任何视觉分类基准；同时，DALL-E 1.0 也首次发布，它是 GPT-3 的多模态实现，用以生成图像，CLIP 为其输出进行打分排序。

History of Generative AI in Vision Domain.png — Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

2022 年，Stable Diffusion 和 MidJourney 几乎同时面世，OpenAI 的 DALL-E 也发布了 2.0 版本。图像生成迅速从研究论文走向了大规模应用，问题从可行性转向了版权、伦理等社会问题。

2023 年，Runway 和 Pika 发布了视频生成模型，虽然样例视频只有短短几秒钟，但视频质量已经很有好莱坞大片的效果。在 Sora 出现之前，这几乎就是大家对是视频生成的全部想象。

Sora 在 OpenAI 看来，并不是一个简单是视频生成模型，而是验证 Scaling Law 和实现 World Model 的一个有力注脚。Sora 比起 Runway 和 Pika，最令人惊叹的地方在于它能在长达 1 分钟的时长内保持连贯和稳定，这意味着它对物理世界中的时间和空间概念已经建立了理解能力。在发布之后，OpenAI 仅仅释放了几段演示视频，到现在也没有给出更多的信息，但赶超 Sora 的竞赛就此展开。2024 年，快手的 Kling 模型横空出世，再一次点燃了视频生成竞赛的热情。

Taxonomy of video generation, understanding, and streaming with GAI and LLMs.png — A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming

overview of advanced AI-based video generation technologies.png — A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming

但这些模型离大规模走向市场还有一段距离，昂贵的算力和性能限制了它们在哪怕是百万量级日活基础上部署。但时间不等人，在这些模型向世界展示奇观的时候，一些公司已经开始用更成熟的技术开始淘金。

第一桶金

在 Sora 光芒之下的，还有一些在 GAN 和 VAE 时代就已经出现的公司。比如 HeyGen 实际上创办于 2020 年，两位创始人都有在 Snap 工作的背景——在接受访谈的时候，创始人 Joshua Xu 毫不讳言自己在 Snap 做视频滤镜的经验启发了自己的创业想法。与 HeyGen 类似的还有 Synthesia、Pictory、Creatify 等公司：虽然产品定位和技术架构略有不同，但它们都有一个明确的特点，就是完全不追求解决「世界模型」的问题，而是从视频制作这个显而易见的需求入手，用更简单的架构来解决垂直应用场景的问题。

或许正是因为这样，Sora、Runway 等被认为是「模型」，而 HeyGen 等被认为是「应用」。这种理解过度简化了 HeyGen 等公司所需要应对的技术挑战，更确切的说法应该是：前者是通用模型公司，后者是垂直解决方案公司。前者理论上可以做后者的事情，但后者也的确有自己的优势。

根据 Grand View Research，数字媒体内容是一个规模接近 3 千亿美元的市场（2021 年），按照 11.2% 的复合年增速，假定 60% 的数字媒体内容预算会花在视频上，2024 年的视频内容市场规模也是一个 2400 多亿的盘子。

另外一种算法是，分类求和：数字媒体内容包含了社交媒体（约 560 亿），流媒体（约 400 亿）、电视（约 1600 亿）、企业和市场营销（约 180 亿），这样算下来，整个市场规模超过 2700 亿美元（数据来源参见 References 部分的链接）。

在上述估算中，流媒体和电视界面两项加起来占据了市场规模的绝大部分，而这部分制作预算显然不是 HeyGen 等垂直解决方案能够拿到的。这个市场之所以如此昂贵，正是因为其传统制作流程牵涉的人力物力巨大，流程长且复杂，这不仅仅是一个创意产业，也是一个高度非标的劳动密集型产业。在等待漫威电影彩蛋出现前的漫长时刻，银幕上会快速划过上千的名字，涉及到的工种也有几百个，与之对应的数以亿计的单部制作成本。如此算下来，2000 亿的市场规模，很可能高度集中在相对较少的玩家手中。

而剩下的社交媒体和企业内容，虽然只有几百亿的预算，但却要分散的多。社交媒体上活跃的众多创作者每天都会上传数不清的视频，大部分只是随手拍摄加上一些音乐和特效，而其中一部分的确有更精美的制作，在创作工具的帮助下，逐步接近专业制作的水准。企业视频也有类似的趋势，无论是出于营销还是教育培训目的，企业要顺应消费者的诉求，在视频内容上投入更多，以便传播自身的品牌或产品。

相比而言，这些视频的制作要求并不高，一方面是用户自身的预期原因，没有人会拿好莱坞的制作标准来衡量自己的朋友圈内容，另一方面也是个人或企业自身的创意水平所限。因此，这些视频内容更容易被解构成模板化的几个部分。这时候，就可以分别解决每个部分的制作，然后进行简单合成，形成最终产出。大部分的垂直解决方案公司产出的视频内容往往都是以一个人在固定位置进行讲解为主形态，背景配上一些简单的产品图像，前景再加上字幕，这是一个典型的「分层」合成的制作方式，也能够用较低的成本完成模型训练和推理的。

HeyGen 的创始人 Joshua Xu 在 The Cognitive Revolution 播客上接受访谈时说：

所以当我们最初成立这家公司时，我认为当你以客户、用户的身份看待 HeyGen 时，你会觉得它主要是一个头像（avatar）视频的功能。这是 HeyGen 平台目前的主要优势。但我们实际上从未将自己视为一家头像公司。我们真正想要的是解决为企业生成视频的问题。

如果你看一下，我们解决问题的方式是先按顺序解决 A-Roll 问题。我所说的 A-Roll 主要是人类发言人、头像、实际片段。我认为这是行业中尚未解决的一大问题。实际上是 B-Roll，对吧？所有这些背景音乐、过渡动画等等。你知道，我认为 HeyGens 的下一步，100%，我们希望不断提高质量，提高 A-Roll 片段的参与度。但同时，我认为在 B-roll 生成上投入大量资金对于我们实现端到端生成整个视频的使命也至关重要。

Joshua 用了 A-roll、B-roll 等视频制作术语来解释前面讲到的「分层」，这是一个用还原论方法来简化问题的方式：A-roll 是指视频中的讲解人的部分，HeyGen 用 GAN、TTS 等一系列模型，保证视频中的数字人像能够按照预定的脚本说出讲解台词，并且能识别台词文本适度改变面部表情。在这一点上，HeyGen 和它的竞争对手们已经能够从最开始的机械僵硬，逐渐迭代到目前以假乱真的水平。这主要解决的问题是：很多创作者并不善于在镜头面前表现自己，用数字人像的方式降低了这部分的制作门槛。而 B-roll 则是在解决后期制作中通过字幕、动效、转场、音乐等手段来提升视频观赏性的问题——这实际上也是剪映等产品的主场，同时也无法避免 GAN 模型内生的多样性欠缺的问题。

HeyGen 等产品能达成的技术能力并不能构成他们在大厂面前的长期护城河。大厂的疏忽更多是因为他们在关注全然不同的市场：比如，对于用户规模更大的消费者市场而言，一些特效或配乐可能被对口型能更好的提升用户时长；以及大厂往往预期自身去解决通用模型问题，特别是在 Sora 问世之后。

HeyGen 在 2024 年的 6000 万美元融资把它的估值推高到了 5 亿美元，这个数字甚至无法和 OpenAI 或字节跳动的零头相比。它所关注的企业市场，虽然需求强劲，但也只有百亿美金的盘子——这还是在没有 AI 来替代人力的前提下计算的。HeyGen 的一个核心卖点就是大幅降低视频制作的成本，它每月收取 69 美元的单座席订阅费用（企业收费未披露），比在 Fiverr 这样的外包平台上找一个自由职业者便宜了一个数量级。

成本降低会让用量上升，上升的幅度往往会高于成本下降的幅度，从而带来整体规模的上升，这就是所谓的杰文斯悖论（Jevons Paradox）。一切对于 AI 可能带来通缩式发展的质疑似乎都可以通过这个理论来予以反驳。但对于内容生成而言，最终仍然会碰到用户整体注意力的天花板——无论企业多么愿意制作精美的宣传视频，而观众的注意力只有那么多，供给侧的 10x 改善，不可能无限制的传导到消费侧。

在企业视频这个并不宽敞的赛道上，挤满了众多竞争对手，很多公司在融资额上并不逊色，营收能力方面，ARR 达到数千万美元的也大有人在。按照 2023 年的预估，头部公司的 ARR 总和已经超过了 1 亿美元大关，并仍在快速增长。换句话说，如果市场的割裂局面结束，把所有这些公司看成是一家公司的话，那么我们已经在 to B 视频生成领域拥有一家亿级 ARR 的公司，按照匹配增速的预估，这家公司应该已经跻身独角兽级别。

但问题恰恰就在这里：这些公司在技术和产品上过于接近，虽然都找到了 PMF，但竞争激烈。这些公司在网站上介绍自己产品的方式很近似，以至于有时候都难以分辨谁是谁。诚然，在生成视频的细节上，还是能够看到很多细微的差异，特别是嘴部动作和面部表情这些最受到关注的地方，仍然会出现僵硬的情况；另外就是生成速度、时长、稳定性等基础问题，是否能够满足企业级应用的诉求。但这些问题普遍存在，或许在某个产品上略好一点，但很快就能被追上。

好的市场往往竞争激烈。企业视频生成这个赛道跑出独角兽级别的公司并不稀奇。如果说互联网长出了 Webflow 等一批面向企业的无代码独角兽，那么短视频上也应该有对称的机会。这个机会看上去很 AI，但它其实比 GPT 出现得更早——它更像是移动互联网 + 短视频这个时代的伴生品，但却因为 Gen AI 和 GPT 获得了真正的关注。

这种跨代而产生的趋势其实并不少见。SaaS 是过去十年的大金矿，它其实是建立在消费互联网和企业互联网的不对称发展上而产生的。企业需要数据库、软件、计算能力、内容管理、设计和开发等一系列配套工作，才能赶上消费互联网已经在更早的一个十年就已经完成的数字化转换。企业流程复杂冗长，充满了陈年旧账和组织顽疾，这些脏活累活在资本的驱动下，吸引了无数聪明的年轻人用一行一行代码搭建企业软件的长城。

短视频本来只是移动互联网上的应用之一，但它出人意料的成为了这个时代最具有代表性的社会 / 文化现象。视频生成之所以能够如此快的成为市场共识，还要感谢过去十年里抖音和 TikTok 构筑的前提。

消费互联网（Consumer Internet）铺路，企业互联网（以 SaaS 为代表）造车，后者并不是一个独立发展的趋势，而是前者达到临界规模后的衍生。后者对于视频生成而言，就是在移动互联网和短视频趋势下衍生的第一桶金，它让资本和技术之间首先达成一个交易，然后为下一个阶段的共识做一些热身准备。

赢得创作者

在企业视频之外，还有数百亿美元的社交媒体和 2000 亿美元的流媒体和电视内容的制作。

后者的预算虽大，但这种专业级的内容的制作比企业视频的 A-roll / B-roll 更困难，需要像 Sora / Runway / Kling 这样强大的魔法才有望解决。然而，在如此复杂的影视工业链中，优秀作品的卡点当然不仅仅是内容制作本身，而需要大量创意人才的协作和碰撞才能产生。Sora 能带来震撼的视觉奇观，但 GPT 还没能写出合格和电影剧本。

另一个趋势是，消费者的注意力已经被移动化和短视频永远的困住了。eMarketer 分析报告指出，2022 年以后，美国成年人的数字视频的观看时长就已经超过了电视，在此之后，这个差异还在拉大中。在数字视频中，TikTok 超过了 YouTube ，并逐步接近 Netflix。这意味着，2000 亿的流媒体和电视内容市场，也在流失观众。

Daily Average Time on TV and Digital Video.png

Average Time Spent on Netflix, TikTok and YouTube.png

这符合从低成本市场向上颠覆的创新规律。原有不起眼的利基市场成长更快，社交媒体及其背后的创作者经济很可能伴随着消费时长的迁移而成为一个千亿美金级别的市场。在规模变大的同时，内容质量也在 AI 加持之下稳步提升，在与传统内容制作手段竞争时，更有可能得到消费者的注意力。所谓「民主化」的机会，就是在技术进步的推动下带来的量质齐升。

创作者经济的市场没有准入门槛——任何人都可以成为创作者。涌现本质下，它对内容制作工具能提供的多样性要求更高。如果仍然以类似 A/B-roll 的模板来提供解决方案，恐怕难以和剪映 / CapCut 这一代工具竞争。剪映 / CapCut 在全球已经拥有近 5 亿用户，用户在上面的花销已经超过了 1 亿美元，这是一个庞然大物，但也证明了创作者经济是一个真实存在的市场。

创作者往往是从个人小作坊开始的，对创意的多样性有更高的要求，很快就不满足于模板化的创作，而希望有更多的表达方式来赢得更多关注。这就出现了几类不同的玩法：

视频编辑方向：这个方向上混杂了很多产品，很多并不是在生成式 AI 出现后才有的。一些代表产品包括 Descript，这家公司最初是做播客剪辑的，特点是可以用编辑文稿的方式来做视频剪辑。另外的一个子方向是 Opus Clip，也是华人创业者的产品，功能是从长视频中剪辑高光片段用于社交媒体传播。
换脸 / 动作捕捉类：代表产品是 Viggle，能让一张静态的虚拟形象动起来，它基于自研的模型进行生成，即可以用文字来描述动作，也可以用一段视频来做「动作捕捉」。它很适合做舞蹈才艺类的视频，也不难想象其产出在社交媒体上的流行。
大模型生成类，这就是 Runway / Kling 等产品的领域了，利用大模型生成一些超乎想象的内容，尽管这些模型有很多瑕疵，但正是这种不可控性带来的意外形成了后续的大量传播，比如饲养外星人致富等爆款作品已经出现。另外，二次元也是生成的一个重要方向，它允许更多的想象空间，消费者对内容的预期没有那么高，适合现阶段的模型能力，这个方向上，也出现了像 Merse 这样的初创团队：实际上，它生成的内容更像是在静态图片上加上了声音，称为 Audio-visual Anime，实际消费体验也能说得过去。不难想象，这个方向上还会出现更多的让角色和场景动起来的产品。

Sora 或许还有「世界模型」这个更大的命题要去解决，但 Runway 和 Kling 一定会在创作者经济里面找机会，唯一问题是成本下降以及性能提升多快能达到一个合理的水平。这就让社交媒体上的视频创作真正的「民主化」：消费者变成创作者，最终成为新的小型媒体公司，CapCut 已经达到的 1 亿美元也只会是未来这个千亿美元市场中的一个零头。

动作捕捉方向很可能最终会成为大模型生成的一个子类，而不是独立存在，但才艺表演类的视频永远都有着巨大的流量，其中也蕴含着数字偶像的机会。

视频编辑则是一个全然不同的方向，它更多强调如何简化人工剪辑的操作，而不是让 AI 取而代之。它有机会做成更通用的内容制作工具，但也面临 CapCut 和 Adobe / Apple 等传统剪辑工具的竞争。与 HeyGen 等头像视频类工具相比，它又像是聚焦在 B-roll 上，两者很可能会互相进入对方的领地。

创作者本身也是消费者。社交媒体 / UGC 平台的基本发展规律就是先让一批创作者玩起来，然后用他们产生的内容逐步吸引消费者，如此反复循环。回到文章最初抛出的问题：视频生成是不是一个 AI 走向十亿消费者的方向？从创作者向消费者迁移的这个角度看，回答是肯定的。而目前大部分产品都在创作工具上下功夫，产生的视频内容也都会发到已有的社交媒体 / UGC 平台上。

平台的切换并不是一件容易的事情。媒介形态需要发生比较大的变化才有机会出现新平台诞生。视频内容，无论是长度还是横竖屏，都已经有十亿用户量级的平台占据了垄断地位，AI 如果仅仅在生产侧做效率改进，难以突破这些铜墙铁壁。

创作者经济中蕴藏着的最大机会就是文化的多样性。它最大的优势就在于其涌现特质：创造力本身是难以预料的，特别是 AI 能够把这种创造力以「民主化」的形式交到每个人手中的时候。这些内容将需要被少数消费者看到，然后走过漫长的不被主流文化接受的阶段。这时候，它们可能还得借助已有的平台进行发布——但不见得会收到推荐算法的待见，或者是在 Reddit / Discord 上的某个频道中进行小众传播。消费者永远需要新奇感，而年轻人与生俱来的叛逆又会让他们在小众文化中找到归属。如果 AI 视频生成能从 GAN 的模板中解放出来，那么就能用新奇赢得新用户，用归属把他们留下来。

在多样性之外，视频生成需要在实时性上做出突破。实时意味着真正的个性化和极高的互动性，这两点意味着专属定制的稀缺性，也意味着更高的商业化空间。

十亿

视频生成是一个有些混乱的赛道。它的技术发展在 GAN / VAE、Diffusion、Transformers 和 NeRF 几个重要里程碑之间出现了一些空白，而最早的 GAN 在消费互联网上的广泛应用远远早于在企业侧的应用，其结果是 HeyGen 这一代公司在 2020 年后出现的时候，新一代以 Diffusion + Transformers 为基础的技术也出现了。后者是在所谓的「AI 春天」中诞生的，也给前者增添了新的热度。所有人在共享一个宏大叙事的同时，实际上是在做截然不同的细分市场，也面临着不同的竞争动态和终局天花板的约束。

创作者经济仍然是变数最大的细分市场，它伴随消费互联网在过去二十年中的发展，一定会从传统媒体和企业市场那里分掉更多的蛋糕。这个市场接受自下而上的创新颠覆，因为它自己就是这种运动的产物，但也需要更多的多样性以充分释放其创意涌现的冲动。GAN 如果不能提供这种结果，那么 Diffusion 及未来的模型就有机会给用户更多新奇感和个性化。

人的创造力是无限的，生成的价值在于释放这种无限。它通过赋予每个人机会，而为自身创造机会。

References

Grand View Research: https://www.grandviewresearch.com/industry-analysis/digital-media-market
Statista (Social Media Ad Spend): https://www.statista.com/statistics/736971/social-media-ad-spend-world/
Variety (Streaming Content Spend): https://variety.com/2023/tv/news/netflix-disney-content-spend-2024-1235673077/
Statista (TV Content Spend): https://www.statista.com/statistics/259985/global-entertainment-and-media-market-value/
MarketsandMarkets (Corporate Video Market): https://www.marketsandmarkets.com/Market-Reports/enterprise-video-market-1182.html

← Back to Newsletter Archive