从超级文本到超级视频

April 21, 2019

大约在 3 年以前，Ben Evans 写过一篇文章，题目叫 Video is the new HTML。他在文章写道：

Next, while Facebook has Instant Articles, Google now has Instant Apps. You tap on a link, and 'native' (at any rate, not HTML) code instantly (hopefully) appears and runs. You could see this as the return of Java (and Android in a sense is Java), or the return of Flash. I think the Flash parallel works much more broadly, too. Snapchat Discover certainly looks like Flash - though technically the delivery format might be h264 video, the actual content looks a lot like what people were doing with Flash 10 years ago - rich, engaging, moving content blending sound, motion, animation and, sometimes, actual live-action footage. We've gone from delivering video with Flash to delivering Flash with video. That is, video is a new HTML - a new content delivery format, and not necessarily about live action at all.

大概的意思是说，视频会成为一种新的呈递信息的方式，比起 HTML 来，它更加丰富。HTML 在互联网上是基础的组织信息的方式，而 Google、Facebook 和 Adobe (Flash) 基于各自的优势，构建了 HTML 之外的专有形式，然而他们彼此并不兼容。视频则是兼容所有平台的，表现形式又足够丰富，会替代掉 HTML 作为新的内容传递形态——和我们本来所认知的视频是关于捕捉动态影像的定义没有太多关系。

发表这段文字的时候，Snapchat 正是美国社交界的当红炸子鸡，离 Instagram 发布 Story 功能还有整整两个月，而它们共同的敌人，Tik Tok 还以 Musical.ly 的身份在青少年市场积累热度。Ben Evans 从 Instant Articles 这样现在已经没人提起的产品出发，仅仅凭借他对平台模式的理解，做出了上述预言，今天回看，更加令人讶异。

最让我讶异的是最后一句话：not necessarily about live action at all.

过去一个月时间，我以每周一支视频的速度，后知后觉的开始了我的 vlog 尝试。开始做这件事的原因有很多，最主要的原因是因为希望能理解这种无法忽视的新表达方式。和大部分拍拍美食和旅行的 vlogger 不同，我选择了一个看起来很呆板的主题：每周介绍一本我读过的好书。作为一个 vlog 新人，我不大懂得如何穿插各种不同的画面，大部分时间里画面中间就是我在说话的脑袋，和半截上半身，表情呆滞，一般进入了 2 分钟之后，我才能放松下来，暂时忘记自己是在镜头面前，手部开始增加一些手势动作，让画面增加一些动态。

第一集发布之后，很多朋友发来评论，大概有三种观点：

感觉信息获取的效率没有文字高，而且信息缺乏结构性。
视频是知识分享的好形式。
小哥哥很 cute 啊！

做第一支视频的时候，毫无经验的我在脚本设计、剪辑节奏和时长控制上都比较松散，整个视频的长度达到了 12 分钟，而其实信息量的确不如读一篇千字左右的书评。然而 2 和 3 两种评论的观众却有很多人以自己的方式看完了视频：有些人是听完的，有些人快进（知乎还不支持变速播放），有些人当作下饭视频看完了。一支视频提供的信息量实际上远远大于同等长度的文字、声音或图片，所以也占用了比较大网络传输带宽。但人在观看的时候，会进行主观过滤，有些人希望看干货，就会希望直接看文字版，有些人则希望在特定场景下消费内容，则会用听或边吃边看的形式，而还有一些人则就是来看这个人长什么模样，说话什么声音，是不是有趣等等。只有视频这种形态能够同步的把以上所有的信息（还有很多点我没有想到）都传递出来，说视频信息量小的人都是自动过滤了他不感兴趣的那些信息。

从第二支视频开始，我决定开始学用 Premiere 来进行剪辑。这个软件界面很酷，也很复杂，是这个样子的：

大部分人第一次看这个界面的时候，应该都会觉得头大。最让人头大的，是界面的右下角的部分。我特别找了一个比较复杂的例子，这个区域里面紫色、蓝色和绿色的色块是一段一段的音频或者视频。所谓剪辑，就是把不同类型的媒体，拖动到这个区域中，按照播放时间的先后顺序，把这些片段组合到一起。每一行都是一个新的轨道，那些紫色的轨道一般都是一些矢量的图形或者文字，在视频中往往起到过渡或者提示的作用。蓝色的轨道则是音频，除了人声、还可以加入背景音乐和声效。

使用 Premiere 软件主要的工作区就是在这里发生的。所谓剪辑，就是不断的排列组合这些色块，让他们形成一个信息传递的时间序列。

自从理解了这一点，我发现剪辑视频变得容易了一些。因为我知道自己要讲述什么内容，要做的实际上就是横向把每一段视频剪辑接起来，去掉无用的帧，加上提示字母、过渡效果和背景音乐，就可以输出了。剪辑第二集视频大概花了一个小时，第三集花了两个小时，已经超过了我拍摄的时间——但第三集收到了更多正面的反馈——我在剪辑上花费的功夫，让视频的节奏感更强了，尽管我还是坐在一张椅子上说话，但我插入了很多图形和文字，基本上每 10 秒中就让画面出现显著的变化，避免观看者感到重复和无聊，尽管完成这些工作的过程自身是重复和无聊的。

剪完一集视频，我肩颈酸痛，在站起来扭动头部放松的时候，我突然想起了 Ben Evans 两年前的预言：Video is the new HTML。

大概是在中学的时候，我迷上了 HTML。这是一种非常美观的语言，用 <> 把标签包起来，用对称和嵌套表示内容的结构。当时最强大的网页设计工具 Dreamweaver 的界面是这个样子的：

代码有好几种颜色，并且缩进成不同的层次，其中白色的字是真正的内容，其余颜色的字都是各种结构标识。HTML 就是用这样的方式把一块一块的内容组织起来，形成一个文档结构，交给浏览器进行渲染。HTML 是从上到下书写的，实际上，任何一个网站，你都可以用浏览器的查看源代码功能看到这样的结构。

视频则没有这样容易查看的结构。从 Premiere 导出来的视频文件已经完全变成了按照顺序播放的动态影像，结构化的信息都保存在 Premiere 的项目文件中，这些信息和 HTML 一样，把每段内容组织起来，每一次的剪辑都在改变这些结构信息。这就是为什么视频被称为是新的 HTML，而且和动态影像（Live Action）无关——视频在被导出为 mp4 文件之前，也是结构化的，横向有先后顺序，纵向有不同轨道。

除了视频的时间轴是从左到右的之外，还有一个和 HTML 的不同之处：视频在回放的时候是线性的，换句话说，就是观众只能选择前后跳转，而不能通过类似超链接的方式，跳到某个时间点，或者直接去往另外一个视频，或者完成其它更多的功能（比如，完成一个购买订单）。但这些问题已经不是问题了，今天世界上最大的视频播放器已经自带了更多的功能，除了点赞、加粉和评论，你可以在抖音和 Instagram 上购买商品，也可以在 YouTube 上赞助创作者——如果 HTML 是“超文本”，那么这些视频就是“超视频”，结构化和可连接的视频。

这个领域，不管是识别视频中的实体（比如人脸），还是基于实体增强连接能力（比如搜索、社交和交易功能），都存在着广阔的创新机会，国内也有不少公司于此蓬勃。近来还出现基于极少的文本信息反过来升维构建视频内容的技术——虽然尚属早期，但效果也很惊人。还听过一些把音频识别成文字，在用“文字处理”的方法来反向编辑音频和视频的，也是非常聪明的技术应用。

“超视频”超越传统意义上的视频的地方在于，通过结构把内容中有特殊意义的信息识别出来，并让他们形成有意义的连接。我意识到，人对视觉信息的处理，本来就是结构化的：大脑会自动把眼睛看到的画面拆解成若干实体的组合，比如汽车、树木和行人等。这样就可以赋予视觉信息以意义，并和这些实体产生连接和交互。这一点在不少多人游戏的界面中，能看到很多的例子，比如最近很热的 The Division 2 中，每个玩家或者 NPC 头上都会出现一个标签：

这个标签虽然破坏了游戏的沉浸感，但使得玩家之间的配合更为方便。真实生活中，我们会在一些陌生人多的社交场合贴上名牌，便于交流，是类似的例子。游戏是计算机生成的视觉内容，相比于视频（在传统意义上）仍然是物理世界的光学投射，似乎缺乏一些真实感，但两者正在快速的靠近——手机拍摄的画面越来越多加入了非光学的因素，而游戏的场面也越来越接近真实。

结构带来了连接，连接创造了新的价值。内容产业在技术的加持之下，变得越来越有价值，最大的改变来自于在内容之上所增加的这些结构和连接。尽管创作一支精彩的视频仍然很难，但谁都可以举起手机随手拍一段，从而记录一段信息含量极为丰富的内容。在看起来平庸的素材基础上，Premiere 中的大部分功能都会变得自动化，变成免费而人人会用的功能，从而可以化腐朽为神奇。

视频传递的信息总是冗余的，它是一“叠”（stack）内容而非一“列”（array）图像。解构之后，重新连接，就创造了新的价值和意义。

← Back to Newsletter Archive