从超级文本到超级视频
大约在 3 年以前,Ben Evans 写过一篇文章,题目叫 Video is the new HTML。他在文章写道:
Next, while Facebook has Instant Articles, Google now has Instant Apps. You tap on a link, and 'native' (at any rate, not HTML) code instantly (hopefully) appears and runs. You could see this as the return of Java (and Android in a sense is Java), or the return of Flash. I think the Flash parallel works much more broadly, too. Snapchat Discover certainly looks like Flash - though technically the delivery format might be h264 video, the actual content looks a lot like what people were doing with Flash 10 years ago - rich, engaging, moving content blending sound, motion, animation and, sometimes, actual live-action footage. We've gone from delivering video with Flash to delivering Flash with video. That is, video is a new HTML - a new content delivery format, and not necessarily about live action at all.
大概的意思是说,视频会成为一种新的呈递信息的方式,比起 HTML 来,它更加丰富。HTML 在互联网上是基础的组织信息的方式,而 Google、Facebook 和 Adobe (Flash) 基于各自的优势,构建了 HTML 之外的专有形式,然而他们彼此并不兼容。视频则是兼容所有平台的,表现形式又足够丰富,会替代掉 HTML 作为新的内容传递形态——和我们本来所认知的视频是关于捕捉动态影像的定义没有太多关系。
发表这段文字的时候,Snapchat 正是美国社交界的当红炸子鸡,离 Instagram 发布 Story 功能还有整整两个月,而它们共同的敌人,Tik Tok 还以 Musical.ly 的身份在青少年市场积累热度。Ben Evans 从 Instant Articles 这样现在已经没人提起的产品出发,仅仅凭借他对平台模式的理解,做出了上述预言,今天回看,更加令人讶异。
最让我讶异的是最后一句话:not necessarily about live action at all.
过去一个月时间,我以每周一支视频的速度,后知后觉的开始了我的 vlog 尝试。开始做这件事的原因有很多,最主要的原因是因为希望能理解这种无法忽视的新表达方式。和大部分拍拍美食和旅行的 vlogger 不同,我选择了一个看起来很呆板的主题:每周介绍一本我读过的好书。作为一个 vlog 新人,我不大懂得如何穿插各种不同的画面,大部分时间里画面中间就是我在说话的脑袋,和半截上半身,表情呆滞,一般进入了 2 分钟之后,我才能放松下来,暂时忘记自己是在镜头面前,手部开始增加一些手势动作,让画面增加一些动态。

第一集发布之后,很多朋友发来评论,大概有三种观点:
- 感觉信息获取的效率没有文字高,而且信息缺乏结构性。
- 视频是知识分享的好形式。
- 小哥哥很 cute 啊!
做第一支视频的时候,毫无经验的我在脚本设计、剪辑节奏和时长控制上都比较松散,整个视频的长度达到了 12 分钟,而其实信息量的确不如读一篇千字左右的书评。然而 2 和 3 两种评论的观众却有很多人以自己的方式看完了视频:有些人是听完的,有些人快进(知乎还不支持变速播放),有些人当作下饭视频看完了。一支视频提供的信息量实际上远远大于同等长度的文字、声音或图片,所以也占用了比较大网络传输带宽。但人在观看的时候,会进行主观过滤,有些人希望看干货,就会希望直接看文字版,有些人则希望在特定场景下消费内容,则会用听或边吃边看的形式,而还有一些人则就是来看这个人长什么模样,说话什么声音,是不是有趣等等。只有视频这种形态能够同步的把以上所有的信息(还有很多点我没有想到)都传递出来,说视频信息量小的人都是自动过滤了他不感兴趣的那些信息。
从第二支视频开始,我决定开始学用 Premiere 来进行剪辑。这个软件界面很酷,也很复杂,是这个样子的:

大部分人第一次看这个界面的时候,应该都会觉得头大。最让人头大的,是界面的右下角的部分。我特别找了一个比较复杂的例子,这个区域里面紫色、蓝色和绿色的色块是一段一段的音频或者视频。所谓剪辑,就是把不同类型的媒体,拖动到这个区域中,按照播放时间的先后顺序,把这些片段组合到一起。每一行都是一个新的轨道,那些紫色的轨道一般都是一些矢量的图形或者文字,在视频中往往起到过渡或者提示的作用。蓝色的轨道则是音频,除了人声、还可以加入背景音乐和声效。
使用 Premiere 软件主要的工作区就是在这里发生的。所谓剪辑,就是不断的排列组合这些色块,让他们形成一个信息传递的时间序列。
自从理解了这一点,我发现剪辑视频变得容易了一些。因为我知道自己要讲述什么内容,要做的实际上就是横向把每一段视频剪辑接起来,去掉无用的帧,加上提示字母、过渡效果和背景音乐,就可以输出了。剪辑第二集视频大概花了一个小时,第三集花了两个小时,已经超过了我拍摄的时间——但第三集收到了更多正面的反馈——我在剪辑上花费的功夫,让视频的节奏感更强了,尽管我还是坐在一张椅子上说话,但我插入了很多图形和文字,基本上每 10 秒中就让画面出现显著的变化,避免观看者感到重复和无聊,尽管完成这些工作的过程自身是重复和无聊的。
剪完一集视频,我肩颈酸痛,在站起来扭动头部放松的时候,我突然想起了 Ben Evans 两年前的预言:Video is the new HTML。
大概是在中学的时候,我迷上了 HTML。这是一种非常美观的语言,用 <> 把标签包起来,用对称和嵌套表示内容的结构。当时最强大的网页设计工具 Dreamweaver 的界面是这个样子的:

代码有好几种颜色,并且缩进成不同的层次,其中白色的字是真正的内容,其余颜色的字都是各种结构标识。HTML 就是用这样的方式把一块一块的内容组织起来,形成一个文档结构,交给浏览器进行渲染。HTML 是从上到下书写的,实际上,任何一个网站,你都可以用浏览器的查看源代码功能看到这样的结构。
视频则没有这样容易查看的结构。从 Premiere 导出来的视频文件已经完全变成了按照顺序播放的动态影像,结构化的信息都保存在 Premiere 的项目文件中,这些信息和 HTML 一样,把每段内容组织起来,每一次的剪辑都在改变这些结构信息。这就是为什么视频被称为是新的 HTML,而且和动态影像(Live Action)无关——视频在被导出为 mp4 文件之前,也是结构化的,横向有先后顺序,纵向有不同轨道。
除了视频的时间轴是从左到右的之外,还有一个和 HTML 的不同之处:视频在回放的时候是线性的,换句话说,就是观众只能选择前后跳转,而不能通过类似超链接的方式,跳到某个时间点,或者直接去往另外一个视频,或者完成其它更多的功能(比如,完成一个购买订单)。但这些问题已经不是问题了,今天世界上最大的视频播放器已经自带了更多的功能,除了点赞、加粉和评论,你可以在抖音和 Instagram 上购买商品,也可以在 YouTube 上赞助创作者——如果 HTML 是“超文本”,那么这些视频就是“超视频”,结构化和可连接的视频。
这个领域,不管是识别视频中的实体(比如人脸),还是基于实体增强连接能力(比如搜索、社交和交易功能),都存在着广阔的创新机会,国内也有不少公司于此蓬勃。近来还出现基于极少的文本信息反过来升维构建视频内容的技术——虽然尚属早期,但效果也很惊人。还听过一些把音频识别成文字,在用“文字处理”的方法来反向编辑音频和视频的,也是非常聪明的技术应用。
“超视频”超越传统意义上的视频的地方在于,通过结构把内容中有特殊意义的信息识别出来,并让他们形成有意义的连接。我意识到,人对视觉信息的处理,本来就是结构化的:大脑会自动把眼睛看到的画面拆解成若干实体的组合,比如汽车、树木和行人等。这样就可以赋予视觉信息以意义,并和这些实体产生连接和交互。这一点在不少多人游戏的界面中,能看到很多的例子,比如最近很热的 The Division 2 中,每个玩家或者 NPC 头上都会出现一个标签:

这个标签虽然破坏了游戏的沉浸感,但使得玩家之间的配合更为方便。真实生活中,我们会在一些陌生人多的社交场合贴上名牌,便于交流,是类似的例子。游戏是计算机生成的视觉内容,相比于视频(在传统意义上)仍然是物理世界的光学投射,似乎缺乏一些真实感,但两者正在快速的靠近——手机拍摄的画面越来越多加入了非光学的因素,而游戏的场面也越来越接近真实。
结构带来了连接,连接创造了新的价值。内容产业在技术的加持之下,变得越来越有价值,最大的改变来自于在内容之上所增加的这些结构和连接。尽管创作一支精彩的视频仍然很难,但谁都可以举起手机随手拍一段,从而记录一段信息含量极为丰富的内容。在看起来平庸的素材基础上,Premiere 中的大部分功能都会变得自动化,变成免费而人人会用的功能,从而可以化腐朽为神奇。
视频传递的信息总是冗余的,它是一“叠”(stack)内容而非一“列”(array)图像。解构之后,重新连接,就创造了新的价值和意义。