语音会成为主要用户界面吗？

May 17, 2024

在 GPT-4o 的演示中，OpenAI 重点演示了语音交互的特性。很多人会怀疑，语音作为一种低清晰度（low fidelity）的媒介很难承担复杂交互的重任。的确，语音传输信息的方式是串行的，人和机器必须交替进行，即便我们用 2 倍速说和听，信息交互的速率也比不上我们用眼睛看和读。更不用提过去十年中在使用 Siri 和 Alexa 这些初代语音助手带给我们的挫败感，以至于今天在想起语音交互的时候，还是停留在问天气、计时、汇率转换这些基础 case 上。

Ben Thompson 在 SharpTech podcast 上讲道：

A lot of stuff that we think about as productivity has, for 40 years, been optimized for the WIMP interface - Windows, Icons, Mouse, Pointer. And so, they're not going to work better on touch. They're not going to work, maybe, not even on the Vision Pro, unless we have sort of a keyboard and a mouse to use it. And that's because there is a sort of determinism that happens, a path dependency, that's actually downstream from the user interface. Because we have a mouse and a keyboard, we build applications that leverage the mouse and keyboard. And we think of those applications as productivity.

40 年来，我们视为生产力的很多东西都针对 WIMP 界面进行了优化 - 窗口、图标、鼠标、指针。因此，它们在触摸时不会表现得更好。除非我们有键盘和鼠标来使用它，否则它们甚至可能无法在 Vision Pro 上工作。这是因为存在一种确定性，一种路径依赖，它实际上是用户界面的下游。因为我们有鼠标和键盘，所以我们构建了利用鼠标和键盘的应用程序。我们将这些应用程序视为生产力。

这段话给我很大的启发：我们过去所习惯的生产力软件很大程度上是围绕 Windows 的 UI 建立的，它与鼠标键盘的输入设备强关联。苹果在 iPhone 上花了十几年时间构建基于触摸屏的交互，而到了 iPad 上仍然不能直接平移——对 iPad 作为生产力工具的预期始终难以得到满足。

语音的 Killer Apps

每一代新的交互技术出现的时候，最先出现的应用总是一些微不足道的实用工具，它们开发成本低廉，需求点明确，不仅仅是开发者用来练手的入门款，也是消费者必备的基本款。天气、计算器、手电筒、文件管理等，不仅仅在 iPhone 和 Android 上出现过，其实也是 Siri 和 Alexa 作为初代语音助手给人的最初印象。

Siri 们停在这个阶段的时间已有十年之久，它们或许过多的承担了科幻成真的期待，但突破性的技术始终没有来。直到今天，他们仍然保持着最初的简单工具形态，比如早上煮蛋的计时器和出门是不是要带伞的 double check。

每一代消费计算平台都有自己的 killer apps：Windows 是 Office 套件和浏览器，iPhone 则是社交软件和拍照，Siri 本来有机会成为 iPhone 的 killer app，但被束缚在技术边界中太久。直到今天，技术边界被突破了，Siri 重获新生，可能找到自己的 killer app，并成为 AI 的 Primary UI（主要用户界面）。

OpenAI 一直在推动语音作为一种主要用户界面在 ChatGPT 中的存在，因为打字，特别是写出一长串逻辑严谨的 prompt，对大部分用户而言太麻烦。语音，其实就是说话和听话，就轻松许多。这或许不是一个典型意义上的生产力场景，但过去几十年的「生产力」都是以 WIMP 范式而定义的。我突然想到，这个范式的典型代表其实就是 Thinkpad 的键盘和小红点，知道今天仍然有很多专业人士以能使用这套输入设备来熟练操作庞大的 Excel 表格为荣。有人提到罗永浩当年的那套看上去有些滑稽的 Smartisan 桌面 OS，只能说人不要走在曲线太靠前的位置。

至少现在，我们能够更自然、也更放心的和 AI 进行语音交互。自然，是因为 AI 能够以更拟人化、情感更细腻的方式来理解和回复，放心，则是因为 AI 对语音的识别和理解已经到了不用担心准确率的程度。在 OpenAI 和 Google 的 demo 中，这些都逐渐成为稀松平常的前提。

我们可能还要等上多年光景才能把围绕语音的一系列交互都完善好。语音作为交互界面的确有很多限制。人类的口语比书面语更加不精确，充满了语法错误、词不达意和前后颠倒，再加上个人表达习惯的差异，千差万别的口音和方言，对话中的插话抢话，背景噪音等等。需要处理好人类语言中的各种各样的边缘情况，在多轮对话中反复调适用户想要的回答，在岁月中逐步建立与用户的共同记忆，最终成为真正的 her。

手机上的语音输入可能帮助很多人建立了对语音识别的信心，算法甚至逐渐能够把中英文混杂和符合语气的标点符号弄对。我曾经尝试过用一些语音记笔记的 app 捕捉转瞬即逝的想法，但很快发现，由于 UI 主要是为文本设计的，语音输入永远是二等公民，需要单独的按钮进入，然后转录成一段文字，原始语音会被丢弃掉，剩下一些可能不大准确的记录。

独立开发者 Jijo 和他的太太 Aleesha 共同开发的 Voicenotes 把一个简单的语音备忘录 + AI 功能妥善的实现出来，语音记录中的无用信息被 LLM 过滤掉，仅保留干净的笔记，并且自动加上标题，并可以自动生成 todo 或者是生成可以二次消费的 tweet；更有趣的是，在你不知道要记录什么的时候，AI 也会根据你过去的笔记生成一些问题，就像是一个能够连接思想中不同散点的精灵，帮助你构建更茁壮的思维结构。类似的例子还有 Naval Ravikant 的 AirChat，可以理解成一个以语音为主的 Twitter，但所有语音都会被 AI 自动转成文本，但 Ravikant 强调，用语音创作能更加真实的表现出创作者的意图。

Voicenotes 和 Airchat 的共同特点是同时保存了语音和识别出来的文本，供用户后续查询。这看上去是一种冗余，但却让用户更加放心。文本并不一定是交互界面中的首选媒介，比如 Airchat 会随着屏幕的滚动自动回放语音，很适合把手机放在一边听，然后去忙别的事情，如果碰到重点信息，再回来看文字。

AI 模糊了文字和语音的界限，这反而让语音能够在更多场景下成为主要用户界面：因其低带宽占用，可以在多任务场景中保持长连接，类似陪伴和低复杂度的生产力场景都很适合。

更高的信息 I/O

我们可以简单的就 token 需求量来比较一下几种常见的内容形态：

文本：与 token 直接相关。例如，一段 100 个单词的段落可能大约有 100 个 token，按照普通人打字的速度，一分钟大概能打 40-50 个单词。
音频：一分钟演讲的转录可能使用 150-200 个 token，按照正常语速，一分钟演讲大概能讲 125-150 个单词。
图像 / 视频：生成图像的描述性文本可能使用 10-50 个 token，生成一分钟视频的脚本可能使用 200-300 个 token（考虑对话和场景描述），而输出 1 帧图像可能会用到 400 个 token，对于 30 帧每秒的视频而言，大概每秒需要 12000 个 token。

有趣之处在于，如果音频 = 人讲话，文本 = 人打字，那么对于 LLM 而言，接收到的 token 数量其实在同一个数量级上。而如果考虑到打字速度大概是说话速度的一半，所以语音的单位时间效率能比文本高一倍。

一个讲英语的普通人平均每天会说 7000-20000 个单词，作为对比，一篇纽约时报的新闻大概是 1000 个单词。说话和听人说话其实是人类的 Primary UI（主要用户界面）。现在，AI 的推理能力刚好能弥补人说话中的各种漏洞，对比文本处理，效率高出一倍。

对于人类而言，效率提升 1 倍，就会让更多人愿意进行尝试，特别是当尝试本身不会带来太多边际成本的时候，而这正是软件的魅力。Siri、Alexa、Google 和小爱同学在我们酣睡之时悄悄走完了他们在过去十几年中都没能走完的路程，数以十亿计的消费者在未来十年中将缓慢而坚定的改变他们的生活方式。

至于图像和视频，已经不在一个数量级上，无法展开讨论。

易得性 vs. 信任

Rex Woodbury 在 AI's Communication Revolution: We're All Talking to Computers Now 中放了这样一张图：

其中那个青蓝色的部分就是 Communication with AI，被认为会在未来 20 年间快速增长，最终占据人类沟通将近一半的份额。始终被压缩的，则是绿色的部分，也就是人和人之间的沟通。Woodbury 在文中还讲到：

Agents, copilots, chatbots. Call the AIs what you want. I suspect the terminology we use will differ based on use case:Agents will carry out work, a new employee handling our grunt work.Copilots will augment our work, suggesting a new sentence or a new line of code.Chatbots, meanwhile, will give us someone to talk to, fulfilling our human longing for connection.

这个分类描述试图把 Agents、Copilots 和 Chatbots 这几个模糊不清的概念做出区分。从工作能力角度看，似乎是 Agents 最高，因为它是能够自主完成工作的，但实际上，它反而可能是在智能程度上最低的，Copilots 的高级形式是协同智能（co-intelligence, via Superhuman?），而 Chatbots 不仅仅需要智商，很可能还要通晓人情世故。

Sam Altman 在 The Logan Bartlett Show 也表达了类似的观点：与真正的人类沟通将会变得更加昂贵。这让我想起 2018 年曾经访谈过的一个三线城市的用户：在被问到如何找到自家儿童教育的问题时，她回答说去问自己当小学老师的姐姐，姐姐就住在她家楼上，经常去串门吃饭唠嗑，就聊了。这个回答既让人惊愕，也完全在情理之中。之所以产生这样的解决办法，原因可能有很多种，过去研究社交的时候，会把因关系产生的信任赋予更高的解释权重，今天来看，信息的易得性也很重要。这个用户可能只是觉得搜索引擎不好用，还不如上楼去问问姐姐比较容易，而不一定是因为她认为亲戚比网上的专家更值得信任。

这就是 AI 可能填平很多 gap 的地方：它采取了更加易得的交互界面，对于大众消费者来讲，很可能是语音。人们可能逐渐意识到，这是一种极其自然，丝毫不需要额外学习的信息获取方式。它最终或许也会被广告问题所干扰，但仍然比现在互联网能够交付的体验好上不少。

← Back to Newsletter Archive