界面的机会

July 22, 2024

Memo

Scott Belsky 在 The Interface Layer: Where Design Commoditizes Tech ^[1] 中写道：

看看「界面层」的力量，它不仅仅是关于伟大的设计，它还关乎使生活更轻松的操作的集成以及底层服务的商品化。它不仅仅是一个层面，而是一种由设计师而不是有线电视高管、科技巨头和物流策划者主导的经济转变。这是一种建立在广泛开放且竞争激烈的服务生态系统之上的“封闭”用户体验。

Belsky 的文章发表于 10 年前，当时他创办的设计师社区 Behance 刚刚被 Adobe 收购一年多，此文颇有为设计师摇旗呐喊的意味。实际上，并非如文章标题写得那样是 Design Commoditizes Tech，而是 Tech 层面上的竞争 commoditize 了自己，给了 Design 更大的施展空间。

新技术带来的可能性永远都有待发掘，但重要的问题是在哪里挖掘。在基础模型已经进入军备竞赛阶段的时候，界面层（Interface Layer）变得越发重要，因为它在用户和技术提供者之间进行了封装，隔绝了底层技术在竞争过程中产生的微不足道的变化，而向用户提供了更多的确定性，而这些确定性又变成了使用惯性、肌肉记忆和品牌忠诚，成为可以长期积累的优势。

我最近经常想到一个概念 Token Share，有时候可能用界面来思考更容易理解：

用户每天使用哪些界面？
在这些界面中发送和接收的 token 数量有多少？总数有多少？
每一个界面的 token 数量在总数的占比有多少？

行业中很多讨论还集中在 token 成本如何下降上——这当然非常重要，但它已经是共识，剩下的更多是预期如何以及何时兑现的问题。在成本下降的前提下，用量会大幅上升，人们会逐渐把潜意识中的成本要素忽略掉，更加大胆的使用 AI 来处理各种事情。这时候，新的问题有两个，一个是性能，另一个就是如何拿到更大的 token share（份额）。

一个有趣的类比是：将 token 份额与用户花费的屏幕时间份额（Screen Time Share）进行比较。很多操作系统都添加了统计为每个应用统计屏幕时长的功能。在我个人的 Mac 上，过去一周的 Top 5 应用的使用时长如下：

MacOS Screen Time Top 5 Apps - 20240721.png

Arc 浏览器排名第一。Obsidian 和 Notion 分别在第二和第四的位置，加起来超过 Arc 的份额，Figma 占据第五，微信是唯一一个社交应用。这个数据多少也让我有点惊讶，但这只是 Mac 上的数据——在 iPhone 上情况完全不同，遗憾的是我发现我关闭了在手机上的屏幕时间统计功能，但我想，视频类应用应该拿到更大的份额。

Mac 代表了桌面端的生产力需求：浏览、创造和沟通是最主要的使用场景。这些应用每一个都蕴藏着大量的与 LLM 交互的需求。虽然用户总体的使用时长存在上限，但单位时间的效率随着 LLM 的广泛应用而提高。

我们注意到，Top 5 应用已经占据了超过 32 个小时中的 20 个，但如果考虑 token share 的话，分布一定不是这样的。比如我主要使用 LLM 的应用是 Raycast，它的屏幕时间仅有 50 分钟，但我想它的 token share 应该会超过 80%。如果你还不了解的话，它是一个 MacOS 上替换 Spotlight 功能的启动器，在任何界面按 Option + Space 就可以唤醒（这个快捷键可以自定义），然后就可以向 LLM 提出问题。对我而言，它就是一个「默认」界面。

Scott Belsky 在 2018 年又写了一篇文章，对「默认」这个概念做了进一步的阐释：

我没有意识到的是，这种界面会有多大的颠覆性。就像一场拍手游戏，手一个接一个地堆叠在一起，直到获胜的手放在最上面，颠覆性界面是通过消费者偏好或蛮力叠加在其他产品/服务之上，并控制最终用户的体验（从而控制决策）的界面。颠覆性界面之所以成功，是因为它们比它们所取代的更笨重、更复杂的系统更简单，并且提供了更好的用户体验。

即将出现的新媒介，即语音和增强现实，再加上人工智能的快速发展，将为我们节省更多时间。 它们将通过为每个需求提供默认答案（并消除选项）来彻底消除浏览 。乍一看，节省时间是一项巨大的好处。但其影响深远。 随着机器学习比我们更了解我们的生活和工作方式，我们不仅希望而且期望每个问题的最佳解决方案都是默认解决方案 。当界面达到自己的“奇点”版本时，当它们变得足够智能和精简以至于它们不再提供选择而只提供单一选项（并为我们执行）时，默认选项将成为每种产品和服务的终极奖励。

我怀疑 Belsky 在写作的时候是否能预见今天的技术局面，他提出的「默认」概念的确和我们今天看到的一些 AI 产品高度吻合：用户不再需要从多个搜索结果或多个页面窗口中反复跳转和选择，AI 擅长处理这些信息并巧妙的把它们整合成一段较短的回答，而这正是很多人需要的「默认」选择。

在这个意义上，界面的竞争已经重新启动了。如果用 token share 的概念去想，在今天的产品形态中，大概有这么几类界面有可能占据很大的份额：

浏览器：浏览器是一种元界面，或者说介于一般应用和操作系统之间。浏览器最初是为阅读网页内容设计的，而在 Web 2.0 时代，它被改造成了一种可读可写的界面，大大拓展了它的能力边界和使用场景。从 Chrome 开始，浏览器进入了追求极致性能的阶段，界面则追求极简主义，多余的功能都交给 extentions。Arc 等新秀则开始在界面上下功夫，赶上 AI 的春风后，应该逐渐会进一步打破浏览器 - 网页之间的次元壁。
聊天：这是很多人眼中 AI 的默认界面，但也有很多人（包括我在内）认为它只是一个初级形态。提示词以对话的形式来回，互动性强，容错性高，门槛更低，上限也是很高的。认为聊天只是初级形态的观点可能忽视了一个点，就是聊天更随意和灵活，很多标准化、结构化界面解决不了的问题，最终还是要回到聊天中来。一个不大恰当的比喻是聊天就像是按 0 转人工，虽然现代客服系统千方百计不让你转，但它还是很多人更想选择的。
语音 / 视频：语音可能是聊天的一种延伸。优点是门槛更低，不用占手，只用动嘴就可以；缺点是容错率低，说错了想改就很麻烦。另外就是接受语音信息的速率低，且是串行独占的，以及一些特定场景中（比如需要隐私、安静环境）不能用语音。视频从消费时长角度看，视频远远超过了其它的内容形态，但目前模型的多模态能力还有一些需要追赶的地方。

以上三种界面都有机会出现「默认界面」，而越是默认的界面，也越有可能被头部公司利用已有的渠道优势来强势抢占。还有一个界面，它也出现在我的屏幕时间份额 Top 5 中，在过去几十年中不断演变和涌现，它就是：编辑器。

编辑器的演变

首先声明一下，这里说的编辑器是指文本编辑器。对于音视频编辑器，由于在文本和音视频技术上还存在很多的差异性，没法放在一起讨论，是一个单独的命题。

文本编辑器是人类与计算机交互的一个重要界面。它的使用分布曲线异常陡峭：对于大部分人而言，这些软件远远不及聊天或者视频软件那么常用，但对于一部分知识工作者而言，文本编辑器是每天使用数个小时的软件。

这背后的主要原因是：文本是书面语言的载体，而文本编辑器则是用来输入、编辑、管理文本的软件。在不断的使用中，人们发展出了使用文本编辑器的各种用途，比如：撰写文档、记录想法、或者是编写程序代码。

文本编辑和文档创建的领域在过去几十年里经历了显著的变革。这种演变不仅反映了技术的进步，还反映了用户需求、工作模式以及我们与信息交互方式的变化。我们将简单回顾这一旅程，从最简单的文本编辑器到最新的 AI 原生工具，并思考这对编辑界面的未来意味着什么。

纯文本时代：Vim、Emacs 和记事本（20 世纪 70 年代 - 90 年代）

从最基本的文本编辑器开始，Windows 上的 Notepad，它代表了文本编辑的的最基本形式：

基于文件：每个文档在计算机上都是一个独立的文件。
基本功能：它们提供基础的文本编辑能力，没有花哨的功能。

在最基本的文本输入功能之上，Vim、Emacs 这样的软件在基于文件的纯文本编辑之上，出于效率考虑，增加了更多的诸如键盘快捷键、扩展脚本等功能，以其速度和为高级用户提供的效率而闻名。

这些编辑器体现了「做好一件事」的原则。它们因其简单性和可靠性，至今仍被广泛使用，尤其是程序员和系统管理员。

时间线：

1976 年：David A. Moon 和 Guy L. Steele Jr. 编写了 Emacs 的首个版本，最初是 TECO 编辑器的一组宏。
1978 年：Bill Joy 创建 Vi（Vim 的前身）^[2]。
1983 年：记事本随 Windows 首个版本一起发布。

Office 时代：Microsoft Word（20 世纪 80 年代 - 21 世纪初）

随着个人计算机的普及，Microsoft Word 成为了文档创建的主导工具：

丰富的格式：Word 引入了轻松应用各种字体、样式和布局的能力。
面向打印：重点是创建打印效果好的文档。
基于文件：Word 仍然是基于文件的。

Word 代表了向创建视觉吸引力文档的转变，并将文本编辑带给了大众。它成为商业文档、学术论文和个人写作的事实标准。

时间线 ^[3]：

1983 年：Microsoft Word 首次为 Xenix 和 MS-DOS 发布。
1989 年：Word for Windows 发布，获得广泛采用。

云同步时代：Evernote / Google Docs（2010s）

Evernote 在推出 8 年后，于 2008 年推出了一个支持云同步的版本，随后很快又推出了移动应用，标志着笔记管理新时代的开始。Google Docs 的前身于 2005 年正式推出 ^[4]，其最为突出的功能就是支持多人同时进行编辑，并且可以在云端保存多个历史版本。

基于云的同步：Evernote 允许用户从任何设备访问他们的笔记。
移动优先：2009 年移动应用的推出利用了智能手机革命。

Evernote 和 Google Docs 诞生于云计算和移动应用的时代，它们不约而同的舍弃了部分在 Word 中出现的复杂格式排版功能，而转向多端同步、多人协作这样的功能。

时间线 ^[5]：

2005 年：Google Docs 的前身 Writely 上线。次年，Google 收购了开发 Writely 的 Upstartle 公司。
2008 年：Evernote 推出云服务。
2009 年：Evernote 发布 iOS 和 Android 移动应用。Google 宣布 Google Docs 结束 beta 测试。
2011 年：Evernote 经历快速增长，到 2011 年用户达到 1100 万。
2012 年：Google 收购 QuickOffice，为 Google Docs 拓展移动应用。

协作工作空间：Notion（21 世纪 10 年代中期 - 至今）

2016 年推出的 Notion 代表了另一个范式转变：

基于块的结构：内容被组织成可以轻松重新排列的模块化块。
默认协作：共享和实时协作被内置到核心体验中。
数据库功能：Notion 允许用户创建结构化数据，实现更复杂的信息组织和查询。

Notion 的方法反映了协作至关重要的不断变化的工作环境，信息需要既灵活又结构化。它不仅是个人使用的工具，还是团队知识管理和项目协调的平台。

时间线：

2016 年：Notion 正式推出。
2018 年：Notion 2.0 发布，引入数据库和其他高级功能。
2020 年：Notion 用户达到 400 万，受远程工作转变的加速。

AI 原生时代：Cursor 和 Perplexity Pages？（21 世纪 20 年代初 - 至今）

文本编辑的最新演变涉及人工智能的集成：

主动 AI 辅助：这些工具使用 AI 积极参与写作和编辑过程。
自动完成和生成：AI 可以建议完成或基于提示生成内容。
上下文理解：这些工具旨在理解你工作的上下文并提供相关帮助。

这代表了我们与文本编辑器交互方式的根本转变。工具不再只是我们输入的被动接收者，而是创作过程中的主动协作者。

时间线：

2022 年：GitHub Copilot，最早广泛使用的 AI 编码助手之一，正式上线。
2023 年：AI 原生代码编辑器 Cursor 发布。
2024 年：Stanford 的 Yijia Shao 团队发布了 STORM，几乎同期 Perplexity Pages 上线。

在这条时间线中，代码编辑器和普通的文本编辑器夹杂到了一起。代码和自然语言当然有许多不同之处。为 Notion 工作的 AI 研究者 Linus Lee 认为它们都属于 notation（符号，或记号），数学公式、分子式、乐谱都是人类用于表示不同概念的 notation。代码，或者说编程语言，「继承了自然语言书写系统的许多理想特征，例如表示不同概念的单词和用于描述语法有效表达式的语法。编程语言的主要优势在于它们可以机械地进行评估以完成一系列令人眼花缭乱的任务。」

AI 原生的编辑器最先出现在编写程序代码上有其原因：除去编程较高的经济价值和程序员群体天生对新技术的拥抱之外，程序语言自身的特点也贡献了两个重要原因：

代码的结构化性质：编程语言具有明确定义的语法和结构，与自然语言相比，更容易被人工智能模型分析和生成。
即时反馈循环：可以通过编译或执行快速验证生成的代码的正确性，从而快速改进人工智能模型。

然而，程序语言只是人类通过语言（或者是 notation）进行思考、交流和创造的一种形式。更大量使用的自然语言缺少代码那样严谨的结构性，千变万化，难以收敛。大语言模型技术出现之后，突然间为自然语言提供了一种概率表示：语言逻辑被简化成了 next token prediction 问题，虽然这可能只是一种拙劣的近似，而非真正的智能，但它作为助理（copilot）角色已经可以起到非常多的作用，比如在 Notion 等软件中，通过 AI 对文本进行润色、改写、语法检查和优化等工作已经司空见惯，而 Linus Lee 的 Notational Intelligence ^[6] 中概括了新的愿景：

就像我们可以在 Excel 中操作数值模型一样，我想象动态文档，在那里我可以在软件的帮助下扩展和延伸用散文表达的想法。我希望我的笔记能根据当前思想的上下文自我组织成主题和列表。

这一愿景暗示了一个未来，我们的文档不是静态文本，而是动态的、交互式的实体：

自我组织：编辑器能根据内容和上下文自动分类。
交互式符号：文档可能变得更像软件，能够以编程方式操作和扩展想法。
上下文感知：编辑器可以理解我们思想的上下文并相应调整。

要实现一个看起来美好而遥远的愿景，一种办法就是先降低问题的难度。比如：在自然语言的多种表达中，总有一些更加结构化，与程序语言更近似，比如论文、研究报告，通过提出观点，展开陈述，支撑论据，最终给出结论的形式进行表达。有时候，我们会觉得这样的表达形式古板枯燥，了无生趣，但它的确可能为问题空间增加了一些必要的约束，从而降低了模型处理的难度。在 Stanford NLP 实验室 2024 年 4 月份发表的论文 ^[7] 中，这个问题被归结为如何用向大语言模型提问的方式来写作一篇 Wikipedia 文章，在给定模型能力的限制条件下，人与机器的合理分工的确能产出更满意的结果，这种分工的界限或标准，往往就存在于：人类的创造性直觉和机器的结构化思维之间。

这个系统被称为 STORM，在 4 月份的版本中，它更像是一个自动写作的软件，人能参与地方并不多。Perplexity Pages 在 5 月份出现的时候，它们的相似性产生了令人不安的迷惑。我从论文作者 Yijia Shao 那里得知，她的团队即将发布新的版本，其中的一个重要方向就是加入更多的人类可控性，比如选择提出什么问题，或者引用什么来源。

我很期待这个新的版本，因为它更接近于一个思考的工具，而非一个「万能回答机」。但即便如此，我们也不难发现，它仍然与 Cursor 等代码编辑器能对代码所做的干预无法相比，也达不到 Linus Lee 所讲的那种类似 Excel 公式对数值所做的操作。

问题在于：自 Evernote 开始，直到 Notion，编辑器已经在很长一段时间都不是关于文本本身的编辑了。

透过棱镜看特征

Linus Lee 在 Prism: mapping interpretable concepts and features in a latent space of language ^[8] 一文中详细介绍了如何利用用 Sparse Autoencoder 来对 embedding 进行干预，从而能够更加精准的改变文本属性。

一段文本可能有很多种不同的特征（features），以 embedding 的形式被模型所理解。一些文本属性的例子可能是：

Legal concepts and terminology（法律概念和术语）
Self-improvement and positivity advice（自我提升和正能量建议）
Starts with the letter ‘L’（以字母 L 开头）

可以看到，这些特征可以被人类很好的理解。OpenAI 在 2023 年 5 月发表的论文 ^[9] 中采用了 GPT-4 以人类可理解的方式来解读 GPT-2 模型中的神经元（neurons）的含义并获得了初步成功。Linus Lee 进一步拓展了这项工作，并且成功的从样本 embedding 中提取了上述特征（其中一个重要的步骤是通过 normalization 剔除一些通用特征，比如「连贯、真实的英语句子」）。这样，我们就可以通过 LLM 来获得一段文本的特征，而这些特征不仅仅是人类可理解的，而且也是模型可理解的。

这相当于把文本进一步进行了解构：一些是关于文本的主题特征的，另一些则是关于风格的。无论哪一种，这些特征都是在 embedding 空间中以向量的形式存在。Lee 提出，可以通过干预这些向量来对文本进行精准的控制。

Lee 尝试了很多例子，一些例子看到了这个方向的潜力，比如对特征 Anime or Japanese game references 进行增强，就会在文本中出现日本动漫游戏的元素。但由于特征向量之间不是完全正交，可能会造成「因文害意」的情况，也就是增强某个特征会连带影响其它特征的情况，结果是原文的意思被改变了。

Lee 提出了两个目标：

最大化转向强度。我们希望在模型输出中可靠地表达我们所需的特征。
尽量减少对其他特征的干扰。我们不想意外地激活其他可能不相关的特征。换句话说，我们希望我们的编辑是精确的。

同时做到这两点很难，但这就像棱镜（Prism）对光所产生的效果：完美的分离和精准的控制。Lee 最终采用了 feature gradients 的方法来达到这样的效果。

其结果就像是为文本增加了一层 Photoshop 滤镜，并不改变内容的实质，但却改变了其外在的表现特征。

Obsidian 的 CEO Steph Ango 曾经写过一篇名为 Photoshop for Text 短文 ^[10]，其中写道：

如今，有一些基于拼写检查器的工具可以帮助您提高清晰度、语法和语气，但与正在开发的新功能相比，这些工具还很初级。文本过滤器允许您改写文本，这样您就可以轻松地在散文风格之间切换：文学、技术、新闻、法律等等。您将能够将整个故事章节从第一人称改为第三人称叙述，或将叙述描述转换为对话。

这篇文章写作于 2022 年 10 月，GPT 已经出现在科技行业的视野中，基于 LLM，这些工作已经从想象中的愿景变为可行性边界内的事项。

在这篇短文发表后 1 个多月，Linus Lee 发表了另一篇短文 ^[11]，题目为 perspective transformations on input（基于输入的透视转换），他在其中举了多个例子来说明这种「透视转换」可能产生的效果：

创作音乐时使用傅里叶变换，这样您可以先创作节奏/节拍，然后再添加音调和音色。“色彩空间优先”视频编辑器，您可以先定义调色板在故事中应如何演变，然后找到适合该调色板的剪辑来充实视频。基于“情感弧”的写作工具，让您先勾勒出故事中音调和情感的起伏，然后在您输入时转换句子以适应叙事弧。一个歌曲创作界面，让您通过先哼唱曲目的粗略起伏来“雕刻”一段诗句，然后反复细化精确的音符和节奏，在每一步都增加更多的精度。

Ango 和 Lee 所追求的答案正在逐渐浮出水面。

从特征到界面

文本编辑的界面可能发生什么样的变化？

文字编辑，或者干脆说写作，最无聊的部分往往存在于作者已经内心通晓自己要写什么，而且也有了不少可供援引的线索和资料，但却需要一些工作把它们撰写出来。撰写这个词，或许在英文中应该对应的是 compose，有时候被俗话说成是「攒」，很多时候并没有太多的技巧可言，对于熟手来说，简直是重复劳动。

这和程序员写代码中的一部分工作有类似之处，很多代码在多个工程种都会复用，只需要结合实际情况做少许修改。为了减轻这种工作的负担，节省工程师的昂贵时间，大量的开发框架被发明出来，再通过代码编辑器的自动化，最终又被 LLM 的代码生成能力简化为很少的键盘敲击。试用这些 AI 加持的 Code Editor（比如 Cursor）一段时间后，你会惊讶于为什么自动完成还没有在所有的文本编辑器中出现。

Notion 的块级（block）结构化编辑无疑是一大进步，但它其实并关心在每一个 block 中，写作者在构建什么。Notion 创始人后来表达出更接近于数据库的愿景时，就不难理解 Notion 产品将如何逐步从 block 逐步走向一个伪装在多元视图（views）之下的关系型数据库。

文本编辑的界面很大程度上就是围绕一系列稳定出现的特征而被构建起来的。

比如：粗体、斜体、字体、字号这些格式设置都可以认为是「特征」，在文本编辑器必须要兼容印刷介质的时代，这些功能一定会被广泛需要，从而被安排在界面最显著的位置上。在代码编辑器中，代码高亮、缩进则是界面最需要着重展示的「特征」，而当版本成为显著「特征」后，Git 整合也变得异常重要。

在 Notion 中，格式设置的工具栏只有在选中部分文本后才会出现，而更加无处不在的是用斜线（/）触发的 block 选择器。界面设计反映了哪些特征被认为是更重要的。在 Notion 种，文本格式退居二线，block 之下的事情，并不是 Notion 特别关心的。

Notion - slash command and block selector.png

在这个意义上，Notion 其实不算是「编辑」器。

编辑的很多工作，和 Linus Lee 提出的方法更为近似，是在 block 内部进行更深层次的文本结构化。这种方法不仅仅是对文本进行表面的组织，而是深入到文本的内在结构，对其进行精细的调控和重塑。其核心在于，它将文本视为一个复杂的特征集合，而非简单的字符串序列。通过 Sparse Autoencoder，文本被编码成一系列具有特定语义或风格特征的向量。这些向量可以被视为文本的「基因」，每一个都代表着文本的某个特定方面，如语气、情感倾向、论证结构等。

我有一个不大恰当的比喻：这种方法与中医的针灸疗法有着异曲同工之妙。就像针灸师通过刺激特定穴位来调节人体的气血运行，AI 辅助的文本编辑也是通过「刺激」embedding 空间中的特定向量来影响文本的整体表现。

我最近使用 Tiago Forte 的方法 ^[12] 创建了一条长达上千个单词的提示词，得到这条提示词的方法（暂且称为 Style Guide Prompting）大致如下：

告诉 LLM 你需要它学习你的写作风格。
然后提供 3-5 篇示例文章，写作风格最好强烈一些。
LLM 会从这些文章中提炼写作风格，比如：

3.3 Strategic Use of ColonsEmploy colons to introduce lists, explanations, or elaborations on a point.Use this punctuation to create anticipation and emphasize important information.

3.3 冒号的策略性使用使用冒号来引入列表、解释或对某一点的阐述。使用此标点符号来创造预期并强调重要信息。

或者：

10.2 Balanced OptimismMaintain a cautiously optimistic tone when discussing future developments or potential.Acknowledge both opportunities and challenges in the analysis.

10.2 平衡乐观在讨论未来发展或潜力时保持谨慎乐观的语气。在分析中承认机遇和挑战。

如上面的序号所表现出来的，这个风格指南长达十大项，数十小项，连我自己都未曾注意自己写作风格经验包含如此多的元素。然而，当你把这些要素和 Lee 从 embedding 中提炼出的 features 相比时，这些风格要素很可能又太过粗糙，并不满足「尽量减少对其他特征的干扰」的原则。

这些冗长复杂的 Style Guide Prompting 更近似于一系列「针灸」：它们看起来精准锋利，实际上只是多年经验的积累所产生的模糊正确。每一个指令都旨在刺激文本 embedding 中的特定「穴位」，可能刚好碰触到数个特定的语义或风格特征。这些指令的累积效应最终导致文本在保持整体结构的同时，在语气、风格或论证逻辑等方面发生微妙而深刻的变化。

中医和针灸饱受诟病的地方在于它是一项建立在相关性而非因果性上的手艺，这与现代医学强调科学实验与论证的方法并不相容。然而，当我们把 Sparse Autoencoder 和 Style Guide Prompting 方法与之相比的时候，却又发现惊人的相似性——毕竟今天的 LLM 很大程度上还是 next token prediction，因果性被埋藏在概率与偶然之下。

当然，我们不能否定 Sparse Autoencoder 和 Style Guide Prompting 的价值。它们和 STORM 互为补充，前者更像是在结构（structural）层面给写作者帮助，而后者则是在文本（textual）层面上成为有用的助手。后者基于 LLM 能够从文本中提取的一系列新的特征，这些特征中的一部分已经逐步稳定下来，成为很多软件界面中的常客：拼写和语法检查，改变语气，变长或变短等。Figma 最近的 AI Beta 中增加的 Adjust Tone 功能就是一个聪明的界面设计：它看起来给于使用者巨大的灵活性，但其实这种拖动界面也是一种模糊的精确，如同我们经常从中医那里听到的「拇指同身寸」（意思是以拇指指关节的横度作为 1 寸）。

在文本特征的替换修改之外，还有没有其它的可能性？

我的答案是肯定的。我认为在结构（Structural）和文本（Textual）之间，还存在一层上下文（Contextual）。它就像是人骨骼之间的关节，起到了连接、稳定、缓冲的作用。在大块的结构之间，仍然存在微妙的上下文切换和衔接，才能表达写作者的复杂含义。比如，我们时常需要转折以便抛出对立观点，再通过解析和辩论，让原有的观点显得更加清晰。

在 Cursor 这样的代码编辑器中，已经有一些类似的初级能力：代码生成模型会试图预测程序员下一步可能会写什么，这种预测在大量代码语料学习的基础上完全可能做到，很多时候准确度惊人。但对于非代码场景，发散性的文本创作，还难以达到这样的程度。

在 Voicenotes、Dot 等 AI 应用中，也通过 AI 向人类用户提问的方式来启发用户输入。

一些早期的基于 prompting 的试验会试图生成启发性的问题，激发写作者的灵感，比如下面的 prompts：

You are a creative, thoughtful and knowledgeable writing assistant. You are very good at thinking about abstract concepts, identifying subtle connections between things and providing supporting facts. Please read the following texts three times.

{text ... }

Now inspire me with 3 short, thought-provoking, inspiring questions which will guide me with what to write after.

你可以自己用 GPT-4o / Claude 3.5 Sonnet 或其它先进的 LLM 来测试它（注意把 {text ... } 替换成真实的文本），看看是否能起到启发灵感的作用。在我的经验看来，它很少能给我真正有用的提示。灵感需要更发散，但 LLM 却只能给出一些意料之内的提示。这可能是自然语言的文本创作比程序语言编码难度高出很多的地方。

然而，值得想象的是：一旦模型能够提供合适的灵感，那么文本编辑界面又将出现一些新的变化，更多的辅助提示将出现在编辑界面中——我们一定不希望它们是牵强附会的打扰，而是真的给我们一些意外惊喜。

结语

我们偶然发现，在过去十多年的时间里，文本编辑的界面走上了一条弯路：无论是云同步还是数据库，它们都假设文本编辑本身已经乏善可陈，而更多是在文本之上做文章（反倒是因为中文输入的复杂性，输入法反倒做了不少真正的文本编辑的事情）。

本文用这么啰嗦的篇幅，无非是想证明：文本编辑的界面的机会已经出现了，LLM 已经揭开了文本表面、符号之下的微观特征结构，甚至于有机会在上下文关联上帮助作者产生新的联想。即便是想法最丰富的头脑，也可能会因为表达手段的匮乏而难以获得闪光的机会。

没有表达，就难以产生连接。LLM 可能创造一种新的机会，推动文本编辑器的界面发生一次新的跳跃。Cursor 和 STORM 已经揭开了这次变化的开端，但最终它将被应用在更广泛的用途上，而不仅仅是为了编辑代码和创作维基百科文章。

文本是很多表达的基础。科幻作家 Ted Chiang 曾经写道：

Writing was not just a way to record what someone said; it could help you decide what you would say before you said it. And words were not just the pieces of speaking; they were the pieces of thinking. When you wrote them down, you could grasp your thoughts like bricks in your hands and push them into different arrangements. Writing let you look at your thoughts in a way you couldn’t if you were just talking, and having seen them, you could improve them, make them stronger and more elaborate.

写作不仅仅是一种记录某人所说的话的方式；它可以帮助你在说话之前决定要说什么。而且文字不仅仅是说话的片段；它们是思考的片段。当你把它们写下来时，你可以像砖头一样抓住你的想法，并将它们推入不同的排列。写作让你以一种你只是说话时无法想象的方式看待你的想法，看到它们之后，你可以改进它们，使它们更强大、更精致。

这也解释了为什么文本编辑界面尤为重要：它要求写作者更深思熟虑，也更有可能在反复斟酌中创造出更高级、深刻的表达，从而为其它形式的创作打造基础。

References

Reads

Every's Master Plan

Every 的创始人 Dan Shipper 在此分享了 Every 的未来计划。分享这篇文章的原因是因为其中有很多段文字准确的击中了我：

Though I’d been right early in previous booms, I felt like I’d always been too cautious. I was half-in and half-out. I’m usually a on-the-one-hand-but-on-the-other-hand guy.

I keep a short document of principles I try to live by, and in 2020 I’d written this:

“You've been right about big swings in technology before - the shift to mobile, Notion's adoption, Roam, etc. Pay attention to those intuitions and follow them.”

So when AI started to excite me, I decided to go all in and write exclusively about it for Every. This focus has paid major dividends both for me and the company.

虽然我在之前的繁荣时期早期就预测正确，但我觉得自己一直过于谨慎。我半进半出。我通常是一个纠结的人。

我保留了一份简短的记录，记录了我努力遵循的原则，2020 年我写下了这些：“你之前对技术的重大变化的预测是正确的——向移动设备的转变、Notion 的采用、Roam 等。注意这些直觉并遵循它们。”

所以当人工智能开始让我兴奋时，我决定全力以赴，专门为 Every 撰写有关它的文章。这种专注为我和公司带来了巨大的回报。

Given the above, you might be surprised to learn that until about a year ago I didn’t primarily think of myself as a writer. I thought of myself as a founder who liked to write. About a year ago, I decided to flip that: I started to think of myself as a writer who also builds things.

鉴于上述情况，你可能会惊讶地发现，直到大约一年前，我还没有把自己主要视为作家。我认为自己是一位喜欢写作的创始人。大约一年前，我决定改变这种想法：我开始把自己视为一位作家，同时也是一位创造者。

This was hard for me to admit. For a long time, my identity as a founder had crowded out that as a writer. Writing felt too luxurious, maybe a little shameful, and definitely not as respectable or remunerative as founding a company.

我很难承认这一点。很长一段时间以来，我作为创始人的身份已经挤掉了我作为作家的身份。写作感觉太奢侈了，甚至有点丢脸，而且绝对不像创办一家公司那么受人尊敬或有回报。

There’s a tremendous friction that arises when you don’t allow yourself to do what you really want to do with your life. You make a lot of halfway decisions to negotiate your competing priorities: what you want, and what you want to want.

当你不允许自己做你真正想做的事时，就会产生巨大的摩擦。你会做出很多半途而废的决定来协调你相互冲突的优先事项：你的欲求，以及你想要的欲求。

我们时常会对自己预判到了趋势而后悔，因为预判没有转变为进一步的行动。这时候，空想会滋长出一种耻辱感，因为社会一直在告诉我们：只有实干者才能获得成功。

Dan Shipper 的这些个人反思告诉我们，空想和实干之间的界限其实只是一张窗户纸，我们只是被一些陈词滥调吓到了，显而易见的事项被束之高阁，而又假装自己想要一些东西——这些东西往往是外部世界强加给你的（出于模仿心态），反而迷失于自己真正想要的东西。

The Objects of Our Life

本文是 Steve Jobs 的演讲。摘录一段推荐语，与 Jobs 的 Putting Something Back 思想相关：

Perhaps the most revealing moment in the Q&A comes when Steve is asked about Apple’s low rate of employee turnover. He starts to answer by talking about the wide distribution of stock options, then swerves to describe what he thinks really underpins people’s commitment to their work. “We feel that for some crazy reason we’re in the right place at the right time to put something back,” he says, pausing to collect his thoughts. “Most of us didn’t make the clothes we’re wearing, and we didn’t cook or grow the food that we eat, and we’re speaking a language that was developed by other people; we use mathematics that was developed by other people.” He is emphasizing every word. “We are constantly taking–and the ability to put something back into that pool of human experiences is extremely neat.” This desire to “put something back” would drive his work throughout his life.

问答环节中，最有启发性的时刻或许是史蒂夫被问及苹果员工流动率低的原因。他开始回答，谈到股票期权的广泛分配，然后转而描述他认为人们真正致力于工作的真正原因。“我们觉得，出于某种疯狂的原因，我们在正确的时间、正确的地点回报社会，”他停顿了一下，整理了一下思绪。“我们大多数人没有制作我们穿的衣服，我们没有烹饪或种植我们吃的食物，我们说的是别人开发的语言；我们使用的数学也是别人开发的。”他强调了每一个字。“我们不断地获取——能够将一些东西回馈给人类经验库，这真是太棒了。”这种“回馈社会”的愿望将贯穿他的一生。

上周与前同事聊天的时候，他反复提及「利他」这个动机作为他本轮创业的一个目的。这个词汇过去很少的出现在我的动机描述中，但听他讲过之后，我立刻感觉到这个动机实际上是把「我想要」转变为「大家都想要」的关键。所谓产品经理的「同理心」，只要从「利他」的角度想，就变得简单起来。

Asks

本周的几个问题是：

你的电脑和手机上，如果按照屏幕使用时长排序的话，Top 5 的应用分别是什么？哪些可能会占有更大的 token share？你身边的朋友和家人是否有类似的趋势？
编辑器和浏览器之外，还有什么大的界面机会？
在写作过程中，你觉得最难的地方是什么？会用什么方法来突破？
你在做的事情如何利他？

回复邮件来参与这些问题的讨论。我会挑选部分回复在以后的邮件中分享。

← Back to Newsletter Archive

界面的机会

Memo

Token Share 与界面

编辑器的演变

纯文本时代：Vim、Emacs 和记事本（20 世纪 70 年代 - 90 年代）

Office 时代：Microsoft Word（20 世纪 80 年代 - 21 世纪初）

云同步时代：Evernote / Google Docs（2010s）

协作工作空间：Notion（21 世纪 10 年代中期 - 至今）

AI 原生时代：Cursor 和 Perplexity Pages？（21 世纪 20 年代初 - 至今）

透过棱镜看特征

从特征到界面

结语

References

Reads

Every's Master Plan

The Objects of Our Life

Asks