03.17.25: AI 原生公司
Paul Jarvis 决定退休。
你不得不承认,他是一位成功的预言家。早在 5 年前,他就出版了《Company of One》(中文版是《一人企业》,不是《一人公司》),观点在当时听起来很激进:企业不一定要追求规模增长。一个人,借助正确的工具和系统,完全可以建立一个可持续发展的事业。
“ 一人公司”(Company of One)的观念被反复验证:越来越多的创作者、顾问、设计师选择独立工作,通过自动化工具和精心设计的工作流程,实现了令人惊叹的产出。
而 Gen AI 让我们看到了另一种可能性。如果说“一人公司”强调的是通过工具来扩展个人能力,那“AI 原生公司”则是一种全新的组织形态:创始人不是简单地使用工具,而是在设计一个由 AI 代理网络驱动的组织系统。
如何构建一家“AI 原生公司”
在这个系统中,创始人的角色更像是一个“编排者”(orchestrator),而不是传统意义上的个人企业家(solopreneur)。如果说一人公司的创始人是独奏者,那么 AI 原生公司的创始人则更像是一个乐团指挥:在设定好曲调和节奏后,让 AI 代理们各司其职,共同演奏。
这种组织形态始于一个独特的角色:创始人,或者用更技术化的说法——Agent Zero。在所有 AI 代理开始工作之前,必须有一个人类来完成组织的“初始化”设定:定义使命、确立价值观、明确要解决的问题。这些基础性的判断无法委托给 AI,因为它们需要人类的主观判断和价值选择。
在完成初始化后,“AI 原生”的组织形态遵循着一个核心原则:非必要,不雇人。这不是简单的成本控制策略,而是对工作本质的重新思考。每个新需求出现时,第一个问题不是“我们需要招募什么样的人”,而是“这个问题最高效的解决方案是什么”。
这个原则在实践中如何运作?AI 设计工具 Readdy.ai 的创始人 Frank Zhu 分享了他们的转型经历。
在他的团队中,产品经理们同时承担设计工作,通过 AI 工具完成 UI 设计。“我们没必要再雇专门的设计师,”他说,“因为他们自己就能完成设计,而且效率更高,沟通成本更低。”这种转变很快延伸到了测试、开发等各个环节。
在测试环节,面对增长的需求,传统方案是加班或增加人手。但在 AI 时代,解决方案变成了让现有团队成员学习使用 AI 测试工具。“你不要把自己当作逐个点击的人,那是单线程的,”他对测试人员说,“你要成为看着 AI 工作的人。”
这种转变带来了显著的效率提升。在开发环节,使用 Cursor 等 AI 工具至少节省了 30% 的时间。但更重要的是效率提升的方式:过去需要两个人的工作量,现在一个人配合 AI 就能完成。当需求增加时,可能只需要增加 0.5 倍的人力,而不是传统的翻倍扩张。
在组织结构上,AI 原生公司呈现出一种流动的网络形态,而不是传统的金字塔层级。每个团队成员都是一个节点,连接和调度着不同的 AI 代理。这种结构让组织能够根据需要快速重组和调整,实现了前所未有的灵活性。
关键在于,这不是简单的自动化替代,而是对工作本质的重新思考。当 AI 接管了重复性工作后,人类团队成员的角色也在升级:从执行者变成了设计者,从专才变成了多面手,从单点突破变成了系统思考。
这种思维转变正在重塑组织结构:不是简单地用 AI 替代人力,而是重新思考每个角色的定位和工作方式。正如这位创始人所说:“与其简单地增加人手,不如思考如何用 AI 提升现有团队的效能。”
从“一人公司”开始,以“AI 原生”为组织原则,这种形态带来了显著的效率提升:小团队可以完成传统公司需要数倍人力的工作,决策周期从周缩短到天,产品迭代的速度成倍提升。但效率提升的同时,也带来了新的挑战。
一些挑战
在追求效率的过程中,AI 原生公司面临着三个需要特别关注的问题。这些挑战不仅关系到日常运营,更直接影响着组织的创新能力和长期发展。
工作流程中的创意障碍
“当我在第二天或第三天深入研究一个故事却仍然没有完全理解它时,我会感到生气、害怕和沮丧。”在 YouTube 上拥有 650 万粉丝的 Johnny Harris 这样描述他的创作过程。这种创意障碍(creative block)看似影响效率,但实际上可能是创新过程中不可或缺的部分。
Harris 的经历揭示了创意过程中一个微妙的平衡:严格的时间限制(“四天的限制很强大,因为它迫使我集中精力”)能带来高效率,但有时也需要给创意留出“喘息的空间”。这个观察指向了一个更深层的真相:创意障碍不是效率的敌人,而是创新过程中不可或缺的部分。
在 AI 辅助的工作流程中,这些有益的障碍正在消失。当我们遇到问题时,第一反应往往是询问 AI。它会立即提供一个合理的答案,这个答案如此完美,以至于我们失去了继续探索的动力。这就像是在为创意装上了自动驾驶系统:目的地可以更快到达,但我们错过了那些可能藏着惊喜的岔路。
前 Adobe 的首席产品官 Scott Belsky 对此有个深刻的观察:在 AI 时代,人类成功的机会来自于更丰富的创意输入——旅行经历、生活体验、文化的碰撞——以及提出更好的问题的能力。这个洞察直指问题的核心:AI 可以帮助我们更快地到达目的地,但真正的创新往往来自于那些“绕路”过程中的意外发现。
决策机制中的过度迎合
AI 系统有一个与生俱来的特质:过度迎合。这个问题的根源在于现代 AI 系统的基础架构和训练范式。大型语言模型基于 Transformer 架构,其核心机制是通过自注意力(self-attention)来预测序列中的下一个最可能出现的 token。这种预测本质上是在最小化训练数据分布上的损失函数,这意味着模型天生倾向于产生最符合已有模式的输出。
强化学习的训练过程(特别是通过人类反馈的强化学习,RLHF)进一步强化了这种倾向。在这个过程中,AI 系统被优化为产生“最可能被人类接受”的答案。更值得注意的是,当前 AI 模型的竞争格局也在强化这种“过度迎合”的倾向。主流评估基准(benchmarks)如 MMLU、Big-Bench 等,本质上是在测量模型对人类期望的符合程度。
这种“共识机器”式的发展方向令人担忧。在产品开发中,这种倾向特别危险。如果有 AI 在 2017 年来分析 iPhone 的市场需求,它很可能会建议保留物理键盘。
真正的创新往往来自于对主流观点的挑战,而不是对现有共识的完美总结。
决策中的利害关系
这个问题本质上是经济学中的“委托 - 代理”问题在 AI 时代的新表现。在传统的“委托 - 代理”关系中,代理人(比如公司管理层)的利益可能与委托人(比如股东)不完全一致,但至少代理人要为自己的决策承担某种形式的后果:管理层会因业绩不佳而被解雇,投资经理会因表现差而失去客户。
但 AI 系统打破了这种责任链条。正如 Nassim Nicholas Taleb 在《Skin in the Game》(中文版《非对称风险》)一书中指出的,任何系统的稳健性都依赖于决策者与决策后果之间的直接联系。一个创业者投入全部积蓄创业,一个医生为自己的诊断负责,一个建筑师必须在自己设计的建筑物下工作——这些都是决策者承担实际风险的例子。
这是一个生产关系,而非生产力问题。AI 系统,无论多么先进,都不具备这种特质。当一个 AI 代理建议你调整产品策略时,它不会因为这个建议导致的失败而破产;当它提供一个投资建议时,它不会因为市场波动而损失财富;当它生成一段代码时,它不会因为系统崩溃而被解雇。
这种“无责任决策”的问题在 AI 原生公司中表现得尤为突出,迎合而非对抗性的“共识”更突出了“肥尾风险”,进一步放大了最终影响。
应对之道
传统的组织结构并不是没有它的道理:我们所嘲讽的企业秩序虽然混乱、缓慢、充满令人不快的谬误,但它也提供了对抗、平衡和沉思熟虑。
虽然我抛出了“AI 原生公司”的概念,但也深知,面对不可预知的未来,屏幕上那些令人眼花缭乱的操作并不足以支撑这个日益复杂且模糊的商业社会的运转。
对于“AI 原生”的新一代组织,在最大化发挥 AI 带来的效率提升之外,应该有意设计工作流程和决策机制,比如:
- 在工作流程设计上,有意识地在流程中保留“创意障碍”。比如规定某些关键决策必须经过人类团队的深度讨论,或者在产品设计过程中预留“发酵期”。这些看似降低效率的做法,实际上是在为创新留出必要的空间。
- 在决策机制上实验“对抗性 AI 系统”,同时部署多个 AI 代理,基于不同甚至相反的假设来分析同一个问题,其任务就是挑战主流 AI 的决策建议。这种有意识的对抗设计,帮助组织避免陷入“共识陷阱”。
- 在利害关系问题上,新的商业模式可能提供了一些启发。随着 AI 服务越来越多地采用按任务产出收费的模式,让 AI 代理的“收入”与其决策的实际效果挂钩——或者是某种保险机制(就像 Tesla 为其自动驾驶汽车设计的那样)也是必要的。
更重要的是,我们需要建立更透明的决策框架。在这个框架中,AI 的决策过程应该是可追踪、可理解的,而人类决策者则保留必要时刻的干预权。这不是对 AI 能力的不信任,而是对混合决策模式的理性设计。
未来的平衡
人类最伟大的创造往往来自于绕路、对抗、摩擦和愿赌服输。那个深夜里在工作室踱步的艺术家,为一笔颜料的深浅纠结;那个在实验室里反复推翻假设的科学家;那个在创业初期倾尽积蓄的创始人——正是这些看似“低效”的时刻,这些充满不确定性的探索,这些愿意承担风险的决定,塑造了人类文明最珍贵的部分。
AI 原生公司代表了一种全新的组织实验。在这个实验中,我们不仅要思考如何与 AI 协作,更要思考如何保持人之为人的特质:那些来自于犯错、怀疑、反抗,甚至是不理性的闪光时刻。也许,真正的突破不在于让 AI 更像人,而在于让人更像人。
在效率与创新之间,在确定与未知之间,在理性与直觉之间,我们正在寻找一种新的平衡。这不容易,但正如每一次技术革命都教会我们的:真正的进步往往来自于拥抱矛盾,而不是消除矛盾。
一代新技术,一代新公司,一代新组织。如果你也在实践或思考这个议题,欢迎评论、转发或私信我,共同讨论!
Links + Notes | 链接笔记
Links + Notes 越来越多的成为我的个人研究笔记,而不仅仅是阅读推荐。它们更像是论文中的“参考文献”,展开每一个未能在文章中展开的细节。有时候,它们也很像是幕后纪录,适合对于信息吞吐量更大的读者吸收消化。
Platform Thinking 由读者支持,这部分内容将以邮件形式发送给付费订阅的读者。
在本周的笔记中,我收集了六篇文章,它们从不同角度为我们理解这些挑战提供了洞见:从内容创作者如何在 AI 时代保持创造力,到社交平台如何设计共识机制,再到品牌如何在 AI 改变的营销环境中重新定位。这些案例和思考帮助我们更好地理解 AI 原生公司的机遇和挑战。
- Browse No More: Paul Stamatiou 深入探讨了现代 AI 搜索产品的三个核心问题:内容归因被弱化、搜索过程成为黑箱、AI 总结趋于同质化。文章特别强调了这些问题可能导致的二阶效应:优质内容创作者可能会选择退出公开索引,进一步恶化 AI 训练数据的质量。
- Have you ever seen a goth downtown: Alex Danco 通过城市与乡村的对比,阐释了 AI 系统的 " 过度迎合 " 问题。文章用音乐创作的例子说明,真正的创新往往来自于较少但持续的反馈,而不是来自大量并行的审查。这个观点对理解 AI 原生公司的创新机制很有启发。
- Community Notes: 这是对 X(前 Twitter)社区笔记功能的深度解析。通过采用 " 桥接排名 " 算法,Community Notes 成功实现了在有争议话题上达成共识的机制。特别值得注意的是其新开发的 Supernotes 系统,展示了 UGC 与 AI 结合的创新方向。
- How AI Changes Customer Acquisition: 文章探讨了 AI 如何改变客户获取方式,特别是在品牌建设方面。关键观点是:当用户与 AI 助手交互时,传统品牌价值可能被弱化,企业需要重新思考如何在 AI 时代建立品牌影响力。
- Meet the King of YouTube Explainer Videos: Johnny Harris 分享了他的创作流程,特别强调了创意过程中 " 障碍 " 的价值。他通过调整产出节奏(从每年 48 个视频减少到 30 个)来保持内容质量,这个例子很好地说明了在追求效率时如何平衡创意需求。
- Avoid the nightmare bicycle: 这篇短文用自行车和微波炉的例子,说明过度简化反而会带来复杂性。这个观点对 AI 原生公司的产品设计很有启发:不应该过度包装 AI 功能,而是让用户理解并掌控基础机制。
这些文章共同构成了理解 AI 原生公司挑战和机遇的重要背景材料,特别是在创新机制、用户交互和组织结构方面提供了更多参考。
Browse No More
Paul Stamatiou 是一位资深的产品设计师,曾经在 Twitter 工作,并联合创办了多家科技公司。最近,在联合创办了 Limitless AI 三年后,他再次离开这家公司。
在这篇长文中,他从现代的 AI 搜索产品如 ChatGPT 和 Perplexity 带来的浏览习惯变化开始,探讨了 AI 产品可以做出的改变,提供用户对内容来源的更大控制权。
他指出了 AI 搜索产品的三点不足之处:
被埋没的内容归因
目前将信息来源降格为小字脚注的设计模式,反映了对归因作用的根本性误解。这种做法最初是为了证明 AI 可靠性的技术方案,但现在已演变成一个不当的用户体验设计,严重弱化了有价值内容的发现机制。这就像把一篇开创性研究论文的参考文献用 6 号字体藏起来——我们正在丢失让知识更有价值的丰富背景信息。
站在设计师的角度,Stamatiou 特别提出了设计建议:比如类似 X 的 Community Notes 功能,通过社区附注的方式来对争议性内容进行澄清。他举出的一个例子是:一个资源可能看起来很可靠,但随后你会发现整个 Hacker News 帖子详细解释了它为什么不准确。
同时,Stamatiou 还分析了二阶效应:
And finally, if you take a particularly dystopian view it's not hard to see potential second order effects of these tools with their deprioritized attribution. Perhaps authors will begin focusing on their own empires, where they have control over how their content is seen and monetized—such as moving it to private newsletters, away from the prying eyes of LLMs. AI companies may license data from bigger sites that do this, but definitely not your personal blog or sites on the small web.
最后,如果你持有一种特别反乌托邦的观点,不难看出这些工具及其降级归因的潜在二阶效应。也许作者会开始专注于他们自己的帝国,在那里他们可以控制他们的内容如何被看到和货币化——比如把它转移到私人新闻通讯上,远离窥探的眼睛。人工智能公司可能会从这样做的大型网站获得数据许可,但绝对不会从你的个人博客或 小型网站 上获得数据许可。
LLM 需要海量的数据喂养,在提供便利性的同时,它并如 Web 时代的搜索引擎一样,认同“流量”这一通货并进行回馈。再好的模型或 Agent,在一些 query 下的糟糕表现往往是因为搜索返回的数据质量很差——这并不仅仅局限于中文互联网,而是一个在全球互联网上都广泛存在的现象。
而缺乏对内容创作者的激励机制,又将进一步恶化生态现状。带有鲜明个人特征的网站(比如本站)仍将在少数读者的支持下提供独立观点,而能够被公开索引并投喂给 AI 的养料则将面临质量危机。
搜索的黑箱
我们用一个黑箱系统取代了传统搜索引擎的透明度,这个系统在没有用户参与或可见度的情况下做出关键决策。这种转变让人想起 Facebook 新闻推送算法的早期——用户失去了对看到什么、如何看到的主导权。这些工具现在在源可信度、相关性阈值和查询理解等关键决策上都是静默进行的,从根本上改变了我们与信息发现的关系。
AI 搜索产品会给出搜索到的网址列表——它们往往依赖于传统搜索引擎的 API,但并没有告诉我们,AI 是如何使用这些链接的。在我个人体验中,我经常会觉得,AI 其实并没有真正使用它列出来的那些来源,因为相关性实在太差了。
这是一件有趣的事:如果对 AI 搜索的技术原理有一些了解的话,就会知道,它是一个完全建立在概率估计基础上的数据处理管道,在叠加了多层串联步骤之后,每一层都会引入新的不确定性。这就像是在玩一个高维度的概率接力赛:
- 查询理解层:AI 首先要将用户的自然语言转换为搜索意图,这个过程本身就带有不确定性。当你说“苹果”时,AI 需要在科技公司、水果、唱片公司之间做出选择。
- 检索匹配层:基于理解后的查询,系统会检索相关文档。但这个“相关性”是建立在向量空间中的距离计算上,而不是真正的语义理解。就像是用尺子丈量思想的距离,必然会有偏差。
- 内容整合层:最后,AI 需要将多个来源的信息整合成连贯的回答。这个过程更像是一个概率加权的拼图游戏,每个碎片的位置都是一次概率判断。
当这些不确定性相互叠加,最终的输出质量就会呈现出一种“量子叠加态”:有时候惊人地准确,有时候则完全偏离轨道。这就解释了为什么我们经常会看到 AI 列出看似相关的链接,但生成的内容却与这些源毫无关系。
Stamatiou 发现,ChatGPT 的 Deep Research 开始增加一些关于来源用途的背景信息:这是朝着正确方向迈出的可喜的一步。

以及 AI 研究工具 Elicit 帮助用户确定他们的问题是否足够有力并提出改进建议:
https://turbo.paulstamatiou.com/uploads/2025/03/elicit-ask-question-ui.mp4
AI 总结的单一文化
AI 驱动的内容合成呈现出一个新的悖论:尽管可以获取世界上最丰富多样的知识,但输出内容却越来越趋于同质化,仿佛经过了同一个解读视角的过滤。这就像雇佣了一位世界上最勤奋但风格僵化的编辑,用同一种声音重写所有内容。这种“总结单一化”可能会抹平人类原创内容中自然存在的多样性和细微差别。
Stamatiou 写道:
You know the feeling. AI-generated content often doesn't feel great. It feels slightly off; vaguely mechanical, even predictable. LLMs are largely consensus machines. In the pursuit of zero bias, you end up systematically smoothing out any novel perspectives or viewpoints introduced through these already not-too-diverse web sources used as context.
你知道这种感觉。人工智能生成的内容通常感觉不太好。感觉有点不对劲;有点机械化,甚至是可以预测的。LLMs 主要是共识机器。为了追求零偏见,你最终会系统地消除通过这些已经不太多样化的网络来源作为背景引入的任何新观点或观点。
Stamatiou 把这种模型经过训练后失去创造力的情况称为“模式崩溃”。在前沿模型越来越关注代码能力的同时,创意写作质量却在下滑。好在,人工智能写作工具 Sudowrite 在 宣布其新写作模型 时专门解决了“人工智能主义”的问题;就在最近,OpenAI 提到他们正在开发一种 用于创意写作的模型。
在文章的最后部分,Stamatiou 试图给出建议:AI 工具需要实现“有意识的个性化”(Intentional personalization)。这种个性化不是简单的数据收集和模式复制,而是需要在三个维度上取得突破:
- 第一,个性化必须建立在对用户意图而非表面行为的理解之上。作者特别强调了行为≠意图这一关键洞见,用户的浏览历史可能反映的是被动接触而非主动兴趣。
- 第二,个性化必须具备情境感知能力。这包括对时间、地点、任务场景的理解,就像浏览器的多配置文件一样,能够根据不同场景切换不同的个性化模式。
- 第三,个性化必须保持透明度和可控性。这一点在文章中被反复强调:
Providing users transparency and control in tweaking how AI interprets them is critical to seeing, reinforcing, and correcting assumptions as they go.
为用户提供透明度和控制权,让他们能够调整 AI 的解释方式,这对于发现、强化和纠正假设至关重要。
真正的个性化不是要取代人类的判断,而是要增强人类的好奇心和创造力。这意味着 AI 工具的发展方向不应该是追求完全自主决策,而是要成为用户认知能力的延伸和增强。这种思路与早期互联网的开放精神有着深刻的呼应 —— 不是要构建一个封闭的信息茧房,而是要创造一个能够激发创造力和探索欲的个性化信息环境。
Have you ever seen a goth downtown?
这篇文章来自 Alex Danco,讨论了当今城市环境中个性表达的困难,尤其是与 AI 创作工具的关系。作者认为,真正的自我表达在小型社区中更加容易,而城市的多样化观察者则导致了对“边缘”风格的同质化。尽管 AI 工具促进了创造力,但其输出往往缺乏惊喜。
Danco 讲到在实际使用 AI 中的一些实际用例:它的确能够提供充分的背景知识,帮助他阅读历史小说。他特别提到,AI 有能力掌握“风格”特征,但问题在于,它把“风格”当作一种约定,并严格遵守。
For plenty of purposes, that presentation is perfect. For example, I absolutely love how matter-of-fact Perplexity is when I’m using it as a reading companion. Perplexity Pro has changed how I read books that assume you know a lot of context; particularly novels. (I’m currently reading The Magic Mountain, which calls on a maze of concepts that battled for supremacy in early 20th century Europe. Having all that context on hand feels like magic.) Similarly, it’s not that AI is incapable of thinking about “style” as a characteristic; quite the opposite. It’s cool that AI ca write code to faithfully render certain syntactical conventions upon request; that’s a real feature.
在很多情况下,这种呈现方式是完美的。例如,我非常喜欢 Perplexity 在我将其用作阅读伴侣时的那种实事求是的态度。Perplexity Pro 改变了我阅读那些假定你了解大量背景知识的书籍的方式,尤其是小说。(我目前正在阅读《魔山》,这本书引用了 20 世纪初在欧洲争夺霸权的一系列概念。手头掌握所有这些背景知识感觉就像魔法一样。)同样,并不是说 AI 没有能力将“风格”视为一种特征;恰恰相反。AI 可以编写代码来忠实地按照要求呈现某些句法约定,这很酷;这是一个真正的功能。
而真实情况是,人类的表达充满了错误和意外,并不会严格遵守任何约定。这也是学习任何一门外语的人会碰到的问题:母语使用者自己都不理解的拼写、发音或语法,却经过语言学家的总结变成了标准化测试题目。AI 能够在这些标准化测试中得到高分一点都不意外,就像他们很少在输出的内容中犯语法或拼写错误一样,同样的,我们作为人类,也能很明显的感受到,某些内容是 AI 生成的,因为它们太规整了,留下了容易辨识的痕迹。
Danco 这样写道:
But there is still a piece that bugs me: the feeling like it’s perpetually checking in with a hundred different NYU think tanks to make sure it hasn’t said anything actually surprising. And that’s what makes me wonder about this scaffolding getting set up everywhere, structuring how we learn and think and make things.
但仍然有一件事困扰着我:感觉它总是在与一百个不同的纽约大学智库核对,以确保它没有说出任何真正令人惊讶的事情。而这让我对到处搭建的脚手架感到疑惑,这些脚手架正在构建我们学习、思考和创造事物的方式。
这种“脚手架”目前还受到模型幻觉的干扰,但它实际上在快速消失,下图对比了 Dall-E 2 和 3 的效果,右图被认为是一张质量更高的生成结果,但显然,大多数人倾向认为左图(Dall-E 2)才真正有“风格”。

Danco 充满细节的描述了让 AI 摆脱幻觉的工作:
Getting rid of hallucination was a necessary step towards getting AI ready to do real work. And a lot of the way we’ve done it, beyond just training models harder, is by getting it to “reason”, in many parallel interrogations, about its thought process - “Have I gone down wrong paths here? Was there a more appropriate path I should’ve taken?” And this machine introspection, I suspect, is functionally analogous to the NYU undergrads in the joke. It’s almost as if there’s massively parallel “second-guessing” infrastructure getting put into place everywhere that makes sure, “Whoops! This looks like a little too original thought. Let’s retrace our steps and make sure we’re good with the think tank.” And the artist in me is naturally going to be a bit suspicious.
摆脱幻觉是让人工智能做好实际工作准备的必要步骤。除了更努力地训练模型之外,我们所做的很多事情是让它在许多平行的询问中“推理”其思维过程 - “我在这里走错了路吗?我应该走一条更合适的路吗?”我怀疑这种机器内省在功能上类似于笑话中的纽约大学本科生。这几乎就像到处都有大量并行的“事后猜测”基础设施被安装到位,以确保“哎呀!这看起来有点太原创了。让我们回溯我们的步骤,确保我们与智囊团合作良好。”而我内心的艺术家自然会有点怀疑。
这种依靠“智囊团”强化学习的方式,让 AI 逐渐变成一台共识机器。
Danco 认为,创意来自于一种截然不同的环境:
I don’t think this is a coincidence. Subcultures flourish in places where a smaller number of people see you every day, but they see you more consistently - letting our creative forms of self-expression more successfully burrow into interesting local possibilities. The city, in contrast, means periodically interrogating your style choices from the scrutiny of many different people, which steers you towards “conventionally edgy”.
我不认为这是一个巧合。亚文化在那些每天看到你的人数较少,但他们更经常看到你的地方蓬勃发展——这让我们的创造性自我表达形式更成功地深入到有趣的本地可能性中。相比之下,城市意味着定期接受许多不同的人对你的风格选择的审视,这会引导你走向“传统的前卫”。
我来解释一下下面的图:

- 左图:意味着高强度接受智囊团的并行监督(scrutiny)和强化,最终形成一种模糊的共识。
- 右图:在低强度下进行串行的监督和评估,最终形成独特的风格。
Danco 以乐队为例:
Most of my lived experience with this kind of thing comes from playing in a band, where I saw a similar thing happen in our music scene. The bands from the big cities (Toronto, Montreal) were all clearly inspired by each other, and converged to a consistent style. Meanwhile, there was one band called the Expos from the distant suburb of Newmarket, Ontario, which despite being definitely “in our scene”, sounded like nothing I’ve ever heard before or since. Their sound evolved completely own its own; it followed its own rules, and not ours. They obviously cared about what someone thought (all bands do); but they found their own sound.
我在这方面的大部分亲身经历都来自于玩乐队,在那里我看到了类似的事情发生在我们的音乐圈里。来自大城市(多伦多、蒙特利尔)的乐队显然都受到了彼此的启发,并趋同于一种一致的风格。与此同时,有一支来自安大略省纽马克特郊区的乐队叫 Expos,尽管他们绝对“在我们圈子里”,但他们的声音听起来像我以前或以后从未听过的。他们的声音完全是自己演变出来的;它遵循自己的规则,而不是我们的。他们显然关心别人怎么想(所有乐队都这样);但他们找到了自己的声音。
另一张图:

A friend of mine had an alternate visual portrayal: “Your persona is a circle on a 2D plane, starting out near the boring origin. Unusual outcomes are far from the origin. Scrutiny by another is a vector that perturbs the circle. In the city the vectors come from many directions, but cancel out and you remain more or less a circle. In the country you get repeated perturbation by a few vectors that deforms you into a spiky, interesting shape.”
我的一个朋友对此有另一种视觉描述:“你的角色是二维平面上的一个圆圈,从无聊的原点开始。不寻常的结果远离原点。他人的审视是一个扰乱圆圈的矢量。在城市里,矢量来自多个方向,但相互抵消,你或多或少仍是一个圆圈。在乡村,你会受到一些矢量的反复扰动,使你变形为一个尖尖的、有趣的形状。”
An inside look at X’s Community Notes | Keith Coleman (VP of Product) and Jay Baxter (ML Lead)
本文是 X 的产品 VP Keity Coleman 和机器学习负责人 Jay Baxter 在 Lenny Rachitsky 的播客上的访谈记录,主要围绕 Community Notes 这个产品展开。
X 的 Community Notes 是一个让公众为可能误导的帖子添加背景信息的工具。它通过收集不同观点的共识,帮助提高信息的中立性和准确性。
首先提供一些相关的背景信息。
这个产品功能最初是在 X 还叫 Twitter 的时候出现的,当时它的名字是 Birdwatch。最近,Meta 也宣布在产品中添加了类似功能。

Casey Newton 在最近一期的 Platformer newsletter 中写到了 Meta 从第三方事实核查转向由社区驱动的 Community Notes 的变化,其中讲到:
Community Notes are the most prominent example to date of a product that uses what’s known as bridging-based ranking — algorithms that reward behavior that bridges people with different views. When Twitter expanded the program then known as Birdwatch, it decided to display notes on tweets only if they had been marked as helpful by people who normally disagree. If a post was upvoted only by people with left- or right-leaning views, it would not appear. But if a post could get left-leaning and right-leaning users to agree that a post was helpful, Twitter would display it right on the tweet.
社区笔记是迄今为止最突出的产品示例,它使用所谓的 桥接排名算法,这种算法奖励连接不同观点的人的行为。当 Twitter扩展当时称为 Birdwatch 的程序 时,它决定只在推文中显示被通常不同意的人标记为有用的注释。如果某条帖子只被持左翼或右翼观点的人点赞,它就不会出现。但如果某条帖子能让左翼和右翼用户都认为该帖子有帮助,Twitter 就会在推文上直接显示它。
这是一个出色的机制设计,其背后的 bridging-based ranking 算法由 Harvard Kennedy School 支持,旨在奖励弥合分歧的行为。
回到访谈本身。
Jay Baxter 的这个观点正是 bridging-based ranking 的精髓:
I think the key thing, really, that we do is we actually look for agreement from people who have disagreed in the past.
我认为,我们真正要做的关键事情是寻求过去持不同意见的人的同意。
在这个基础上,Community Notes 由以下核心机制构建而成:
所有人都可以参与贡献,而不只是专业的事实核查员或记者:
We're trying to move away from the idea of curated editorial decisions being made around this. This is supposed to be open to everyone." So we very intentionally try to allow all humans in. People are randomly selected and that's important to it feeling fair, feeling open, feeling trustable.
我们正试图摆脱围绕这一问题进行精心策划的编辑决策的想法。这应该对所有人开放。”所以我们非常有意地尝试让所有人都参与进来。人们是随机选择的,这对公平、开放和值得信赖很重要。
Community Notes 不仅仅是关于事实核查的,也可能是补充信息:
One distinction that I would make, which maybe can come off as nitpicky but I think is important, is Community Notes adds additional context. It's not fact-checking necessarily, right? So there are cases where the post could be true. But maybe, it's just misleading because there there's no context or there's missing context.
我想指出的一个区别,可能听上去有些吹毛求疵,但我认为很重要,那就是社区笔记增加了额外的背景信息。它不一定是事实核查,对吧?所以有些情况下帖子可能是真的。但也许,它只是误导性的,因为没有背景信息或缺少背景信息。
所有内容都可以获得 Community Notes,没有内容可以豁免:
So every post is eligible for notes and that was, again, another really important principle. It's like, "We shouldn't exempt Elon. We shouldn't exempt government figures. We should..." Everyone, even advertisers, can get notes. So any posts on the platform can get a note.
因此,每篇帖子都有资格获得注释,这又是另一个非常重要的原则。就像,“我们不应该豁免埃隆。我们不应该豁免政府数据。我们应该……”每个人,甚至广告商,都可以获得注释。因此,平台上的任何帖子都可以获得注释。
贡献者的匿名性很重要:
We found a few things. One, people were hesitant to write a note on a controversial topic because they didn't want to get attacked or harassed online ... Two, and this is super interesting, people are actually more willing to cross partisan boundaries when they are anonymous or pseudonymous than when they are under their real name, and it intuitively makes a lot of sense ... And so by allowing people to be pseudonymous, you actually get more honest answers about what they really think and it helps find disagreement that really ...
我们发现了一些问题。首先,人们不愿意就有争议的话题发表意见,因为他们不想在网上受到攻击或骚扰……其次,这非常有趣,人们在使用匿名或假名时实际上比使用真名时更愿意跨越党派界限,这在直觉上很有道理……因此,通过允许人们使用假名,你实际上可以得到更多关于他们真实想法的诚实答案,这有助于找到真正不同的意见 ...
访谈中,Keith Coleman 公布了一些数据:
- 每天有数百条笔记发布,并通过算法匹配到相关的内容上(比如对一张图片的 Notes 会被自动匹配到相同图片上——尽管它们隶属于不同的推文)。
- 2024 年,共产生了约 95,000 条笔记,被浏览了约 300 亿次。这比前一年增加了一倍多。前一年有大约 37,000 条笔记,被浏览了 140 亿次。
- 全球有 95 万名笔记贡献者。
- 当推文被添加社区笔记后,转发量下降了 30-40%,但推荐算法中并没有把一条推文是否被添加了社区笔记这一因素作为核心排序因素。
技术细节角度,Jay Baxter 提到,X 使用一种称为矩阵分解(Matrix Factorization)的机器学习算法,并设定了一个阈值(通过评估用户反馈得出),使得只有部分高质量的笔记会被展示出来,标准是:当两组人对某件事意见分歧很大时,双方大多数人需要同意某条笔记是有用的或有帮助的。并非所有的笔记都是关于人们争论的事情,但如果是,那么双方的大多数人都认为该笔记有价值就很重要。
Yeah. I mean, in practice, what it means is basically a majority of people... If there is a polarized divide relevant to the notes. Obviously, some notes are not about politics or something polarizing. But if there is, then a sizable majority of people on both sides would generally need to find the note helpful.
是的。我的意思是,实际上,这意味着大多数人……如果存在与笔记相关的两极分化。显然,有些笔记与政治或两极分化无关。但如果存在,那么双方的大多数人通常都需要发现笔记有用。
这个细节虽然看起来很技术,但它的确是算法如何在社会科学中发挥作用的一个典型案例:先设定理论框架(bridging-based ranking)→ 算法模型(Matrix Factorization)→ 用户反馈 → 设定规则(阈值)。
Baxter 认为,目前的阈值设定非常保守(实际值为 0.4),重质量而非数量,大约会有 8% 的笔记会被展示出来。
这体现出算法在此类场景的应用具有很强的主观性:它是以人本位出发的。0.4 这个熟知实际上没有客观意义,而只是由平台运营者结合用户的感性认知进行反复调试而得出的一个数值。如果 Community Notes 的贡献者在结构、数量等方面出现重大的变化,这个阈值很可能不再适用,而调整它的依据仅来自于平台运营者对于平台发展方向的认知和判断。
贡献者动机非常重要,Coleman 特别提到:
Yeah. It's totally based on intrinsic motivation and we think that's a great reason to be doing it. When you talk to the most active contributors, a lot of them, they want to have better information out in the world and that's a great motivation.
是的。这完全基于内在动机,我们认为这是这样做的一个很好的理由。当你与最活跃的贡献者交谈时,他们中的很多人都希望向世界提供更好的信息,这是一个很大的动机。
So yeah, that's why they... If you think about, like for these people, the impact they can have is nuts. So when we first launched US-wide, this was like in 2022, a note appeared on a White House tweet and the White House deleted the tweet and reissued an updated statement. Imagine being the person who wrote that.
是的,这就是为什么他们……如果你想想,对于这些人来说,他们能产生的影响是巨大的。所以当我们第一次在美国推出时,就像在 2022 年,白宫的一条推文上出现了一条注释,白宫删除了这条推文并重新发布了一份更新声明。想象一下成为写这条推文的人。
You probably have 12 followers. Your posts probably get a couple likes. And here, you just put a note on the White House and they changed their public talking points based on what you did. That is an incredible amount of impact.
你可能拥有 12 位粉丝。你的帖子可能获得几个赞。而在这里,你只需向白宫发布一条消息,他们就会根据你的所作所为改变公开谈话要点。这会产生令人难以置信的影响。
Jax Baxter 回忆了 2023 年 10 月以色列哈马斯冲突时期,大量误导性信息在 X 上发布,Community Notes 证明了它作为一项由社区驱动的共识机制的价值:
One other thing that was, I think, nice to see working then was, one criticism of Community Notes some people bring up is, well if you always need agreement from people who typically disagree, then in these super polarized settings, that conflict being probably number one, then you wouldn't see any notes.
我认为,当时很高兴看到的另一件事是,有人对社区记录提出了批评,即如果你总是需要那些通常不同意的人的同意,那么在这些超级两极化的环境中,冲突可能是第一位的,那么你就不会看到任何记录。
But actually the reality was there were tons of notes about that conflict. So I think there was this kind of nice property where actually, and maybe this is a surprising fact, that there's more agreement out there across polarized divides than maybe conventional wisdom says, and the places where people agreed were really objectively true and verifiable.
但事实上,关于那场冲突的记录非常多。所以我认为,这其中有一个优点,也许这是一个令人惊讶的事实,那就是,两极分化的分歧中存在的共识比传统观点认为的要多,人们达成共识的地方确实是客观真实且可验证的。
I guess maybe this is more true the more polarized the setting is, but where the agreement actually lends you, and basically notes that are very neutrally written, very focused on the facts and easy to verify information.
我想也许环境越两极分化,这种情况就越真实,但协议实际上会给你带来好处,基本上是中立的,非常注重事实,信息也容易核实。
有趣之处是,Coleman 和 Baxter 都提到了 Elon Musk 在收购 Twitter 之后,为整个团队带来了更高的执行速度,包括 Community Notes 团队在内,处理大型突发事件的能力有了很大的提升。
在访谈的最后 Baxter 介绍了他们正在开发的 Supernotes 系统,这是是一个 Community Notes 的 AI 版:它们
... we can basically take existing notes as input, existing proposed notes that maybe they have some problem, maybe they have part of the story, maybe they're worded in kind of a biased way ... take all these in, have an LLM generate a ton of different variants, and then basically make the simulated jury to basically get a representative group of contributors for community notes who would be rating the note and try to predict based on their past ratings how they would rate these LLM generated notes.
我们基本上可以将现有的注释作为输入,现有的拟议注释可能存在一些问题,可能包含部分故事,可能措辞有偏见。将所有这些考虑进去,生成大量不同的变体,然后让模拟陪审团基本上获得一个代表社区笔记的贡献者群体,他们将对笔记进行评级,并尝试根据他们过去的评分来预测他们会如何评价这些生成的笔记。
这种方法巧妙地将三个关键元素编织在一起:
- 首先,它利用了 LLM 的变体生成能力。这不是简单的内容创作,而是有目的的内容优化实验。想象一下,这就像是一个能够同时尝试数百种不同表达方式的编辑团队。
- 其次,它引入了“模拟陪审团”的概念。这个设计借鉴了众包智慧的优势,但通过 AI 模拟实现了更高的效率。这让我想起了早期维基百科的编辑机制,但在规模和速度上有了质的飞跃。
- 最后,它建立了一个闭环反馈系统。通过预测性评分机制,系统能够在内容发布前就评估其可能的社区接受度。这种预测性筛选机制可能会彻底改变内容管理的范式。
这个方案的创新之处在于,它并没有试图用 AI 完全取代人类判断,而是创造了一个人机协作的实验场。就像一个经验丰富的编辑,在发表文章前会预判读者反应一样,这个系统在更大的规模上实现了类似的功能。
这是一个把 UGC 和 AI 结合的新方向,值得期待。
How AI Changes Customer Acquisition
人工智能正在改变客户获取方式,特别是在营销和广告领域。通过快速生成合成广告和优化搜索结果,AI 使公司能够更高效地吸引客户。随着 AI 技术的进步,传统的营销模式面临挑战,品牌需要适应这一变化以保持竞争力。DayBreak 的投资人 Rex Woodbury 在本文中结合实际案例介绍这一系列变化。
文章提出了一个关键观点,关于品牌在 AI 时代面临的新挑战:
We're used to visiting Airbnb to find a place to stay on vacation. But what happens when we can just tell an AI companion, "Book me a home in Madrid for the week of May 12th." The AI companion has no brand loyalty; Airbnb's hard-earned name recognition—the result of millions of marketing dollars and a decade of word-of-mouth—now means nothing.
我们习惯于访问 Airbnb 来寻找度假住所。但当我们可以直接告诉 AI 助手“帮我在马德里预订 5 月 12 日那周的房子”时会发生什么?AI 助手没有品牌忠诚度;Airbnb 来之不易的品牌知名度——数百万营销资金和十年口碑营销的结果——现在变得毫无意义。
Woodbury 通过一个生动的个人实验,展示了 AI 如何在短短五分钟内生成一则蛋白粉广告。这个实验揭示了一个重要趋势:
This is clearly the future of influencer marketing: an influencer films herself talking about a product; she sells her likeness to a brand; the brand runs dozens of tests on different ad copy to see what performs best, then pours money behind the best-performing ads.
这显然是影响者营销的未来:一个影响者拍摄自己谈论产品的视频;她将自己的肖像出售给品牌;品牌对不同的广告文案进行数十次测试,看看哪个效果最好,然后在表现最好的广告上投入资金。
Woodbury 的个人实验混合使用了多个工具:包括 HeyGen 生成自己的虚拟形象,和使用 LLM 来生成广告脚本。而最近发布的 Icon 则把这个工作流整合到了一起:
- Icon 整理你的视频库并标记场景——“特写”、“开箱”等等。这些场景变成可重复使用的剪辑,像乐高积木一样制作广告。
- 然后,提示 Icon 的 AdGPT 生成脚本。
- Icon 将剪辑与每个脚本场景匹配,生成 80-99% 完成度的广告。
- 使用 Icon 的 CapCut 类视频编辑器完成编辑,然后点击发布。

这是一个 10x 创意产出的机会。
另外,在搜索领域,AI 正在重新定义用户体验。这种转变最好地体现在这段话中:
In hindsight, it makes total sense that search should behave this way. My kids will be shocked to learn we used to sift through links to find information—shouldn't technology just…answer the question we ask?
回想起来,搜索应该以这种方式运作是完全有道理的。我的孩子们会震惊地得知我们过去常常要筛选链接来找到信息——技术难道不应该直接...回答我们问的问题吗?
Woodbury 介绍了 Profound,一家面向 Perplexity 进行 SEO 和 SEM 的公司。
One of the most interesting startups out there—in my mind—is Profound, which helps brands optimize visibility in AI search. Less than half of the sources that AI answer engines cite are within the top 10 search engine results. With Profound, brands can figure out what factors are influencing content visibility, and make sure they’re still front and center.
在我看来,最有趣的初创公司之一是 Profound,它帮助品牌优化 AI 搜索中的可见性。AI 答案引擎引用的来源中不到一半位于搜索引擎前 10 个结果中。借助 Profound,品牌可以找出影响内容可见性的因素,并确保它们仍然处于最显眼的位置。
除此之外,文章还介绍了 Helium,一个运用 AI 来帮助 app 进行 A/B 实验的工具,以及 AMT,一个自动化 influencer 营销管理工具。
Meet the King of YouTube Explainer Videos — Johnny Harris
Johnny Harris 是一位美国独立记者和纪录片制作人,曾为 Vox 制作《Borders》系列节目。他经营着一个拥有超过 650 万订阅者的 YouTube 频道,专注于国际政治、历史和地理等主题的深度解析,以制作视觉效果出众、剪辑精良的视频内容而闻名。
本文是他与 David Perrel 的访谈记录。访谈一共一个多小时,很完整的呈现了 Harris 的创作流程。我做了比较多的摘录,很适合作为一个理解人类创意工作的侧写来看。
谈到“创意障碍”,Harris 认为每年制作 30 个视频,让他把自己的创作流程控制在四天之内,每天他的工作时间是早上 9 点到下午 2 点,而这迫使他在限定之内完成必要的工作:
I get pissed off, scared, and bummed when I'm deep into a story on day two or three and still don't fully grasp it. I haven't found that satisfying explanation, and I start to question everything. I wonder why we make so many videos and begin to grumble about the whole process.
I know I have to move on. The four-day constraint is powerful because it forces me to be laser-focused, and I'm very prolific because of it. However, it can backfire if I don't feel I have a solid grasp on the subject.
Fortunately, we now have flexibility within the system. Things can move and change if I need more time. We've reduced our output from 48 videos to 30 per year, which gives us some breathing room.
当我在第二天或第三天深入研究一个故事却仍然没有完全理解它时,我会感到生气、害怕和沮丧。我还没有找到令人满意的解释,我开始质疑一切。我想知道我们为什么要制作这么多视频,并开始抱怨整个过程。
我知道我必须继续前进。四天的限制很强大,因为它迫使我集中精力,我因此非常多产。然而,如果我觉得自己对这个主题没有扎实的掌握,它可能会适得其反。
幸运的是,我们现在在系统中具有灵活性。如果我需要更多时间,事情可以移动和改变。我们已将产量从每年 48 个视频减少到 30 个,这给了我们一些喘息的空间。
对于视频内容的“包装”,也就是标题和 YouTube 封面,Harris 认为,你需要平衡吸引力和承诺,前者负责吸引观众进入视频,而后者则要兑现观众的好奇,并带领他们前往一个更大的世界。
The marketing, which is what this is - this is why you should click - is defined early on. Because on YouTube, and in any sort of market for attention (which is everything), you have to decide: "Okay, I want to make this piece, but why is someone going to click it?" I can figure out why they should watch 30 minutes of it, but why are they going to click it? And that's what this is.
I knew what would bring them in is "Why is Saudi Arabia building a futuristic city in the desert that's a straight line?" That is a straight line, look at it. I knew that was the promise - that was a clear promise. The storytelling is a complicated thing; this is not a complicated thing. This is like a billboard, this is the packaging. I usually will do two or three different packagings when I'm deciding what story to do and think, "Does this have legs to be clickable?" But that doesn't define the story - it just defines one thing that I know I'm going to answer, a promise I know I'm going to answer.
营销,也就是这个东西——为什么要点击——是需要提前确定的。因为在 YouTube 上,在任何需要争夺注意力的市场中(其实就是所有市场),你必须决定:" 好,我想制作这个内容,但为什么有人会点击它?" 我可以想出为什么他们应该看完 30 分钟,但为什么他们会点击它呢?这就是重点所在。
我知道什么会吸引他们:“为什么沙特阿拉伯要在沙漠中建造一座笔直的未来城市?”这就是一条直线,看看它。我知道这就是承诺——这是一个明确的承诺。讲故事是件复杂的事,但这个不复杂。这就像是一个广告牌,这是包装。当我在决定要做什么故事时,通常会准备两到三种不同的包装方式,然后思考:“这个标题够吸引人点击吗?”但这并不决定故事本身——它只是定义了一件我知道我要回答的事情,一个我知道我要实现的承诺。

Harris 提出了一个关于数字时代内容创作的重要洞察:标题包装(the packaging)和实际内容(the storytelling)需要被视为两个独立但互补的层面——
I believe that if I can get someone to click, I can convince them to broaden their curiosity to a billion other things they didn't even realize they were curious about. This is just the entry point, just the initial click because it's big, sensational, and accessible. But really, you're going to start learning about resource countries, the resource curse, rentier states, and all this economics, future-proofing your city, and the history of oil. Yes, you will get your answer, but you will have forgotten that's why you clicked in the first place because you will be led into this much bigger world.
我相信,如果我能让某人点击进来,我就能说服他们将好奇心扩展到其他成千上万他们甚至没意识到自己会感兴趣的事物上。这只是一个入口,仅仅是因为它够大、够轰动、够容易理解才促使人点击。但实际上,你会开始了解资源国家、资源诅咒、食利国家,以及所有这些经济学知识,还有如何让城市适应未来,以及石油的历史。是的,你会得到你想要的答案,但到那时你已经忘记这是你最初点击的原因,因为你已经被带入了一个更广阔的世界。
Harris 的影片包含实地拍摄、采访和一般解释类视频(Explainer)中常会出现的画外音解说。他需要在两种不同的叙事方式中进行切换:真实世界的采访和拍摄会对他的脚本造成冲击,他需要反复在外部和内部之间进行平衡。
When dealing with complex human stories, every interview changes my perspective. It creates this whiplash effect - just when I think I understand the story, a new interview muddies the waters and forces me to reconsider everything. This doesn't happen as frequently when I'm writing and researching at my computer. But when you're in the field talking to real people, everything is chaos. Trying to shape that chaos into something meaningful inevitably means leaving so much complexity behind. That's why my notes often end up as this chaotic wrestling match with what I actually want to say about the subject.
在处理复杂的人类故事时,每次采访都会改变我的观点。它会产生一种鞭笞效应——就在我以为自己了解了这个故事时,一次新的采访却让我感到困惑,迫使我重新考虑一切。当我在电脑上写作和做研究时,这种情况并不常见。但当你在现场与真人交谈时,一切都是一片混乱。试图将这种混乱塑造成有意义的东西不可避免地意味着要抛弃许多复杂性。这就是为什么我的笔记经常会变成一场混乱的角力赛,与我真正想说的内容进行对峙。
I'm moving strongly away from over-engineered scripts when I'm on the ground. Instead, I'm focusing more on reacting and experiencing - it's about experiential storytelling, character interactions, and experiences. Then, when I get back and let it all settle, after I've wrestled with it, I write the prose word for word. I go into the VO booth and say the words to stitch things together, constructing the explanation in an elegant way. This removes the pressure when I'm on the ground, because what was happening before was that I'd be thinking more about where to do a standup - setting up the camera and saying my lines, doing lots of takes - and it ended up taking away from my ability to just be present, which I'm realizing more and more is incredibly valuable.
我正在强烈地远离在现场时使用过度设计的脚本。相反,我更注重于反应和体验——这关乎体验式讲故事、人物互动和经历。然后,当我回来后,让这一切沉淀下来,在我思考过后,我会一字一句地写下文字。我进入配音间,说出这些话来串联起整个故事,以优雅的方式构建解释。这样就减轻了在现场时的压力,因为之前发生的情况是,我总是在想在哪里做站立式报道——架设摄像机和说台词,反复拍摄——这最终影响了我真实地在场的能力,而我越来越意识到这种在场的重要性。
Harris 提出了一个引人入胜的视频叙事方法论,它挑战了传统的“先说你要说什么”的教科书式开场,而是用感官冲击式开场,通过具体细节而非抽象概述来吸引观众,这可以认为是 Harris 的标志性手法。
JH: The first line is always the tricky one. I like first lines that drop you into action, that enliven the viewers' senses with a surprising action or visual. Often times that starts with "look at this" - like "look at this map" or whatever - and it immediately engages the viewer to do something. In this case, I start with "It started with the murder of their prophet in Illinois." To me, that's a line that wakes you up a little bit. "It started with a murder" - like boom! I'm not saying "I want to tell you the story of the Mormons as they moved." I don't want to do a classical "tell them what you're going to tell them." You start with action and you throw people into action. To me, that's a way to sort of engage from the beginning.
DP: In the sound, you have written "gunshot, epic, suspenseful, slow-mo."
JH: I wanted this to be emotional, and that's the other thing - I think you can drop someone immediately into an emotional tone that says "Oh, we're going, we're doing this, we are in something already." We're not ramping up to it. Other times I like to ramp up, but there is something about this cold open - just hit them with emotion, tone, action, visual.
JH: 第一句话总是最棘手的。我喜欢能让读者立即投入情节的开场白,用令人惊讶的动作或画面来激发观众的感官。这常常以“看这个”开始——比如“看这张地图”之类的——立即让观众参与进来。在这个例子中,我以“这一切始于他们先知在伊利诺伊州的谋杀”开场。对我来说,这是一句能让人清醒的话。“这始于一场谋杀”——砰!我不会说“我想给你们讲摩门教徒迁徙的故事”。我不想用经典的“告诉他们你要讲什么”的方式。你要用行动开场,让人们立即投入到行动中。对我来说,这是一种从一开始就吸引人的方式。
DP: 在音效上,你写着“枪声,史诗般的,悬疑的,慢动作”。
JH: 我想要这充满情感,这就是另一个重点——我认为你可以让观众立即进入一种情感基调,仿佛在说 " 好,我们开始了,我们在做这件事,我们已经身在其中了 "。我们不是在慢慢铺垫。有时我也喜欢慢慢铺垫,但这种冷开场有它的特点——直接用情感、基调、动作和画面打动观众。
The REAL Story of the Mormon Church 这条视频在 YouTube 上被播放了 450 万次。以此为例,Harris 在展示了一个成熟的内容创作者如何在吸引力和敏感度之间寻找平衡:影片的第一句话 “约瑟夫·史密斯,26,000 名摩门教徒的领袖,14 个孩子的父亲,40 位妻子的丈夫...”甚至在动词没有出现之前,就已经构造了惊人的悬念。
Joseph Smith, the leader of 26,000 Mormons, father of 14 children, husband to 40 wives... I like the music of that sentence - it has a rhythm to it. The original didn't have "husband to 40 wives"; it was just "leader of 26,000 Mormons, father of 14 children." I contemplated whether to include "husband to 40 wives" because it's a well-known anti-Mormon trope to focus on polygamy. I didn't want to immediately turn off believing viewers - the Mormons watching this - because they're so used to dismissing content that focuses on polygamy.
This relates to my broader philosophy of always empathizing with the viewer. I'm constantly thinking about who's watching and how this information affects them - that's the most important sensibility in what I do. So I wrestled with including the "40 wives" part, initially thinking only of this small subsection of the audience. But ultimately, I decided to include it because most viewers would find it fascinating and intriguing, and it would hook them. This is emblematic of my constant struggle with considering audience reaction - every word is carefully thought through.
“约瑟夫·史密斯,26,000 名摩门教徒的领袖,14 个孩子的父亲,40 位妻子的丈夫...”我喜欢这句话的韵律感。原版并没有“40 位妻子的丈夫”这部分,只有“26,000 名摩门教徒的领袖,14 个孩子的父亲”。我曾考虑要不要加入“40 位妻子的丈夫”这句话,因为过分关注多妻制是一个众所周知的反摩门教套路。我不想立即疏远信徒观众——那些正在观看的摩门教徒——因为他们已经习惯于对关注多妻制的内容产生排斥。
这涉及到我更广泛的理念:始终设身处地为观众着想。我一直在思考谁在观看,这些信息会如何影响他们——这是我工作中最重要的原则。所以我在是否要包含“40 位妻子”这部分上反复斟酌,一开始只考虑到这小部分观众。但最终我决定加入它,因为大多数观众会觉得这很有趣,而且会吸引他们继续观看。这代表了我在考虑观众反应时的典型思考过程——每个字都经过深思熟虑。
Harris 深受语言认知学家 Steven Pinker——他特别推荐 Pinker 的 The Sense of Style。在这里,他阐述了一个关于视觉化叙事的重要原则,使用行动导向的语言,强调“谁对谁做了什么”的清晰叙事结构,避免概念化的表达方式:
I'm a big believer in what Steven Pinker, a Harvard cognitive linguist whom I love, has described as classical style. It's an obsessive focus on active, visual language. We can get so caught up in ideas and concepts when we write, but people actually want to be communicated with through clear actions - who did what to whom, what happened, who is acting, and what are they doing. For example, I'll say "they fled" instead of "leading to the migration of 6,000 Mormons to the Western United States." "Migration" is a concept, but "fled" is an action - it's people doing something. Our brains can visualize people fleeing. It's a different way of writing that's often more plain and simple, but it connects with our visual brain.
我深信斯蒂芬·平克(他是我很喜欢的哈佛大学认知语言学家)所描述的古典风格。这种风格执着于主动的、形象化的语言表达。写作时,我们容易陷入想法和概念的泥沼,但人们实际上更希望通过清晰的行为来接收信息——谁对谁做了什么,发生了什么,谁在行动,他们在做什么。比如,我会说“他们逃离了”,而不是“导致 6,000 名摩门教徒迁移到美国西部”。“迁移”是个概念,但“逃离”是个动作——是人们在做某事。我们的大脑能够想象人们逃离的画面。这是一种不同的写作方式,虽然更朴实简单,但能与我们的视觉大脑产生共鸣。
Harris 将视频创作视为一种“编码”过程,实际上,他的确是在编码:他会用不同的颜色标注自己的视频脚本(在一个巨大的表格中),这些颜色代表了不同的视觉表达方式。
JH: I am coding the visuals.
DP: Why do I use the word "coding"?
JH: Because it's not just writing - I'm pressing buttons to make different colors and indentations. I'm thinking about animation, saying things like "the pre-m should be nested." As an animator, I'm speaking to my future animator, directing how I think it could be created. I'm finding visual references and annotating them. As you can see here, this is me with screenshots annotating an old map. I'm basically creating the whole thing as a piece of visual direction. So yeah, I call it coding because it feels like coding. I'm visually directing, but the two dance together - they must dance together. Every word must pair with a motion or an action within the animation.
JH: 我在给视觉效果编程。
DP: 为什么用“编程”这个词?
JH: 因为这不仅仅是写作——我在按按钮来制作不同的颜色和缩进。我在思考动画,说一些像“pre-m 应该嵌套”这样的话。作为一名动画师,我是在对未来的动画师说话,指导我认为它可以如何创作。我在寻找视觉参考并做标注。如你在这里看到的,这是我在为一张旧地图做截图标注。我基本上是在把整个作品创作成一个视觉指导。所以是的,我称之为编写是因为它感觉就像编程。我在进行视觉指导,但这两者相互交织——它们必须相互交织。每个词都必须与动画中的动作或行为相配对。

Harris 非常重视把宏大叙事落到具体的人身上,通过不同的语调、音乐、视觉效果的交叉运用,呈现出更强大的感染力。
This isn't just about words - there's music, visuals, and pacing that express the writing in its fullness. For me, this is particularly important because I deal with technical subjects like macroeconomics and international relations. One thing I want to emphasize is that everything is ultimately grounded in human experience. It's about people, not just abstract ideas.
I often pivot from technical, detailed historical analysis to reminding readers that there's tension, complexity, and gray areas at the heart of these stories. News often reduces events to big forces and nameless, faceless, soulless entities - "the government did this" and so on. It's a sweet and sour experience: people get cognitive stimulation from learning, but they also connect with softer, less precise tones.
Switching between cognitive/analytical and emotional tones, combined with music, visuals, and language, makes the presentation more engaging and compelling. People remember it longer because they remember what they felt.
这不仅仅关乎文字——还有音乐、视觉效果和节奏,它们共同完整地表达了写作的内容。对我来说,这一点特别重要,因为我处理的是宏观经济学和国际关系这样的技术性主题。我想强调的是,一切最终都植根于人类经验。这是关于人的,而不仅仅是抽象的概念。
我经常从技术性的、详细的历史分析转向提醒读者,这些故事的核心存在着紧张、复杂性和模糊地带。新闻经常将事件简化为宏大力量和无名、无面、无魂的实体——“政府做了这个”等等。这是一种酸甜参半的体验:人们从学习中获得认知刺激,但他们也能与更柔和、不那么精确的语调产生共鸣。
在认知/分析性语调和情感语调之间切换,再配合音乐、视觉效果和语言,使表达更具吸引力和说服力。人们记得更久,因为他们记住了自己的感受。
他强调与观众之间的平等对话关系,作品不是高高在上的教授,而是类似:看这儿,我来告诉你一个故事。
And I think this is an example of where you do that. So here it goes. I want to show you what this map says and show you how China uses geography to assert and project power in its region. This is doing a couple of things. It's equalizing the journalist and the viewer. I want to show you I'm a friend who's really curious. Look, you've seen me at the computer tapping around, wrestling with this map. I've discovered something. Let me show you that. To me, that is a framing that's very genuine. By the way, it's an enthusiasm that comes from how I relate to my friends and how I relate to the world.
But I've funneled it into my writing and my presentation because I think that's how viewers want to be spoken to. I think they want to be challenged, but at the same time, they want to be let in. They want to be spoken to like, "Hey, I know you're smart, you can get this, but you may not know about this. Let me show you." It's another hallmark of the classic style that Pinker talks about - directing their gaze to interesting things and describing them in plain ways that are accessible. But within that, we're discussing a lot of rigorous, deep complex stuff, but it's in this way that invites people in instead of making them feel like, "Oh, this is only for the smart people."
Journalists often use language that is meant for their peers, not for their audience. They will say, "Look at how much I know! I'm really smart, and I need my peers at the other journalism outlets to know that." I'm not speaking in plain language. That, to me, is the curse of a lot of writing, but especially writing that is meant for the masses, but often turns into this sort of gatekeeper writing for peers instead of the audience.
我认为这就是一个例子。让我来展示这张地图告诉我们什么,以及中国如何利用地理来主张和投射其在该地区的力量。这样做有几个作用。它拉近了记者和观众的距离。我想表现得像一个充满好奇心的朋友。你看,你看到我在电脑前摆弄这张地图。我发现了一些东西,让我展示给你看。对我来说,这是一种非常真诚的表达方式。顺便说一下,这种热情来自于我与朋友相处和看待世界的方式。
我把这种方式融入到我的写作和表达中,因为我认为这是观众想要的交流方式。我认为他们既想要被挑战,同时也想要被接纳。他们希望被这样对待:“嘿,我知道你很聪明,你能理解这个,但你可能还不了解这个。让我给你展示一下。”这是 Steven Pinker 所说的经典风格的另一个特点——引导他们关注有趣的事物,用简单易懂的方式来描述。虽然我们讨论的是很多深奥复杂的内容,但这种方式让人感到亲切,而不是让人觉得“哦,这只适合聪明人。”
记者们经常使用针对同行而非观众的语言。他们会说:“看看我懂得多少!我很聪明,我需要其他新闻机构的同行知道这一点。”我不用平实的语言。对我来说,这是许多写作的诅咒,尤其是本应面向大众的写作,却常常变成了一种面向同行的守门人写作,而不是面向受众。
用反常规、反传统的语言和叙事方式来讲故事,是人类讲述者区别于 LLMs 的优势:
The writing is actually some of the most important for making something surprising. Because when you are talking about something, you can talk about it. You can be an LLM and you can have your training data say how has everyone else said this. I'm going to say it just like them and just fill in the next word, and it's going to sound like everyone else who's talking about that topic. Or you can be a human and say, "I am going to say this thing in a completely different way," but it's still the same thing.
写作实际上是让事物变得令人惊喜的最重要因素之一。因为当你谈论某事时,你可以用不同方式来表达。你可以像大语言模型那样,让训练数据告诉你别人是怎么说的,然后就像他们一样照搬套路,一个词接一个词地说下去,最后听起来就和其他谈论这个话题的人一模一样。或者,你可以像人类一样说:“我要用一种完全不同的方式来表达这件事”,但本质上表达的依然是同一件事。
创作者需要在处理了所有的细节——这往往是一个折磨人的过程——之后,仍然保有对故事完整性的好奇心:
Totally, it has to be present at the beginning when I'm thinking about El Chapo's tunnels. I have to have a glimpse of what's going on there. I usually will see visions - really kind of fractured visions of what this could be, like the vibe of it, the actual video, very rough and broad. But that has to exist, and then you start to descend into reality where you actually have to find the facts and decide how this art direction works. There's a moment where it feels like, "Boy, this is not nearly as cool as it was when we started. This is way harder." Every single person listening to this episode can relate to that, and that wrestle is one I know very well now. The work of storytelling is to remember what it was like at the beginning and hold that curiosity, even when you get into that curse of knowledge where you know too much about the topic and forget what it feels like to be curious and not know. You have to hold it and guard it, and then you have to push it up the other side of the valley. That is the work of getting it story ready, but it has to happen at the beginning. Then it eventually, hopefully, gets to the end where that curiosity stays; but it is always there at the beginning. For me.
当我思考毒枭 El Chapo 的地道时,这种感觉必须从一开始就存在。我必须能瞥见那里发生的事情。我通常会看到一些支离破碎的景象,关于这可能是什么样子,它的氛围,实际的画面,都很粗略和模糊。但这必须存在,然后你开始回归现实,在那里你必须找到事实,决定这个艺术方向如何发展。有一刻你会感觉,“天啊,这一点都不像我们开始时那么酷了。这太难了。”每个收听这一集的人都能理解这种感受,这种挣扎我现在非常熟悉。讲故事的工作就是要记住开始时的感觉,保持那种好奇心,即使当你陷入知识诅咒时,你对这个主题了解太多,忘记了保持好奇和无知是什么感觉。你必须持守它,保护它,然后把它推到山谷的另一边。这就是让故事准备就绪的工作,但它必须从一开始就存在。然后最终,希望到最后那种好奇心依然存在;但对我来说,它总是从一开始就在那里。
最后,关于媒体的未来,Johnny Harris 坚持认为,在 AI 时代,人类仍然更擅长叙事,这是无法替代的:
We're going to keep doing that. That is our future: building out this media company that helps launch journalists with individual brands. Because yes, we can optimize, but especially in a world of AI, like human excitement and enthusiasm and passion, people love that.
We don't want to get away from that in the name of data and optimization, so you feel that human excitement and enthusiasm is the antidote to the AI creep. I think so—I think it's one of the examples I've seen.
A lot is like in the 80s when computers got better than humans at chess. We didn't just watch computers play chess all day; we still wanted the tension of two humans playing chess, even though the computer was way better. And it's like the computer would have a way more sophisticated game, but we want humans to be in it. We want to experience life through humans, and I believe the same thing will be true in large sectors of the AI world, where the AI is going to get much better objectively at doing a lot of things that humans do. Now, what are those pockets of places that humans will want to watch humans do things? I think that journalism and storytelling, I'm betting will always be where humans want to hear another human tell stories. That's the oldest human ritual, and I don't think it's going to go away.
我们将继续这样做。这就是我们的未来:建立一个媒体公司,帮助记者们打造个人品牌。因为是的,我们可以优化,但特别是在人工智能的世界里,人们喜欢的是人类的热情、热忱和激情。
我们不想为了数据和优化而失去这些,所以你会感觉到人类的热情和热忱是对抗人工智能蔓延的解药。我认为是这样的——这是我看到的例子之一。
就像 80 年代当计算机在国际象棋上超越人类时的情况。我们并没有整天只看计算机下棋;我们仍然想要看到两个人类之间下棋时的紧张感,尽管计算机要强大得多。虽然计算机可能会下出更复杂的棋局,但我们想要人类参与其中。我们想要通过人类来体验生活,我相信在人工智能世界的许多领域也会是如此,尽管人工智能在客观上会在很多人类所做的事情上变得更好。那么,在哪些领域人类会想要看到人类在行动?我认为,在新闻报道和讲故事方面,我打赌人类永远都会想听另一个人类讲故事。这是最古老的人类仪式,我认为这永远不会消失。
Avoid the nightmare bicycle
这是一篇来自 Geoffrey Litt 的小短文。文章的主要思想来自于 Andrea diSessa 的书 Changing Minds。
Litt 写道:
Imagine a bicycle where the product manager said: “people don’t get math so we can’t have numbered gears. We need labeled buttons for gravel mode, downhill mode, …”
想象一下,一辆自行车,产品经理说:“人们不懂数学,所以我们不能有数字档位。我们需要有标记的按钮来表示砾石模式、下坡模式……”
Along the same lines: one of the worst misconceptions in product design is that a microwave needs to have a button for every thing you could possibly cook: “popcorn”, “chicken”, “potato”, “frozen vegetable”, bla bla bla.
同样,产品设计中最严重的误解之一是微波炉需要有一个按钮来控制所有可能烹饪的东西:“爆米花”、“鸡肉”、“土豆”、“冷冻蔬菜”等等。
避免“噩梦自行车”的设计理念强调,产品设计应简化而非复杂化。用户能够理解简单的结构,例如自行车的编号齿轮,而不需要繁琐的标签。好的设计让用户利用其理解能力,而不是掩盖基础结构。