Home

05/14/2023: Copilot

本周的主题是 Copilot 副驾。

AI 和人的关系是什么?有两个选项:

  1. Autopilot
  2. Copilot

Autopilot 就是以 AI 为主。Siri 和 Tesla FSD 都是这个思路。它扮演的角色是完全接管原本人类做的事情,人类只需要提需求,AI 就能自动满足。

Copilot 则是 AI + 人共生共创。微软在 Github 和 Office 上都发布了类似的产品。在这个设定中,AI 更像是坐在人类旁边,帮助人类解决一些 AI 更擅长的问题。这个角色设定中,AI 扮演的不是入侵或替代的角色,而是起到辅助和提效的作用。

AI 在 GPT-4 的水平上,仍然会产生很多错误,但这并不影响它得到广泛的应用,背后的原因是:只要使用者有一定的认知水平,发现并纠正这些错误并不困难,甚至于只需要一瞥的时间。这和现在广泛应用的辅助驾驶功能是类似的,虽然只有 Level 2,但人类驾驶员只需要在很少的场景下介入,大部分时间都可以更加放松,甚至处理一些其它事情。实际上,这就是 Copilot 的一个很好的例证。

Copilot 和人类的结合,还解决了一个问题,就是人类对机器的不信任感。如果人类意识到,AI 只是站在辅助角色上,也会更加强调自身的主观责任。比如:由人类确认过的 AI 生成内容,在新的技术语境下,就是人类创作的内容。

如果 AI 的能力在短期内无法达到「全知全能」的水平,那么以 Copilot 的角色假设向下发展,也能带来很大的价值增益。这就是为什么我们说:AI 必将赋能于人,服务于人,是人类能力的扩增。

Essays

Malleable Software in the Age of LLMs by Geoffrey Litt

Geoffrey Litt 目前在 MIT 攻读博士学位,方向就是帮助不会写代码的人获得更多的计算能力。本文发表与 3 月末,我最近在曲凯的 42 章经中发现了这篇文章。

文中有一副图,描述了一种「计算媒介」的前景。Litt 解释说,我们经常使用的电子表格就是一种计算媒介,它具有计算能力,用户可以通过公式、脚本的方式在其中实现各种计算任务。我们可能都见过,一张精心编制的 Excel 电子表格可以实现多么强大的功能,但是这种计算能力仍然存在巨大的局限,比如说,它的数据来源仍然来自于用户输入,而且它对语言输入的处理能力有限。

计算媒介的好处在于,它能够即时、灵活且低成本的完成用户交给它的计算任务,而不需要引入具有专业代码能力的开发者,尽管这些任务往往都比较简单,但它带来的便利性仍然很高,特别是很多工作需要一些探索和试验才能找到正确的路径时,这种所见即所得的方式就非常重要了。

AI / LLM 的引入则增强了计算媒介的能力。在 LLM 的帮助下,用户可以本地化对计算媒介进行修改或二次开发(想象:团队内部的程序员可以为 Excel 增加新功能),这就意味着普通用户可以快速的把他们想要的功能反馈给开发者,并得到更快的响应,而无需等待漫长的软件更新周期。

Litt 写道:

I think it’s likely that soon all computer users will have the ability to develop small software tools from scratch, and to describe modifications they’d like made to software they’re already using.
我认为很可能很快所有的电脑用户都将具备从零开始开发小型软件工具的能力,并描述他们对在使用的软件希望进行的修改。

在这个假设条件下,可能会出现大量一次性、即用即抛的代码,通过用户描述的特定需求产生,并在完成任务之后,不再被复用。这意味着,现在我们对软件的一切定义都要重写。

同时,Litt 还认为:

To think clearly about this question, I think it’s important to notice that chatbots are frustrating for two distinct reasons. First, it’s annoying when the chatbot is narrow in its capabilities (looking at you Siri) and can’t do the thing you want it to do. But more fundamentally than that, chat is an essentially limited interaction mode, regardless of the quality of the bot.
要清楚的思考这个问题,我认为重要的是要注意聊天机器人令人沮丧的两个不同的原因。首先,当聊天机器人能力有限(比如 Siri)而无法做你想做的事情时,是令人恼火的。但更根本的是,无论机器人质量如何,聊天都是一种有限的交互模式。

什么意思呢?Litt 举出的例子是:用 ChatGPT 来剪视频。显然,聊天界面不适合做这个事情,相反,通过鼠标 + 时间轴的操作界面更加容易。同样的,Midjourney 的 prompt 如同魔法咒语一般,并不像很多人预想的那样,以人类世界通行的自然语言表达。

计算媒介将是包裹在 AI 和用户之间那一层界面,最终我们中的大部分人不需要学习如何写出更好的 prompt,会有更专业的人来做这些事情。更符合直觉和生理特征的界面仍然是大部分人的选择。从那个时间点看现在,你会觉得 ChatGPT 有点像 DOS 的命令行。

Life After Language by Venkatesh Rao

文章的标题是「语言之后的生活」,Rao 在本文中设想了一种语言失去现有地位的未来。他认为,人工智能已经可以写出比 90% 的人类写得更好的文章,而且这种情况会越来越普遍。随着 AI 在实证精度、内部一致性和逻辑连贯性方面的不断提高,人类需要做的工作是对 AI 进行监督,以使其在人际交流中更有用。但是,这样做的结果是,机器之间的交流将不再需要使用人类语言,而是使用更加表达丰富和高效的潜在语言。

比如说,本周 OpenAI 发布的 Language models can explain neurons in language models 一文,用 GPT-4 来解释 GPT-2 中的神经元行为,解构了 AI 黑盒如何一步一步的涌现出类人认知。比如,在下面这个例子中,GPT-4 解释出算法是如何一层一层的加深对语料中的 Kat 一词的认知的。

Many of our readers may be aware that Japanese consumers are quite fond of unique and creative Kit Kat products and flavors. But now, Nestle Japan has come out with what could be described as not just a new flavor but a new "species" of Kit Kat.
layer 0: “uppercase ‘K’ followed by various combinations of letters”
layer 3: “female names”
layer 13: “parts of words and phrases related to brand names and businesses”
layer 25: “food-related terms and descriptions”

GPT-4 在这个过程中所起到的翻译角色,与从英文到中文的翻译类似,只是翻译的源语言变成了只有机器才懂的语言。Rao 认为,那很可能是一种更加高效的语言。

几个月前,我在一次内部讨论中说,LLM 是一个语言辅助工具,当时被认为是一种局限的看法,实际上,我认为这个认知没有什么错,语言本身就已经足够大,它不仅仅包含我们的口头或书面表达,而可能就是我们大脑中无意识流动着的电信号的表征。大语言模型读取这些信号,并在合适的上下文中进行转译,输出成我们所需要的内容。

比如文中提到的经典梗:

在摘要和详情之间反复横跳正反映出人类沟通需求中的多样性。当我们说一个人善于沟通,其实是在说他善于在不同的上下文中使用不同的沟通风格,该简则简,该繁则繁。在展开和压缩之间,还能保持信息传递不被扭曲。

在 Rao 的设想中,大语言模型会让人类之间的直接交流变得更加简单和直接,甚至于,人类不再需要传统意义上的语言表达,而只需要脑机接口,加上情感、手势和身体语言模式,就能完成人际沟通的任务。

What about unmediated human-to-human communication? To the extent AIs begin to mediate most practical kinds of communication, what’s left for direct, unmediated human-to-human interaction will be some mix of phatic speech, and intimate speech. We might retreat into our own, largely wordless patterns of conviviality, where affective, gestural, and somatic modes begin to dominate. And since technology does not stand still, human-to-human linking technologies might start to amplify those alternate modes. Perhaps brain-to-brain sentiment connections mediated by phones and bio-sensors?
人与人之间的非中介交流?随着人工智能开始介入大多数实用的交流形式,人与人之间的直接非中介交流将以闲聊和私密交流的形式存在。我们可能会退回到自己的语言无关的交往模式,其中情感、姿态和肢体语言开始占据主导地位。而且,由于科技不断发展,人与人之间的连接技术可能会开始放大这些替代模式。也许会有由手机和生物传感器介导的脑与脑之间的情感连接?

作者认为,人类社会不必继续以自然语言作为机器代码的基础,因为其他物种也可以用更简单的语言或没有语言来进行交流。

There is no fundamental reason human society has to be built around natural language as a kind of machine code. Plenty of other species manage fine with simpler languages or no language at all. And it is not clear to me that intelligence has much to do with the linguistic fabric of contemporary society.
没有任何根本的理由让人类社会建立在以自然语言为机器码的基础之上。许多其他物种以简单的语言或者根本没有语言也能够完美的应对。我不清楚智能与当代社会的语言结构有多大的关系。

此外,作者认为,电视等屏幕媒体已经在过去的半个世纪里推动了人际关系的类似转变,人们已经开始使用电视节目和电影的引用来塑造自己的语言方式。其中一个值得注意的例子是大量在即时通讯软件和社交媒体上使用的 GIF 图,很多都是从影视节目中截取的高能片段。

How Miro Builds Product by Lenny Rachitsky

Lenny Rachitsky 在最近的 newsletter 中介绍了 Miro 产品团队的工作方法。Miro 是一种在线协作白板工具,用于团队协作、头脑风暴、项目管理、设计思维和远程教育等领域。

首先,从组织架构的角度来看,产品组织被定义为:

Today the product organization is a cross-functional team composed of Analytics, (Product) Marketing, Product, Engineering, and Design—or AMPED for short.
今天,产品组织是一个由分析、(产品)营销、产品、工程和设计组成的跨职能团队,简称 AMPED

这 5 个职能又被重新组合到业务线中,形成矩阵式的组织。换句话说,每条业务线中都会包含 AMPED 这五个职能的成员。

Miro 的产品战略被称为 The Painted Picture,规划流程分为 3 个步骤:

  1. 产品领导团队确定年度优先事项和要追求的初始措施清单,并从过去一年中选择应继续或停止的措施,并新增新的措施。
  2. AMPED 领导团队会聚集在一起,讨论优先事项,解决冲突,做出取舍决定,并开始思考人员配备以确保所有职能中都有适当的人员参与最重要的措施。
  3. 最后,700 多人的 AMPED 团队(其中有 50 个产品经理)审查产品策略。产品策略文件与所有人分享;策略在全体会议上由我介绍,我们还举行问答环节,AMPED 领导人(不仅是产品领导人)回答问题。此阶段是建立广泛认知,为团队提供明确的目标。

这个流程中可能产生的问题:

  1. 重复的举措:每个团队都必须定义其目标和举措,这导致了不同层级的团队在不同的关键结果中添加相同的举措。这使得难以追踪执行情况,也没有为团队提供清晰度或一致性。因此,我们减少了额外的层级,现在有公司级、AMPED 级和产品流级别的 OKR,每个团队只需决定支持哪些 OKR。这为团队带来了非常必要的一致性和清晰度。
  2. 太多时间花在“过程”上:季度规划需要很多时间。此外,同一负责人必须在多个追踪论坛上提交更新。这导致花费了大量时间来遵循流程,但效果并不好。因此,我们改为半年一次的 OKR 频率和每月较少的 OKR 追踪,大大减少了重复和与流程相关的工作。如果需要,我们还会进行季度性的检查,以进行纠正。例如,如果 KR 指标不再相关,或者基于滚动预测,我们需要调整目标。
  3. 太多的优先事项:我们看到每个目标大约有 3 至 5 个 KR。在每个层级上,我们创建了新的指标、仪表板和每月追踪报告,使得难以获得我们共同优先事项的全面概述。很明显,我们没有推动重点。因此,我们开始限制目标和 KR 的数量(3 至 4 个目标,2 至 3 个 KR),从顶层开始进行重点关注。

Shortform

David Bowie:

If you feel safe in the area you’re working in, you’re not working in the right area. Always go a little further into the water than you feel you’re capable of being in. Go a little bit out of your depth. And when you don’t feel that your feet are quite touching the bottom, you’re just about in the right place to do something exciting.
若你在所从事的工作中感觉安全,那么你就不是在正确的地方。要比你认为自己能够做到的更进一步,踏进深水。当你感觉不到脚底的沙滩时,你就差不多到了可以做一些激动人心的事情的地方。

via https://www.nzscapital.com/sitalweek/sitalweek-395

Longform

本周没有很多完整的时间阅读。翻了一些杂书,但最后在家人的推荐下,决定阅读一本经典的心理学著作《自卑与超越》。这本书的作者是奥地利精神分析学家阿尔弗雷德·阿德勒,探讨了人类心理的本质和心理问题的根源,主要阐述了阿德勒的个体心理学理论,强调了人类对于自我价值和归属感的渴求,以及个体如何通过自我超越来克服自卑感。

在译者序中,我找到了对「自卑情结」的大致定义:

到底何谓“自卑情结”?阿德勒说,如果一个人在面对一个棘手的问题时,感觉自己无能为力,由此产生的情绪就叫作自卑情结。

以及:

有严重“自卑情结”的人,不一定都表现得安静、顺从、内敛,与世无争。有时,一个人举止傲慢,表现强势,夸夸其谈,其实也是在用外在的优越感来掩饰内心的自卑。实际上,每个人内心深处都或多或少的隐藏着一些自卑情结,而现代社会激烈的竞争、高压的环境更容易使人产生心理落差,激发隐藏于心中的自卑。

这就是说,看上去外表强悍的人,内心也会有自卑情结。

书的第一章讲到了三个基本事实:

  1. 人生在地球上,无法脱离,我们只能不断发展自身,才能求得生存。
  2. 地球上还有其他的人,人若要生存,就要依赖和其他人的关系。
  3. 人分性别,无法逃避婚姻与爱情的关系。

因此,

倘若一个人面对“生活意义”这个问题,想要为他人贡献自己的力量,并以此为个人目标,他会知道该如何塑造一种令自己满意的人格,并时刻处于为他人利益、社会利益着想的情境中。他会以社会感觉来调整自我,并训练自己,从中获得应有的技能。假如一个人已经确定了目标,那么,训练这种技巧便是顺理成章的事。他将不停地提高自己,以便于处理生活中遇到的这三种问题,而他个人的技能也将随之提升。比如,当我们在面对爱情和婚姻时,假如我们和伴侣是真心相爱的,同时,我们也将丰富另一半的生活作为自己的目标,那么,我们一定会竭尽全力展示出自己的才华和能力。相反地,如果我们并没有这样的目标作为支撑,只是虚幻地想象着提升自己,那么,我们就像是在演戏一样,会越发感觉到不自在。

大概读到这里。

← Back to Newsletter Archive