AI 杂记 4

April 30, 2023

这个「AI 杂记」系列写到了第四篇。回头来看，第一篇基本上是一篇入门论文的文献综述；第二篇则翻起了故纸堆，回头看 AI 发展的历史；第三篇则提出了Language is all you need 的乐观信号。

第四篇将着重分析人机关系。

Software Layer

一篇题为 Replacing Middle Management with APIs 的文章引起了我的注意。主要原因来自于现实中的管理困境。在多番调整后，有数十人向我直接汇报，我开玩笑称，这已经几乎变成一个「管理学奇迹」——是不是「奇迹」不知道，它必定是一个困境。我和 HR 负责人讨论到，一般意义上的管理带宽大概是 7-8 人，而之前看到一本 McKinsey 的内部手册 Daniel on McKinsey，其中更严格的规定了合伙人与下属之间的比例应该为 1:4，才能保证合伙人有充足的时间给到每一个下属，提供相应的指导和培养。显然，在现有的组织结构下，这种比例显然无法满足这种奢侈的要求。

而这篇文章的标题听上去描绘了一个令人激动的场景：用 API 来做中层管理。读后发现，它写作于 2015 年，用 Uber 和 Mechanical Turk 为例子，提出了 software layer 的概念：

The software layer between the company and their armies of contractors eliminates a huge amount of middle management, and creates a worrisome disconnect between jobs that will be automated, and jobs of increasing leverage and value.

公司与他们的合同工之间的软件层消除了大量的中间管理，并在被自动化的工作与不断增加杠杆的工作之间创造了一个令人担忧的断层。

作者在文中用「伪代码」的形式试图证明，类似 uber.drive(card, pointA, pointB); 这样的程序把简单劳动者去人格化了，而编写代码的高级劳动者只可能从一些被高度抽象的趋势或分类数据中做出策略决策，改变代码中的某些设定，但后者难以理解这些代码变更将对前者的生活造成何种影响。

软件断层的出现，正是在 Marc Andreessen 高喊 Software is Eating the World 的年代（2011 年）发生的。而软件二字，与硬件相比，似乎仍然具有一些生命体征，其中包含着人类造物主的意志。今天来看，软件的确是有生命的，但却可能涌现它自己的意志。

一篇 8 年之前的文章自然无法预言今天出现的技术图景，作者仅仅在文末提及自动驾驶汽车和无人机将会替代 Uber 司机和 Amazon 快递员。8 年过后，这种替代仍然没有大规模的部署，令人意外的确实编写软件的程序员有可能先把自己革命了。AI 在大语言模型上突破，突破了「最后的屏障」（见：AI 杂记 3），这种理解和处理能力在过去两周已经展现出一种崭新的网络效应：Auto-GPT 这样的「机器与机器对话」的方式虽然听起来像是一种粗粝的暴力破解，但的确改变了多年以来的「人机共生」的范式，而变成无人值守式的机器之间的协作。人类驾驶员只需要给出一个目标，机器就会自动进行任务拆解，只要能源和算力足够，这种递归就会一直进行下去，直到任务完成。

这时候，software layer 已经不仅仅是 8 年前所预想的那样简单，它不仅仅会造成劳动者（被自动化 vs. 通过自动化获得增值）之间的断层，更可能造成人与机器之间的断层。产生断层的关键在于谁能在工作中持续获得增值，无论是知识、经验、技能的增加，还是关系网络的建立，这些都是经典意义下的「人力资本」的积累。我们看到了 Uber 司机并未产生这种积累，他们的驾驶技术也将被无人驾驶替代，而在今天看来，更多的人类劳动者都可能逐渐面对甚至接受这种毫无意义的工作——如果不是被完全替代的话。

回到一开始我提到的管理问题。管理知识工作者无疑是更加复杂的，因为任务本身就是复杂的，其中的激励、创意、人际关系等等因素都需要反复的、细致的沟通才能推动工作的进展。沟通本身就是通过语言完成的，其本质就是语言的理解和处理。无论是 1 对 1、多人会议还是邮件或文档，一切沟通都需要以语言为主要媒介才能完成。我意识到，书面沟通的好处在于它一旦被创建出来之后，后续沟通的边际成本几乎为零，邮件周报几乎成了我最高效的管理杠杆。但周报如同 Uber 时代的 software layer 有类似的问题：

无个性化，所有人读到的是一样的内容。
无互动性，因而也就不知道读者的反馈，以及是否真的阅读并理解了。
无社交性，读者彼此是隔离的，他们不知道其他人读完之后的反应。

在 GPT 来临之后，我可以通过简单的 prompt 简化掉大量的总结和摘要的工作，但它更像一个语言处理软件，无法解决上面的三个问题。这其实也是 software layer 产生隔绝感的根本原因，Uber 司机是如何被隔绝的，知识工作者也会以同样类似的方法被隔绝。

按照 Marshall McLuhan 的观点，周报这种形式本应该是一种低清晰度、高参与度的冷媒介，它需要受众尽可能多的参与进来；但真实情况是，它和当代流行的大多数内容一样，都要尽可能做到高清晰度、低参与度，只有这样才能让受众「收到」足够多的信息量（对这个理论不熟悉的读者可以参考 @凯鹅在知乎上的回答）。

McLuhan 没有什么自然科学或工程背景，但却善于用通信学概念来解释媒介。管理带宽也是一个通信概念，是指某个信号在一段时间内通过一个信道或媒介传输的最高数据率，它通常收到信号传输距离、传输媒介特性、信噪比和设备性能等多种因素的影响。你看，这些因素都能在管理机制中找到对应的概念，扁平化的组织结构会带来更近的传输距离，但同时也对传输媒介、信噪比等因素提出了更高的要求。

有趣之处在于，理解媒介一书还有一句话：

知识分子的角色，从古至今都是新旧权力集团之间的联系人和中间人。

听上去，就像是这个 software layer。

除了让写周报变得更快，AI 到底能在管理中帮助我们做些什么？个体能力的放大（augmentation）意味着，在 AI 的帮助下，一个人就可以独立完成一些原本需要多人协作才能完成的任务——比如：一份研究报告的撰写本来需要 3 个人分工，并最后整合到一份文档中，现在可能有一个人写个提纲，然后通过和 AI 的互动就可以更快的完成撰写。

这意味着多人协作关系的减少，但新的协作关系也会在更高的抽象层面上诞生。比如前面提到的研究报告，由于其价值的降低，更可能坍缩为聊天对话中的一小段，这就意味着，人们可以在单位时间的讨论中进行更多的有效信息交换，并在这些信息的基础上，推动讨论进入更深的层次，做出更多的推理和预判。

人与人的协作 → 人与机器的协作，这样的范式转换已经发生了上百年，从效率进步的角度看，无疑是划算的。但它所造成的问题，无论是短暂的失业问题，还是长久的社会变迁，都源于人与人之间的协作关系发生了破裂。

在 Twitter 上看到一封 Steve Jobs 在去世前 13 个月的时候写给自己的邮件，其中最后一段写道：

I love and admire my species, living and dead, and am totally dependent on them for my life and well being.

人类的个体是弱小的，我们通过协作来放大个体的能力。技术也正是依赖于人类协作而诞生和进化，软件和 AI 都是这样的例子，它们过去是人类协作的界面或媒介，而今天却有演变为协作终端的趋势。我们抵挡不住这种诱惑，因为机器更加单纯，越是追求效率，就越不愿意采取面对面谈话的方式来沟通和协作；而即便是书面沟通，也并不理想，你去看法律合同，看似严谨的表面之下，充满了似是而非的暧昧与妥协。

代码是人类发明的语言中最机械性的。只要有一点错误，就无法运行，冰冷的信息会强迫你追溯哪怕一个符号的错误。程序员们在与产品经理的会议中往往显得软弱无助，尽管在机器面前，他们如若神明。

具身、反身与容错

前段时间，我在键盘上敲周报产生了这样一段感悟：

我打字的时候，经常会想起 GPT 生成文本时，模拟出来的打字效果。有时候，恍惚觉得，不一定是谁「生成」得更好。

这种恍惚的叹息之所以产生，正是因为几乎所有的 AIGC 界面都在模拟人类缓慢而充满谬误的打字过程。这种拟人的隐喻并不是最近产生的，它是一种以人类为第一人称视角的进化选择。在 God, Human, Animal, Machine 中，作者 Meghan O'Gieblyn 将这种以人类为中心的视角概括为 Anthropomorphism（拟人论）：

Bacon believed this tendency to see humanlike agency in nature was an outgrowth of our search for meaning. Because we ourselves have goals and ends and see our actions in terms of cause and effect, we attribute similar motivations to all natural phenomena. We are eager to create narratives about the physical world as though it were composed of agents embroiled in some grand cosmic drama. This tendency, he argued, is exacerbated by confirmation bias. Human consciousness is a meaning-making machine, and once it takes note of some coincidence or pattern, it will obsessively search for more evidence to corroborate it.

培根认为，这种在自然界中看到人类行为代理的倾向是我们寻求意义的产物。因为我们自己也有目标和目的，并将自己的行为视为因果关系，因此我们也将类似的动机归因于所有自然现象。我们渴望为物理世界创造叙事，就好像它由卷入某种宏大的宇宙戏剧的代理人组成一样。他认为，这种倾向会因确认偏差而加剧。人类意识是一台寻求意义的机器，一旦它注意到某种巧合或模式，就会强迫性地寻找更多证据来证实它。

人类意识是一台寻求意义的机器。那就必须要提到一个重要的概念 Embodiment（具身论）：

具身理论认为，我们全部的概念都深深依赖身体。
……
这些相差甚远的学科之间有一个共性：它们都认为，人与自身、人与环境的交往构成了人类思维的心脏和灵魂。它们认为，人创造的概念、人的思维方式都来自这些交往。这一观点没有给脱离身体的、只受逻辑规则支配的符号思维留任何余地。换句话说，人们的思维不是依靠不固定的、无意义的符号模式。相反，思维固定在两种东西之上，也就是说，头脑中的概念有两个源泉。首先，思维通过类比固定于过去。其次，思维通过亲历亲为的身体固定于具体的世界。（侯世达、桑德尔：表象与本质 - 第五章）

简单来说就是：人类的思维和感知不仅仅依赖于大脑内部的信息处理和计算，还受到身体感觉、动作和环境的影响。人类的经验、知识和语言等都是通过身体感觉和动作与环境相互作用而形成的。

我在年初的 Generative AI 杂记中提到了「准确性预期」的概念：

业界普遍认为，此刻的 LLM 还不能作为准确的信息来源使用。尽管 ChatGPT 已经能够在很多问题下提供足够令人惊艳的回答，但它也经常会出现事实错误或者逻辑混乱的情况。我们在社交媒体上看到的那些正面例子，都是经过人类筛选后的结果。对于一个没有自我判断能力的人来说，很可能会被 ChatGPT 似是而非的回复搞糊涂。

四个月过去了，仍然未见 GPT-4 及其诸多竞争对手在这个问题上有实质性的进展。@fin 在 Twitter 上表示：

AI 应用领域路线决定性因素很简单，就是容错率，一句话总结，AI 会从容错率由高到低的行业开始“取代”人类职业。

在这个设定下，他按照容错率把 AI 取代人类的路径分为了多个等级，最简单的就是现在常见的 AIGC，比如写作、设计辅助等，大多数应用于对准确率要求不高的场景，已经开始广泛应用；与之相近的，辅助假设、视觉设计等，容错率更低，也已经可以在人工干预的情况下大规模应用。如果容错率要求进一步提升，比如在法律、金融、医疗等方面，犯错的代价指数上升，AI 就更难以取代人类。而在某些极为特殊的领域，比如重大军事决策上，AI 很难取代人类，否则后果难以设想。

@fin 的这个分析跳出了以往类似分析着重于「取代难度」的藩篱，而看重替代后可能造成何种后果，这就直指 AI 的软肋：它仍然是一套以基于训练样本的统计模型，而不具备「具身性」。也就是说，AI 无法像人类一样通过自己的身体来感知世界——生老病死，悲欢离合，肉体中的激素调节与神经反射最终构筑我们的意识和灵魂——AI 无法回答「电车难题」的根本原因就在于它没有这具肉体，无法体会那种车轮辗过的彻骨剧痛。

在上一篇 AI 杂记 3 中，我提出一个说法：Language is all you need。仅仅过了一个月，我又发现，这个说法是不妥当的，根本原因就在于：语言相对于我们的身体感知而言，还是局部而迟缓的。就在光标不断突出新的字符的时候，我的大脑中闪现而过的念头有太多中，这具用起来有些过于灵敏的机械键盘所发出的清脆响声，连同马克杯中氤氲的咖啡香气，都在隐隐的呼唤着些什么——显然，我没有足够的语言来描述这一切——事实上，我眼前的任何一帧画面都无法用语言来完全描述，但这并不妨碍任何日常生活。

只要承认了语言的局限，就不难理解 Andrej Karaphty 在 2012 年发表的一篇短文 The state of Computer Vision and AI: we are really, really far away. 中写到的含义：

It is mind-boggling that all of the above inferences unfold from a brief glance at a 2D array of R,G,B values. The core issue is that the pixel values are just a tip of a huge iceberg and deriving the entire shape and size of the icerberg from prior knowledge is the most difficult task ahead of us. How can we even begin to go about writing an algorithm that can reason about the scene like I did? Forget for a moment the inference algorithm that is capable of putting all of this together; How do we even begin to gather data that can support these inferences (for example how a scale works)? How do we go about even giving the computer a chance?

从一个简单的 RGB 值的二维数组中，可以展示出所有上述推断，这真是令人惊讶。核心问题在于像素值只是巨大冰山的一小部分，而从先前的知识中推断出整个冰山的形状和大小是最困难的任务。我们怎样才能开始编写一个能够像我一样推理场景的算法呢？暂时忘记能够将这一切放在一起的推理算法；我们怎样才能开始收集能够支持这些推断的数据（例如，尺度是如何运作的）？我们怎样才能给计算机一个机会呢？

Andrej Karaphty 是 OpenAI 的创始成员，后来到了 Tesla 担任计算机视觉的算法负责人，2023 年年初再次回到了 OpenAI。他这篇文章中试图解读一张再普通不过的新闻图片：

图片是一张人们在走廊里的图片，有一个人站在一个秤上，而奥巴马在轻轻地向下推秤，这将导致秤过高地估计这个人的体重。称重的人没有意识到这一点，但旁观者显然从中找到了一种乐趣。

Karaphty 在对这张图片的评论中提到了一些显而易见的微妙之处：

Finally, the fact that the perpetrator here is the president makes it maybe even a little more funnier. You understand what actions are more or less likely to be undertaken by different people based on their status and identity.

是的，这是一个由总统大人开的小玩笑，对于一个普通而正常的人类而言，这张图片背后隐藏的含义远远超出了画面中表达的事实，而其中暗含的叙事则难于言表。

Karaphty 最后在文中有点失望的说：

I hate to say it but the state of CV and AI is pathetic when we consider the task ahead, and when we think about how we can ever go from here to there. The road ahead is long, uncertain and unclear.

我不想这么说，但当我们考虑前方的任务时，计算机视觉和人工智能的状况令人沮丧，当我们思考如何从这里走到那里时，前方的道路又长又不确定又模糊。

写下这段话时，Karaphty 刚刚来到 Stanford，师从李飞飞，攻读他的博士学位。他研究的课题正是在自然语言处理和计算机视觉的交界地。受此影响，他在 Stanford 开设了 CS 231n: Convolutional Neural Networks for Visual Recognition，后来成为最受欢迎的一门课程。十年过去了，AI 能够读懂这张图片中的多少故事呢？

这又让我想起前两年读过一本传播学和认知科学经典《别想那只大象》：

我们对世界的理解，就是世界的一部分，而且属于世界物质的那一部分。我们的概念框架存在于大脑中的物理神经回路，远远低于意识觉知的层面，它们定义也限制了我们对世界的理解，并且影响着我们在世界中的行为。从很多方面来看，世界是我们怎样为它建立框架、怎样根据这些框架采取行动（从而创造出一个在重要部分上受我们行为所框定的世界）的一重映像。因此，一个有着固有框架的世界，由我们带框架的行为所构建，受这些框架的强化，并随着其他人在这样一个世界里的出生、成长和成熟在他们身上重建这些框架。

框架是 George Lakoff 在本书中反复提及的核心观念。他说：框架是塑造我们看待世界方式的心理结构。你听到一个词，它的框架就在你大脑里被激活了。而上面这段话意味着，框架不仅仅影响了我们的内在认知，也会通过行动投射到现实世界中。当我们意识到画面中的 Obama，就会激活相应的框架，在画面之外关联相应的身份、故事和人设，形成一整套认知。不同的人因其立场不同，认知框架各不相同，也会产生不同的反应：有的人认为那是一幅总统平易近人的景象，有的人则认为他伪善而不务正业。

George Lakoff 总结了反身性的概念：

这种现象叫作反身性（reflexivity）。世界通过我们的行为，反映出我们的理解，我们的理解反映出我们自己及他人受框架影响的行为所塑造的世界。

反身性是具身性的延展，或者说具身性是反身性的基础。正确与谬误的判断依据来源于我们自身——我不想在这里再继续用量子物理中的概念（measurement problem）继续延展哲学辩论，但我们必须认识到，所谓的「容错性」是以人类为中心的视角做价值判断的，机器既然不是人，也就不可能通过「学习」的方法获得以人的身体为第一人称视角的判断，而只能用「语料」来做概率近似。我怀疑，AI 恐怕永远也无法获得人类独有的「具身性」，在「电车难题」这样的二难问题下，永远也不可能做出令人满意的判断。

肉体总会归于湮灭，但机器却似乎可以永远运转下去。人类做了错误的判断，惩罚往往是以生命中的一部分作为代价，但机器呢？它们不会因此感到失落。就像有些孩子一边挨打，一边还要继续捣蛋一样，只会让大人更加气愤和绝望。

无论关于暂停 GPT-5 研究的请愿书是不是真的，或许在这短暂的夏天里，我们能构建出一套关于人机关系的认知框架和共识。如果机器始终无法「具身」思考，那么我们仍需牢牢把握住命运的方向盘，否则人类终将付出肉身的代价。

← Back to Newsletter Archive