AI 杂记 3

March 29, 2023

事到如今，我们当中的更多人开始确信，一个新的技术周期已经到来。本周 Bill Gates 发表的文章 The Age of AI Has Begun 中以非常个人化的视角描述了目睹时代降临时的那种感受：

第二个大惊喜就在去年出现。自 2016 年以来，我一直在与 OpenAI 团队会面，他们的稳步进步给我留下了深刻的印象。在 2022 年年中，我对他们的工作感到非常兴奋，以至于我给了他们一个挑战：训练人工智能以通过进阶选修生物学考试 … 9 月，当我再次与他们见面时，我敬畏地看着他们向 AI 模型 GPT 提出了 AP Bio 考试中的 60 道选择题——答对了其中 59 道题。

Gates 旋即开始展望 AI 技术可能帮助解决一些「不平等」问题，这一点令人惊讶，因为在技术革命的短暂历史中，令人记忆深刻的往往是它如何带来了贫富差距，但 Gates 认为，AI 将人类解决那些最困难的医学问题，而医疗健康是人类最大的不平等。紧跟而来的，就是教育和气候。

本周知乎上也有一则讨论：GPT-4 和文心一言能取代知乎吗？答主「乌合之子」写道：

当然我觉得，像文心一言、GPT 这些东西，与其说取代知乎，不如说取代某些知乎的答主。

这可能是今天社交媒体上最主要被关注的话题：AI 和人的关系到底是什么，技术会替代谁？是否又会像某些意见领袖所承诺的那样，在另外一些地方创造出新的工作机会？而哪些工作机会又是否与你我有关？

在讨论这些问题的时候，两派意见会同时出现：一派担心人类社会会经历又一次的技术替代，而这一次影响的范围大大超出以往，甚至可能产生作为智能物种的存在主义危机；而另一派则坚持认为机器难以拥有真的智能，无论 GPT 出到第几个版本，都可能只是又一次资本和技术的泡沫。

一方面，我们对未来满怀忧患，另一方面，我们又对当下心存怀疑。正是这种矛盾的心态令人左右为难。当我看到那些帮助人翻译、总结或改写润色的小工具快速涌现的时候，就在想，它们其实和早年在 App Store 上出现的手电筒应用是不一样的，因为后者只是在一个人工控制的竞争生态中最终没有生存空间——而这些基于 GPT 的小工具则可能在机器的支配下失去了需求自身的合理性：人类的语言最终还会存在吗？如果一切都将在充沛算力的辅助下得到自动翻译，我们为什么还要在意语言的差别呢？

在 Sam Altman 的 Moore's Law for Everything 中，预言是以一种极为中立和冷静的方式得到表述的：

In the next five years, computer programs that can think will read legal documents and give medical advice. In the next decade, they will do assembly-line work and maybe even become companions. And in the decades after that, they will do almost everything, including making new scientific discoveries that will expand our concept of “everything.”

This technological revolution is unstoppable. And a recursive loop of innovation, as these smart machines themselves help us make smarter machines, will accelerate the revolution’s pace.

在未来五年内，能够思考的计算机程序将阅读法律文件并提供医疗建议。在接下来的十年里，它们将进行流水线工作，甚至可能成为伴侣。在此之后的几十年中，它们将几乎做任何事情，包括发现新的科学发现以扩展我们对“一切”的概念。

这场技术革命是不可阻挡的。而这些智能机器本身帮助我们制造更聪明的机器形成了一个递归循环创新模式，加速了革命进程。

和 Gates 一样，他倾向于认为 AI 和过往的技术革命一样，会带来大量的财富创造，这种蛋糕会不断变大的假设经过了几轮周期的验证，很容易得到公众的认可。但机器和人类的关系也在朝向一个快速单向发展的轨道前进。技术革命的历史就是自动化的历史，在这个进程中，机器可以理解成是人能力的延伸和放大，也可以认为是在无限细分的产业分工中占领了更多的环节。尽管经济学家可以通过统计数字来证明：新技术会创造大量的新工作机会，但落到个体身上，这种替代很可能是个人境况不可逆转的变差——美国锈带中产阶级的悲歌已经被各种纪实报道、文学和影视作品充分表述了。

Altman 文章的大部分用来提出他的政治经济构想，即 American Equity Fund。它看上去有点像基本收入（UBI）的概念，但建立在对股权和土地产权的公共所有权和收益权上：

The American Equity Fund would be capitalized by taxing companies above a certain valuation 2.5% of their market value each year, payable in shares transferred to the fund, and by taxing 2.5% of the value of all privately-held land, payable in dollars.

American Equity Fund 将通过对估值超过一定金额的公司征收每年市值 2.5% 的税款，并以转让给该基金的股份形式支付，以及对所有私有土地价值征收 2.5% 的税款并以美元支付来进行资本化。

AEF 的初心来自于 Altman 对资本主义本质的理解，他认为，资本主义会为投资于增值资产的人提供回报，而最大的增值资产就来自于企业和土地。在 AI 降临之后，资产增值难以如以往一样归因于个人劳动，因此，AEF 将通过征税的形式向全民共享这一收益。

相比 UBI 的固定现金支付而言，AEF 的好处在于它听上去赋予了更强的包容性和意义感。这种类似「分红」的形式，能够让个人劳动仍保有价值贡献的感觉——尽管这种联系可能根本不存在——但它至少尝试回应了对 UBI 的一种普遍批评（A World Without Work）：

The UBI fails to take account of these responses. It solves the distribution problem, providing a way to share out material prosperity more evenly; but it ignores this contribution problem, the need to make sure that everyone feels their fellow citizens are in some way giving back to society.

UBI 没有考虑到这些反应。它解决了分配问题，提供了一种更公平地分享物质繁荣的方式；但它忽略了这个贡献问题，即确保每个人都感觉到自己的同胞在某种程度上回馈社会的需要。

Daniel Susskind 提出的这个 contribution 的概念的确比一般在此主题下会经常讲到的 purpose 或者 meaning 要更准确。个人的意义感实际上来自于他对社会的贡献，这是一种基本连接，是人与社会共生的基础。机器的崛起正在替代这种「共生」关系。

对于 AI 的政治经济学演绎，不再展开。

在张笑宇的《技术与文明》一书中，他这样写道：

在我看来，人与机器之间的边界，最危险之处并不在于机器能够变得多么像人，而在于人在多大意义上已经变得像机器——像机器一样只在规范之内定义自己，接受权威灌输和社会主流观念的潜移默化以及消费主义的各种操纵，而无力反思更高层面的问题。毕竟，脑神经科学已经提醒我们，人的自由意志能力，并不体现在他们愿意做什么，而体现在他们不愿意去做什么。 —— 第十二章人与机器的边界

这段话乍读是有点拗口和费解的。它的本意可以用小麦陷阱的例子来解读，这个例子最初来自于赫拉利的《人类简史》：

在农业革命这件事情上，人类以为是自己驯化了植物，但其实是植物驯化了智人。就拿小麦来说，小麦的确给人类带来了丰富的淀粉，看起来促进了人口的增长和社会的进步，但从具体入微的角度而言，小麦却需要智人从早到晚的种种照料：智人得为小麦除去田里的石头、杂草，还要驱虫治病，灌溉施肥。如此一来，智人就被束缚在田地里，辛勤劳作，还出现大量疾病，例如椎间盘突出、关节炎、疝气等。智人的食物品种也因此变得单一，而且一旦小麦减产，人口大量增长之后的智人还会面临饥荒风险。为了抵御这种风险，智人们必须抢占土地、争夺粮食，暴力行为产生的致死比例大约会由游猎部落时代的 15%—20%上升到农业部落时代的 30%—50%，因此，暴力机构必须产生，国家和阶级必须被发明，最终，培养小麦的农民，反而变成了社会的最底层，任人宰割。

这个解读的视角的有趣之处在于它离开了人类中心的本位，重新阐释人与外部世界之间的关系。人是物种，小麦也是物种，两者虽然在食物链的不同位置，但确实是一种共生的关系。在这个意义上，机器或者技术也可以理解成是小麦一样的物种，它依赖于无数人类的头脑，从自然中被无意发掘，并从无数个碎片组合而来。

说不清到底是谁驯服了谁，或许这就是 J. C. R. Licklider 提出的「人机共生」预言，他在 1960 年发表的 Man-Computer Symbiosis 中认为，「人机共生」作为一种新形态的人机系统形态，不同于以往的「机器作为人的延伸」，因为 Symbiosis 共生这个词的本意就是指不同类型的官能通过紧密连接和联合形成的协作体。

Lick 明确指出，「机器作为人的延伸」的范式已经出现在自动化工业革命中，而人工智能则意味着全新的范式转移——严格意义上来说，由于前者依赖于人类给出明确指令，而机器只是负责执行，因此整个系统的瓶颈（越来越多）在于人的这一侧，这个系统充其量只能算是一个「半自动化」的系统。机器的最大功效还远未达到。

在 Lick 的文章中，他举出一个例子：

... 将计算机有效地引入“实时”思考过程中，这个过程所需的时间太快以至于无法以传统的方式来使用计算机。例如，试想一下，在如此紧张的时间表下借助计算机指挥战斗。你今天制定问题，明天与程序员共同解决问题，下周电脑只用 5 分钟来组装你的程序，并用 47 秒钟来计算答案。你得到一张 20 英尺长、充满数字的纸张，而这些数字并没有提供最终解决方案，只是建议通过模拟探索应该采取哪种策略。显然，在第二步规划开始之前战斗就已经结束了。要像与能够补充自己能力的同事一样与计算机进行交互式思考将需要比示例所暗示和现在可能性更大的人机紧密耦合关系。

这个例子用了战斗指挥的例子，暗示了最初的计算技术的主要使用场景——这个场景实际上比普通人的日常生活对「实时」的要求更高，对信息接收、处理和反馈的要求更高，需要指挥官能够综合多方面的输入做出明智的判断——错误的代价往往是巨大且不可逆转的。在这样相对极端的例子中，「人机紧密耦合」的关系就显得极为重要，这才是 Lick 提出的「人机共生」的本质。

Lick 检视了自己一天的工作过程，记录自己作为一名科学家的「思考」日志，发现实际上大部分的工作时间都是在「准备进入思考的状态」，其实质就是机械的信息收集和处理。在那个算力极度匮乏的年代，Lick 就预言，这些工作终将被计算机取代，而 computer 一词的定义也将被重写为：a wide class of calculating, data-processing, and information-storage-and-retrieval machines（一类广泛的计算、数据处理和信息存储与检索机器）。

在这篇只有短短几页纸的论文中，他这样写道：

As has been said in various ways, men are noisy, narrow-band devices, but their nervous systems have very many parallel and simultaneously active channels. Relative to men, computing machines are very fast and very accurate, but they are constrained to perform only one or a few elementary operations at a time. Men are flexible, capable of "programming themselves contingently" on the basis of newly received information. Computing machines are single-minded, constrained by their " pre-programming." Men naturally speak redundant languages organized around unitary objects and coherent actions and employing 20 to 60 elementary symbols. Computers "naturally" speak nonredundant languages, usually with only two elementary symbols and no inherent appreciation either of unitary objects or of coherent actions.

正如以各种方式所说的那样，人类是嘈杂、窄带的设备，但他们的神经系统具有非常多的并行和同时活跃的通道。相对于人类而言，计算机非常快速和准确，但它们被限制在一次执行一个或少数基本操作上。人类是灵活的，在接收到新信息后能够「有条件地编程」自己。计算机则是单一思维的，并受其「预先编程」的限制。人类天生使用围绕着单元对象和连贯动作组织起来、采用 20 至 60 个基本符号的冗余语言进行交流。计算机则「天生」使用非冗余语言进行交流，通常只有两个基本符号，并且没有关于单元对象或连贯动作方面内在意义上的理解。

在此基础上，他认为，至少在「人机共生」发展的早期阶段，人类仍然扮演设定目标、构建假设、提出问题、建立模型的角色，特别是在一些低概率出现的场景下，人类需要「补位」。而机器将需要将人类提出的假设转化为模型，并结合数据开展实验，进行模拟和统计推断，并最终返回结果。

Lick 创造性的提出了分时系统（time-sharing system）来解决算力的局限问题，也设想出一整套现代计算机普遍使用的输入输出系统，而更重要的是，他看到了「人类语言和计算机语言之间的基本差异可能是真正共生的最严重障碍」，而这最后的屏障正在被拆除。

语言就是所需要的一切吗？2023 年 2 月，微软团队发表了一篇题为 Language Is Not All You Need: Aligning Perception with Language Models 的论文，公布了多模态大语言模型 Kosmos-1。此后不久，Bing 就增加了相应的图片理解能力。论文中写道：

Properly handling perception is a necessary step toward artificial general intelligence. The capability of perceiving multimodal input is critical to LLMs. First, multimodal perception enables LLMs to acquire commonsense knowledge beyond text descriptions. Second, aligning perception with LLMs opens the door to new tasks, such as robotics, and document intelligence. Third, the capability of perception unifies various APIs, as graphical user interfaces are the most natural and unified way to interact with.

适当处理感知是通向人工智能的必要步骤。感知多模态输入的能力对大语言模型至关重要。首先，多模态感知使大语言模型能够获得超越文本描述的常识知识。其次，将感知与大语言模型对齐打开了新任务的大门，例如机器人技术和文件智能。第三，感知能力统一了各种 API，因为图形用户界面是最自然和统一的交互方式。

随后，该团队引用了自己更早的一篇论文中的观点，讲道：

The large-scale language model serves as a generalpurpose interface not only for language tasks, but also for vision, and multimodal task.

大规模语言模型不仅可用于语言任务，还可用于视觉和多模态任务，作为通用接口。

这里的观点实际上承认了 Language is all you need - 语言就是通向 AI 圣杯所需的一切。

Steven Pinker 用《语言本能》整本书表达了一个重要的观点：语言是人类的本能，是洞悉人性的一扇窗。尽管如此，Noam Chomsky 在最近的纽约时报专栏中发表了类似的观点，但他怀疑大语言模型本身：

For instance, a young child acquiring a language is developing — unconsciously, automatically and speedily from minuscule data — a grammar, a stupendously sophisticated system of logical principles and parameters. This grammar can be understood as an expression of the innate, genetically installed “operating system” that endows humans with the capacity to generate complex sentences and long trains of thought. When linguists seek to develop a theory for why a given language works as it does (“Why are these — but not those — sentences considered grammatical?”), they are building consciously and laboriously an explicit version of the grammar that the child builds instinctively and with minimal exposure to information. The child’s operating system is completely different from that of a machine learning program.

例如，一个年幼的孩子正在习得一种语言——无意识地、自动化地和迅速地从微小的数据中发展出了一套文法，这是一个极其复杂的逻辑原则和参数系统。这个文法可以被理解为内在、基因安装的“操作系统”的表达方式，赋予人类生成复杂句子和长篇思考能力。当语言学家试图开发一个关于为什么某种语言以特定方式工作的理论时（“为什么这些——但不是那些——句子被认为是符合语法规则？”），他们正在有意识而费力地构建儿童本能且接触信息最少所建立起来的文法明确版本。孩子们使用的操作系统与机器学习程序完全不同。

Chomsky 的看法恐怕也是很多人在深入了解大语言模型的工作原理后的反应。这种思考是解剖式的，也就是在了解了内在原理之后对机器模型和人类语言本能进行了比较。关键在于，Chomsky 和 Pinker 这一代人并没有机会对人类大脑做出「解剖式」的分析，也就难以真正预判 AI 的上限在哪里。

← Back to Newsletter Archive