04/02/2023: Seeing

April 1, 2023

本周的主题是 Seeing 看见。

Essays

本周推荐三篇文章，其中除了 Note 是我加的，其余部分都是摘要。

第一篇是中金分析师肖俨衍的读书笔记，回顾了深度学习技术的发展历史。虽然我今年也花了不少时间在这个主题上，但他选择的这本书和这个切入点都很好，离今天的 AGI 发展也很近，所以有很多值得注意的知识点。

另外一篇则是「评论尸」写的短文，试图把 AIGC 和 web3 两个大的主题联系起来。我认为这个领域还会有更多的分析出现，这一篇应该只是一个开始。

第三篇是 Tim Ferriss 播客的文本实录，由 Naval Ravikant 对谈 David Deutsch。我用机器翻译了全文（25000 多字），并摘录了其中一段讨论 AGI 对齐（alignment）问题的精华。

上周发布了 AI 杂记 3，回顾了语言作为人机界面的一些学习笔记。

【读书】深度学习发展史：相信和看见 by 肖俨衍

Hinton 推动 1980 年代神经网络发展。Geoffrey Hinton 出生于 1947 年英国，他的家庭从祖爷爷辈（George Boole，逻辑学家）开始就是科学世家，此后家族里面科学家辈出。Hinton在想研究人脑，并且阅读了加拿大生理学家 Donald Hebb 的著作《The Organization of behavior》，这本书提到“关联反应的神经元，同时也连在一起”。正是这个理论，启发了前文提到的 Rosenblatt 等人工智能学家，因此 Hinton 认为生理学和人工智能科学底层是相通，可以互相促进的。然而，1970 年代，Hinton 求学时候，神经网络却是一门不受待见的边缘学科，甚至在爱丁堡大学求学期间，Hinton 的导师都跟随 Minsky 的脚步放弃了神经网络，拥抱了 Symbolic。Hinton 说他和导师每周一次的会面经常是大吵来结尾，可见 Hinton 真的是热爱才选择这个方向。此外，Hinton 并不擅长计算机科学，他也不喜欢数学，但是他相信只要让机器模仿大脑思考方式，就能打造出强大人工智能。
Goodfellow 提出一个颠覆式创新的想法——为什么不训练两个神经网络模型，其中一个生成图片，一个来验证生成图片是否足够逼真呢？这样，两个模型可以互相促进，直到生成的图片足够逼真（能够骗过机器）为止。这个想法被其他博士生嗤之以鼻，但是 Goodfellow 决定自己尝试，且取得了不错的效果，他在论文中将这个模型命名为Generative adversarial network（简称 GAN）。2016 年，杨立昆在一次科研会议上将GAN 称为深度学习过去 20 年最有趣的创意。
Zuckerberg 找到了杨立昆，请他领军（足够分量），但是后者担忧 Facebook是否能给一个长期的科研环境（而不是追求短期回报），最初只是答应做咨询。Zuckerberg 展开了持续追求，他告诉杨立昆深度学习可以在社交网络有充分发挥空间，可以自动识别语音、图片等；长期来看，可以打造元宇宙里面的自动助手等。杨立昆问，有什么领域是 Facebook 不会做的吗？Zuckerberg 的答案是机器人（真正的）。
最终，杨立昆被打动，答应出任 Facebook AI 实验室主任，但是他提了两个条件，其一是不离开 NYU 的教职（兼任），且不离开纽约（Facebook 在纽约设立办公室）。他每周会花一天在 NYU，四天在 Facebook。此外，他要求在 Facebook 推行学术界的开放研究标准，因为只有开放可以加速研究。实际上，杨立昆的要求后来成为很多顶尖科研人才进入科技公司的标准。实际上，除了直接被科技公司高薪聘请，在深度学习军备竞赛期间，极客们觉得先创业，然后被收购的收获更加丰厚，比如杨立昆一位学生Clement Farabet（最新就任 DeepMind 研究 VP）就拒绝了 Facebook 邀请，选择自己创业 Madbits，六个月后还没推出真正产品，公司就被 Twitter 收购（上千万美元到手）。
Note: Zuckerberg 能够回答出「机器人」这个答案，应该是经过思考，但是这些思考是什么呢？不知道。
2009 年，陆奇加入微软后，负责打造了 Bing 搜索，他也成为深度学习在微软内部忠实支持者。在陆奇看来，微软的问题在于用老方法去运用新技术（New Tech，Old Way）。他觉得微软当时思维惯性仍然在 PC 的世界里，但实际上当时已经过渡到了移动互联网，他们总是为已经不再存在的市场去打造产品。
百度进入深度学习首先可以追溯到在余凯推荐下，对于 Hinton 公司的竞购，当时百度愿意匹配 GOOGLE 开出的任何价格，只是 Hinton 没有选择百度而已。此后，李彦宏就开始紧密关注深度学习。
Note: 投资不仅仅是规模化交朋友，也是加速学习和认知的方式。
Sam Altman 生于 1985 年，2005 年他创立一家社交网络公司 Loopt，获得了 Y Combinator 的投资，7 年后社交网络公司关闭， Sam Altman 直接被 Paul Graham 任命为接班人，在运行 YC 时候 Altman 培养了自己识人的能力，更不用说融资的能力。回到 2015 年当天会谈，他们谈论几个核心问题：现在成立 AI 实验室太晚了吗？他们一致认为难度很高，首先是要获得最优秀的人才，其次才可能有研究成果。他们首先联系了 Bengio，后者推荐了一些顶级 AI 人才其中就包括当时在 Deepmind 工作的 Ilya Sutskever，这些 AI 研究者们被一个独立、开放（初衷是研究成功免费共享给社会）的 AI 研究组织定位吸引，同样也被 Musk 等人对于 AGI 未来发展审慎的态度所吸引。3 周后，他们联系的 10 位专家中 9 位同意加入 Open AI（5 位有 DeepMind 工作经验，Hassabis 觉得自己被 Musk 背叛了，因为后者也投资了 DeepMind），只有 Ilya Sutskever 还在犹豫，因为 Google 给他开出 200 万美元年薪，而 Open AI 只能给他零头，最终他还是答应加入。
Altman 面临需要持续吸引顶尖人才的问题，在当时高昂人才成本下（微软的 Peter Lee 说一名 AI 科学家的成本高于一名 NFL 四分卫），OpenAI 也不得不设立营利架构（很复杂，投资者回到不超过投资 100 倍），当时创立一个不受商业干扰的科研环境的初衷只坚持不到 4 年。2019 年微软宣布投资 OpenAI 10 亿美元。在 Altman 看来，OpenAI 不管是变得更加封闭，还是变成营利性都是为了一个目标——实现有利于人类的 AGI，他认为要实现这个目标还需要250-500 亿美元（2019 年说的）。另一方面，OpenAI 这种初衷改变还是引起了一批员工的警觉，有一部分选择出来创业，其中比较有名包括基于加强学习的机器人公司 Covriant，以及 2021 年成立的开发类似大模型 LLM 的 Anthropic。

有了 AIGC，我们可以讨论 Web 3 革命了 by 评论尸

我们话说回来，AIGC 的革命是生产力的革命，它和此前的所有自媒体模式都不相同。此前所有自媒体的兴起，无论是长图文的（公众号、Medium、Newsletter），短图文的（微博、Twitter），长视频的（B 站、YouTube），短视频的（抖音、快手），音频的（播客），都是分发门槛的降低，不是生产门槛的降低。
在抖音上，你通过不断滑动、点赞和评论来协助系统为你推荐更好的内容，但这个过程往往并不直观，它的速度更慢，你需要长时间使用才能获得一个懂你的抖音，而且抖音也无法懂“现在的你”。
但在 AIGC 中，这种对用户的需求反馈是非常实时的。在使用 AIGC 的过程中，我们可能也需要几个来回，比如在现阶段我们可能也需要对 prompt 进行改进，要给 Midjourney 生成的图片点赞或让它重试等等。但它在单一需求上的进步速度是神速的，你能够看到它每一次改进都距离你的需求更近了一步。AI 可以更明确的优化给你呈现的内容，而不是靠“猜”这种模糊的方式（这种方式也存在）。

The Tim Ferriss Show Transcripts by Tim Ferriss, David Deutsch and Naval Ravikant

现在，为什么 AI 与 AGI 相反，是因为 AGI，如我所说过的，可以做任何事情，而 AI 只能做它应该做的狭窄的事情。更好的聊天机器人是用好的英语回复回答你的问题，可以为你查找信息，不会说任何政治不正确的话。AGI 越好，它的输出就越受限制。你可能无法确切地说出你所有约束的结果必须是什么，它不是在你规定它要说什么的意义上受到约束，而是你规定它要说的话必须遵循或遵守规则。
因此，如果它是一个下棋的机器，下棋程序，那么这个想法就是你必须赢得比赛。制作一个更好的这样的程序意味着必须截断它将否则会做的更多的可能性，比如输掉比赛，在聊天机器人的情况下，说错话或不回答你的问题或自相矛盾等等。制作一个好的 AI 的艺术就是极大地限制它的可能性。与它本来可能的相比，你将它的可能性限制了一万亿倍。对于每种正确的方式，都有一万种错误的方式，下棋程序也是如此。而对于完美的 AGI，可以通过查看程序并数学上证明不存在它不能产生的输出，包括没有输出。因此，AGI，就像人一样，可能会拒绝回答，它应该有第一修正案的权利。
因此，你不能对 AGI 进行行为测试，因为 AGI 可能不合作。它可能是正确的不合作，因为它可能非常正确地怀疑你要对它做什么。因此，你看到这不仅是一种不同类型的程序，它将需要一种不同类型的编程，因为没有这样的规范。

Shortform

@ DavidDeustchOxd:

(3) just means world government. Which means destroying the best existing systems of government instead of improving them. Literally the worst thing we could do. (Fortunately there's no way of doing it.)

这是一条物理学家 David Deustch 对 OpenAI 创始人 Sam Altman 的回复。Deustch 先生目前在牛津大学担任访问学者，出版过面向大众读者的科普著作 The Fabric of Reality 和 The Beginning of Infinity，两本书都获得过很高的评价。

翻译：第三点意味着世界政府。这意味着摧毁现有的最好的政府系统，而不是改进它们。从字面上看，这是我们能做的最糟糕的事情。（幸运的是，没有办法做到这一点。）

Altman 的原文是：

Things we need for a good AGI future:
- The technical ability to align a superintelligence

Sufficient coordination among most of the leading AGI efforts
An effective global regulatory framework including democratic governance

翻译：为了一个美好的通用人工智能未来，我们需要：

校准超级智能的技术能力
在主要人工智能研究之间的充分协调
包括民主治理在内的有效全球监管框架

Longform

本周开始读侯世达的《表象与本质》。这是一本解析人类认知科学的书，主要观点是：

人在思考的时候，每时每刻都在发现类比，因此类比乃是思维的核心。说得再具体一点，我们不是每周、每天、每小时或者每分钟做一次类比，而是每秒钟！是的，你没有看错，每秒钟，我们都会发现数不清的类比。

这个观点看起来很简单，但它的实质是指出了人类思维的第一性：类比。在这个大胆假设的基础上，作者推断：

当一个人说出或者写下一句话时，组成这句话的许多词都是自然而然冒出来的，并非一定要逐一挑选和推敲。因为所有词都是为了表达一个事先想好的统一意思。所以，就像组成一个词的字都是随着这个词而定的一样，所有词都随着更高层次的思想而定。如果我们再往高看，在表明自己观点的时候，所有的句子也同样受到更高层结构的限制，尽管这个层次的限制没有对每个字笔画的限制那么严格。在对话层面，这样的限制仍然适用，因为更广的语境，譬如讨论的话题、说话的语气、参与讨论的人等，都会对说话者提出的观点进行限制。当然，对话层面的限制相比于笔画的限制来讲就松得多了。因此，总体来说，对话限制了其中的观点，这些观点则限制句子，句子限制短语，短语限制一个一个的词，词限制字，字则限制笔画和音节。

读到这一段话的时候，我眼前仿佛出现了 AI 聊天机器人的界面，闪烁的光标在不知疲倦的吐着字词。或许我们的大脑也是这么工作的，它只是没有机会用图形化界面来展现其工作原理而已。

下周是清明节假期，停更一次。本 newsletter 自 2020 年清明节假期开始发布，到现在已经 3 周年了。在 AI 的时代，或许这种通过人工组织整理信息的方式会失去它的价值，但写作的初心就是 learn / work in public，首先是为自己，然后是分享给更多人。

← Back to Newsletter Archive