湾区 AI 见闻（2024-04）

April 27, 2024

过去两周，我在湾区旅行，除了和这几年没见的老朋友 catch up 之外，也认识了不少新朋友。其中最重要的，还是感受了西海岸一如既往的技术创新浪潮。我的社交圈有限，接触到的信息也可能只是惊鸿一瞥，并不全面，而且技术发展日新月异，只能算是一个短期的切面。

Models

在美国正好赶上 Llama 3 发布，当天就在 NVIDIA 总部看到 Meta AI 的演示，第一次演示的时候，生成内容出现了极高的延迟，负责演示的黑人小哥不好意思的说，不知道是不是今天访问的人太多了，据说晚上他就能有一个私有部署的版本，应该不会出现这种拥挤排队的情况。

Llama 3 很快也上线到了 Groq 上，8b 模型生成速度奇快无比，质量也基本可用，只是 context window 稍小，只有 8k；70b 模型生成速度也比 GPT 4 Turbo 更快，但生成质量略差一点。天下武功，唯快不破，我相信，在「多快好省」四大奥义里面，「快」是仅次于「省」的一种大部分人都无法拒绝的好处。

Groq + Llama 3 的组合几乎同时达成了这两点，这对短期 AI 能够更快的落地更多的应用场景极为关键。省，意味着能够负担得起更多的用户进来使用，单位经济模型更可能跑通，也可能减轻对算力和能源的巨大消耗；快，则可能让 AI 提供更顺滑的用户体验，减少用户从好奇尝鲜到持续使用之间的阻力，也让 AI 能够用于更广泛的场景。

特别对于 Agent 工作流而言，Andrew Ng 在最新的文章中写道：

Today, a lot of LLM output is primarily for human consumption. A human might read around 250 words per minute, which is around 6 tokens per second (250 words/min / (0.75 words/token) / (60 secs/min)). So it might initially seem like there’s little value to generating tokens much faster than this.

如今，许多 LLM 输出主要供人类使用。人类每分钟可能阅读大约 250 个单词，即每秒大约 6 个 token (250 单词/分钟 / (0.75 单词/token) / (60 秒/分钟))。因此，最初看起来，以比这更快的速度生成 token 似乎没有什么价值。

But in an agentic workflow, an LLM might be prompted repeatedly to reflect on and improve its output, use tools, plan and execute sequences of steps, or implement multiple agents that collaborate with each other. In such settings, we might easily generate hundreds of thousands of tokens or more before showing any output to a user. This makes fast token generation very desirable and makes slower generation a bottleneck to taking better advantage of existing foundation models.

但在代理工作流程中，LLM 可能会被反复提示反思和改进其输出、使用工具、计划和执行一系列步骤，或实现相互协作的多个代理。在这种情况下，我们可能很容易在向用户显示任何输出之前生成数十万个或更多的 token。这使得快速的 token 生成非常可取，而较慢的生成速度则成为充分利用现有基础模型的瓶颈。

Groq + Llama 3 已经可以达到每秒 800 token 的生成速度。在屏幕上显示出来的时候，眨眼功夫就生成了一篇文章。在这样的性能或者速度下，可以想象多步串行的工作流，每一步只需要 100 毫秒这个数量级的时间，最终呈现给用户的等待时间不超过 1 秒。

在其它方面，也有诸多进展。比如微软的 Phi-3，Apple 的 OpenELM都试图在终端设备上完成 AI 推理。微软在新闻稿中引用了两段话（AI 翻译）：

“我们将开始看到的不是从大到小的转变，而是从单一类别模型到模型组合的转变，客户能够决定最适合他们的模型。场景，”微软生成人工智能首席产品经理 Sonali Yadav 说道。

微软人工智能副总裁 Luis Vargas 表示：“有些客户可能只需要小型模型，有些客户需要大型模型，而许多客户则希望以各种方式将两者结合起来。”

在终端上，或者隐私敏感、需要数据保护的场景，这些小语言模型（SLM）的用武之地还有很多。

Data

数据在 AI 产业中的价值仍然是被低估的。

我的一个不够准确的说法是：数据是模型的互补品。在上一段引用的新闻稿中，微软也证实了这一点。他们从儿童读物中获得了灵感：如果只用 4 岁儿童就能理解的内容来训练 AI 会怎样呢？儿童虽然掌握的词汇不多，但是他们仍然具有很高的智慧。微软基于 3000 个单词生成合成数据，然后在合成数据的基础上完成了模型训练。

如上上周的 newsletter 中讲到的，在使用 RAG 和 Agent Workflow 来构建应用的时候，谁离数据越近，谁就越可能掌握用户的使用场景。

数据的重要性将和复杂的地缘政治以及备受关注的个人隐私纠缠在一起，成为接下来一段时间里 AI 产品化进程中的变量。无论如何郑重承诺，人们还是更愿意相信只有在自己地盘上的才是可控的，因此，将会出现大量的本地部署的需求，以政治利益为准则的存储分布。

一家美国投资基金自行部署了开源模型，但并不允许中国团队使用这个模型。这是我听到的真实故事，其中既有普通人的无奈，也蕴含的巨大的商业机会。

这些人为的区隔可能会在一段时间内造成在一个跨国组织内，多个模型多次部署的局面，而这些模型之间是否还会有 Agent 工作流，Agents 之间能否顺畅对话，都还是未知数，都可能出现商业化的解决方案。

Applications

AI 的应用仍处于「早期采用者」阶段。它必须足够快、足够便宜才能被广泛采用。最早一批试水的工具类应用已经赚到第一桶金，但如果要走向更大的市场，这还远远不够。单一功能的工具产品需要逐渐把产品打造得更深更厚，提供更完整的工具链，嵌入到用户的工作流和数据流中。

产品也可能会在这个过程中变得更加臃肿，早期用户肯定少不了抱怨，但这似乎是产品发展的必由之路。不是横向增加功能，而是纵向加深流程，可能是一种平衡的办法。

新的用户界面正在出现。使用人工智能聊天/搜索不同于在 IM 上与真人聊天/在网络上搜索。和深入研究 HCI 的朋友聊起这一点的时候，大家深有同感：人们本来并不那么接受与机器人对话，在尝鲜的惊喜过后，很多人也多少开始厌倦于在输入框中敲一长串提示词。最早出现的产品往往只是在 API 上包了一层简单的界面，但仅仅是这样也足以创造足够大的用户价值。Prompting 仍然具有很强的实验性，仿佛是 Arrival 电影里面与神秘莫测的外星人的对话，小心翼翼而不明就里。

Perplexity 在 UI 层面上做出了值得称赞的突破，从聊天到搜索是巨大的简化，用户不需要改变原有的习惯，简短的关键词，甚至可以语法不同，剩下的交给机器来猜测。新的 Explore 界面把榜单改成了上下滑，也是在迁就用户已有的习惯。

垂直应用建立在垂直领域的 know-how 和 know-who 之上。[[Harvey]] 和 [[Abridge]] 的创始人分别从律师和医生出身，为 AI 技术找到了合理的应用场景。仔细思考，在 AGI 之前，用 AI 来解决垂直行业问题很大程度上都是用人类已有的 know-how 来设计 AI Agent Workflow，如上周的 newsletter 讲到的，就像是在叫实习生做事。

到了 go-to-market 的阶段，问题就转变为 know-who：是不是能够取得关键人的信任，这并不完全是一个销售问题，也包含了产品问题，从更长远来看，技术护城河需要转变为品牌护城河，因为品牌是长期信任的沉淀。

People

AI 成为湾区 tech 精英们的一个出口。如果没有 AI，在如此复杂的政经环境下，人们可能不知道该如何度过自己的中年危机。

大部分人同意 AI 存在泡沫，但仍然乐见其成。股票在升值，房产也继续坚挺。同时，大部分人也认为 AI 的确创造了新的价值，但可能在 hype 中，没有人算的清楚投资的回报周期。

美国的 H1B 工作签证抽中的概率越来越低。Stanford GSB 的朋友说她感到学校中也弥漫着一股右派的气味。这可能也让悲观情绪更具有合理性，同时也让乐观主义者更跃跃欲试，想要在不确定性中获利。

回到 AI 应用本身上来，湾区仍然跑在世界前面。在 AI Infra 上已经出现了不少公司开始产生快速增长的收入，只是他们的客户还需要搞清楚自己买来的 AI 基础设施如何再进一步转化出价值——乐观来看，美国市场对于软件服务的接受程度颇高，一种说法是人工成本高，我觉得可能单纯是一种惯性。

在更成熟的 Infra 和商业环境下，自然滋生出种种创业想法，只要产品能满足 niche 需求，就能找到盈利空间。你行我也行，大家一起上。

自驱和人才密度就会催生不同的管理哲学和组织文化。在 NVIDIA HQ 听说 Jensen Huang 同时管理 60 个直接下属的故事，并且不设任何 one-on-one，也不参加任何例会。外人看来，会觉得这是特立独行，现实是，个人能力足够强，不需要繁文缛节。

湾区优渥的自然条件也是一种天然助力。从西雅图回到湾区，我顿时觉得自己进入了一个巨大的工业园区。在 101 高速上飞驰的各色车辆，都在使劲的向前赶。和国内动辄堵车的路况相比，这里的每个人都有更多空间和时间，做一些不同的事情。

差点忘了说：这是一个上限高，下限也很高的地方。Downtown 在 Covid 之后肉眼可见的衰败，流浪汉随处可见，我租来的车在 Oakland 街头被破窗，行李全部被偷走，也是此行一段难忘的经历。由此，也更能理解为什么 AI 可能会给人更多的安全感。

← Back to Newsletter Archive