范阳
2023-10-10

AI领域的幻觉,与想象力不足 | 来自 Founders Fund的John Luttig

主理人:
今天我想分享一篇有关于人工智能领域 “幻觉” 现象的文章,但是这篇文章聊到的 “幻觉” 是指人们对于AI在过去短短几个月快速发展不切实际的,先入为主的,过于乐观或者过于悲观的 “幻象” 。

 

 

 

提前祝大家假期在路途上愉快。

 

科技世界的前沿发展速度越来越快,超过了我们大多人的适应性。在过去的一周,我们又看到很多科技巨头公司以及人工智能新晋的明星公司推出了很多让人感觉到惊讶的新产品和新功能。

 

本周跟一位在 Compound VC 做 AI + Bio 投资的英国朋友交流,weird 是他们内部提到的一个热词,我说: "build something weird" is the new Think Different, 可能今天你需要去构建那些主流观点认为 “奇怪” 的产品和不合逻辑的事物,才不容易被越来越强大的科技公司用它们擅长的能力覆盖掉。

 

目前没有人真的知道下一个伟大的事物是什么,甚至很困惑创业公司还应该构建什么。市场上很多明星初创公司也会加速陨落。不过,智者会同时凭借洞察和直觉去创造,去创造那些如果没有人热切地想创造,就不会存在的事物。

 

如果你是一个创新驱动的创业者,也不是一个有限游戏的玩家,在一切技术都还没成型,一切信息都还在纠缠的混沌时刻,最优的做法是用过去完全不同的技术路线和产品形态构建自己的商业,最好的战略是既得利益者的知识体系和资源储备慢慢被时代淘汰而失效,而新的事物如何创造,你才是新的专家和引领者。当然,这可能也是我自己视角选择去看到的 “幻觉” 。

 

Hullumination or Illumination?

 

当人们在讨论机器学习和人工智能时,"hallucination" (幻觉)是现在的常见现象,它的意思是计算机可能会看到或理解一些东西,以及随口编造一些事实,但实际上那些东西并不真的存在 ( 也许存在在平行空间?)。随着机器越来越强大,对于我们来说是幻觉(hullumination) 的现象,可能对它们来说是一种启明 ( illumination )?

 

今天我想分享一篇有关于人工智能领域 “幻觉” 现象的文章,但是这篇文章聊到的 “幻觉” 是指人们对于 AI 在过去短短几个月快速发展不切实际的,先入为主的,过于乐观或者过于悲观的 “幻象” 。

 

这篇博客文章的作者来自科技风险投资基金 Founders Fund 的一名投资经理 John Luttig,他一年只写一篇或者两篇文章,今年初我分享了他的上一篇文章:Founders Fund: AI 会是下一个 Crypto 吗? 。

 

整篇文章我最欣赏他在末尾提到的一段话,所以才决定分享:

 

“ 每当你听到有人非常确定地分享一种叙事时,警钟应该在你的脑海中响起。在这个早期发展阶段,没有什么是确定的。

 

真相只会存在于那些不在公开场合的讨论当中,你必须通过深入对话和积累经验来寻找真相。唯一可信赖的来源只会是第一手资料。”

 

希望这篇文章对你有启发。

 

80年代人们对于智能手机的幻想。

 

 

 

 

AI 领域的幻觉

Hallucinations in AI

副标题:"你所知道的关于AI的一切都是由有动机欺骗的人告诉你的

 

(大部分是在欺骗自己)"

 

作者:JOHN LUTTIG

 

编辑:范阳

 

写作时间:2023年7月3日

 

自 20 世纪 50 年代以来,人工智能一直是一个 “狼来了” 的故事,预言过于夸大,结果却屡次让人失望。早期的人工智能先驱 Herbert Simon和Marvin Minsky 在 2000 年之前就预测到了通用人工智能( AGI )的出现。甚至在 2021 年,人工智能产品通常还局限在特定领域( 如苹果的Siri、亚马逊的 Alexa )、或者技术进展缓慢( 自动驾驶汽车、机器人 )或者跟某个专业领域绑定( 推荐系统、Face ID、Google 翻译、个性化广告等)。

 

人工智能似乎被困在大型科技公司和学术界的夹缝当中。在过去的十年里,大多数科技人才都将注意力集中在更有利可图的事情,例如从大型科技公司的利润池中收获丰厚的工资、然后购买加密货币、再离职创建建立30倍 ARR 的 SaaS 初创公司,或者收取越来越多的风险投资基金的管理费。

 

当 ChatGPT 在 6 个月前上线时( 本文写于 2023 年 7 月 ),甚至连在这个行业工作的人也对其迅速增长也感到吃惊。虽然科技行业( tech as an industry )变得比以往任何时候都更庞大,但人工智能领域的进展,仅由整个生态系统中的一小部分人推动,这与互联网和软件等以前的技术变革有些不同。有多少人参与了 ChatGPT、Claude 和 Bard 的构建?transformer 架构在 2017 年发表,但很少有人进行过规模化的部署。OpenAI 和 Anthropic 加起来的员工人数还不到 800 人。

 

由于仅有少数人引发的突然变化,许多科技从业者担心我们正在进入的新世界将让他们抛在身后。这种担忧会产生各种幻觉:包括希望( 大语言模型 LLM 市场的部署阶段将以有利于我自己的方式展开 )、应对( 我的市场位置并不那么糟糕 )和颓废( 比赛已经结束,我输了 )。

 

今天,这些幻觉推动了关于基础模型的夸大叙事( hyperbolic narrative ),包括对基础模型的恐惧 ( FUD, fear, uncertainty, and doubt )、开源模型的更好的表现、现有公司的无敌壁垒、投资者的狂热以及 AI 末日宣言。人们很难知道要相信什么,信任谁。每个公开叙事都应该带着怀疑的态度来观察。你也应该对这篇文章持保留态度( 相关利益声明:因为Founders Fund 投资了 Scale AI,还有一个大型基础模型提供商 )。

 

我将讨论其中一些目前很多人认为是高度确定性的结论,尽管行业的发展轨迹并非如此,充满着不确定性。

 

1. 基础模型的发展已经达到顶峰

Foundation models have already plateaued

如果你在 AI 领域工作,但不是过去 6 个月内为发布了前沿的 LLM( 大型语言模型 )做出贡献的几百名研究人员之一,那么你很有动力相信这些模型不是终极胜利者。

 

这就是为什么你会看到许多公司筹集了超过 5000 万美元的种子轮资金来构建 “更好的” 基础模型,他们的故事通常是 “OpenAI 和 Anthropic 很棒,但我们需要更便宜的模型定价、更多的开放性、更少的过滤器、更好的架构、更多的本地化、更好的专业领域特定性( domain-specificity ) ”。

 

但在 2023 年创办一家新的语言模型公司需要面对你不会是获胜者的市场位置( non-winning market position )。你可能会告诉自己一个故事,即当前的模型是历史上的终点了,将会有很多在市场上胜出的模型,或者获胜者也没有护城河。

 

我最近经常听到的一个共识说法是,GPT-5 不会比 GPT-4 好太多,这暗示我们已经到达了 LLM 能力 S 曲线的终点。我认为这是一种应对的方式( a form of cope )。如果你认为 GPT-4 是使用当前 LLM 架构能够实现的最终目标,那么会有两个结论:1) 随着其他人迎头赶上,将会有很多差不多能力的 LLM 提供者,2) LLM对当前业务状态的颠覆将最小化 (minimally disruptive to the current state of business affairs)。

 

做一个最保守的推测,很难想象在五年内我们不会获得更加深邃复杂的 LLM。但让我们先假设怀疑论者是对的,GPT-5 比 GPT-4 进步并不大。即便如此,GPT-4 仍然具有巨大的潜在生产价值尚未挖掘。利用专有数据( proprietary data )进行训练、降低推断成本,以及构建用户体验的 “最后一英里” ( training on proprietary data, reducing inference costs, and building the “last mile” of UX )将推动模型能力的阶梯性提升,释放出巨大的经济价值潜力。

 

人们在历史上接受新工具的速度也是很慢的。千禧一代用了 10 年时间才开始广泛使用 Google。我自己也仍在摸索如何最好地使用 GPT-4。但在新模型能力和围绕当前 LLM 技术构建的软件产品之间,我们不会认为 2023年是一个停滞不前的年份。

 

2. 开源人工智能模型会统治市场

Open source models will dominate

开源模型在过去几个月取得了令人难以置信的进展,从 Whisper 的分支到LLaMA。因此,许多人有很充分的理由希望开源模型能取得成功:

 

  • 不喜欢依赖大公司的独立开发者。

  • 寻求在 “多模型” 世界中获利的 VC 和人工智能基础设施初创公司。

  • 觉得自己在 2023 年人工智能故事中只是配角的创始人和研究者。

  • 没有超级云提供商能力,来收获市场上对基础设施支出收益的大型科技公司( 如果我赢不了,至少也希望你们输 )。

  • 想要一个不受任何限制的产品的人( 有些是善意的,有些是恶意的 )。

  • 文化战士们想要一个政治上无立场偏见的产品。

     

我不确定这些需求的总和是否意味着开源人工智能模型最终会获胜。公开辩论开源软件的优点是有些微妙的:开源软件是一种受保护的类别。对它说坏话是不合适的。

 

但我有一种隐隐的感觉,开源模型可能不会成为前沿的,产品化模型( frontier, productionized models )的主导模式。

 

克莱顿·克里斯滕森( Clayton Christensen )曾经认为 iPhone 的封闭系统做法永远不会奏效:

 

“ 从专有架构( proprietary architecture )过渡到开放模块化架构在历史上一次又一次地发生。这在个人计算机领域发生过 …… 你还可以看到围绕Android 操作系统组织的模块化增长速度远远超过 iPhone 的生态。因此,我担心模块化将对苹果产生重大影响。”

 

当前的开源 AI 讨论与早期的 iPhone 与 Android 辩论有相似之处。模块化、开源的方法无疑在使技术民主化方面发挥了作用( Android 在新兴市场占主导地位 )。但集成整合型的产品( integrated products )几乎总是捕获了更多市场价值。iPhone在出货量方面只占 21 %的市场份额,但在收入方面占了整个市场 50%,在利润方面占了整个市场的 82%。

 

看看当时手机操作系统的名单。最多达到了数百个。有多少最终变得重要了呢?操作系统最终的幂律分布( power law distribution )更加极端,甚至比智能手机更极端。即使在开源操作系统中,也只有一个 Linux 脱颖而出,成为幂律分布中的赢家。几乎每个技术市场都有幂律分布的结果:智能手机、社交媒体网络、云基础设施,甚至 SaaS。

 

监管机构可能出于安全目的阻止开源的前沿模型( open source frontier models ),但即使从市场力量来看,开源在大多数应用中的地位也较弱。开源提供了健康的竞争压力:来自 Facebook、Databricks、Hugging Face 等公司的模型将限制封闭系统模型的定价权和中立性。但如果大型基础模型公司滥用其权力,进行勒索性定价或极端审查,那么支持开源模型的理由将更有道理。到目前为止,我还没有看到这两种情况发生。

 

有一些情境下,开源人工智能模型是很有意义的:

 

1. 对于较大的企业来说,在地部署的开源模型( on-prem open source models )可能会成为一种关键的模式:企业希望掌控自己的命运并保护数据隐私。例如,在数据仓库的背景下,一些公司选择了 Databricks 而不是 Snowflake,因为它具有数据互操作性,而 Snowflake 则具有更封闭的产品。

 

2. 对于某些应用来说,本地处理和接近零延迟的速度( local processing with near-zero latency )比模型质量更重要( 比如实时语音转文本 )。这些应用可以在本地使用开源模型,以权衡准确性和泛化能力,以换取速度。

 

但在面向消费者的 LLM 应用程序和 SaaS 的背景下,开源模型很难超越封闭系统、维护良好的、高度集成的产品。在严格的评估标准上,前沿模型( frontier models )仍然占据主导地位,超越了开源模型。随着对 LLM 的可靠性、鲁棒性和灵活性的期望不断上升,我预计开源方法不会成为应用程序的主要模式,能捕获价值的占比会更小。

 

3. 只有大公司才能在人工智能领域获胜

Only incumbents will win in AI

AI 领域的悲观者认为这场游戏已经结束了,只有现有的企业才能捕获市场价值。这是一个很容易得出的观点:过去六个月里最大的赢家明显是现有利益企业。微软的 GitHub Copilot 和 OpenAI 引发了股东的兴奋之情,NVIDIA 在 GPU 需求激增的情况下表现出色,Midjourney 受益于谷歌的云平台。

 

软件企业过渡到云计算当时是困难的:20 世纪很少有软件公司成功做到这一点,这为 Salesforce、Atlassian 和 NetSuite 等新进入者留下了发展的机会。相比之下,对于现有利益企业来说,LLMs( 大型语言模型 )的集成似乎非常容易。在许多软件类别中,现有利益企业似乎抓住了明显的机会:Notion 推出了人工智能文档编辑器,Epic Health 推出了基于人工智能的电子健康记录系统,Intercom 和 Zendesk 推出了人工智能客户支持。

 

LLM (大语言模型) API 的形式意味着快速集成,而现有利益企业的广泛产品和渠道分布意味着它们将最快取得成功。短期来看,人工智能似乎是一种 “维持现状的” 创新( a sustaining innovation ),而不是一种颠覆性创新。

 

但我认为现在的问题是,在产品构思层面存在想象力的不足( failures of imagination at the product ideation level ):修改已经奏效的东西要容易得多,而不是从零开始思考存在哪些新的机会。

 

即使具备了 GPT-4 的能力( 更不用说后续版本的模型了 ),也将出现完全不同的产品形态,它们不会采用现有软件工作流程 + 人工智能的运行公式。它们需要完全不同的用户体验( radically different user experiences to win customers)来赢得客户。这对于具有针对现有利益企业的天生反对立场的( counter-positioning against incumbents )新公司来说是一个空白地带,因为现有利益企业无法重新设计他们整个产品的用户体验来跟新公司竞争。

 

范阳注:如果你要在 GPS 和移动互联网地图的基础设施上创造全新的用户服务和体验,你不会只是去思考怎么更快速精确的改进 GPS 或者设计更清爽和实时更新的移动端地图,你应该尝试构建的是优步 UBER 这样全新的颠覆性的产品,地图公司是没有办法跟进的。

 

在仅仅几个月的产品化级别的 LLM 的发展时间里,涌现出了许多有前景的子类别:比如企业搜索( Glean )、法律服务自动化(Harvey、Casetext )、营销自动化( Typeface、Jasper )等等。其中许多应用程序将会取得成功。新的类别需要时间:在 2010 年代的“提高生产力工具” 创业浪潮中,Figma 和 Notion 花了多年的时间才能构建成适合大规模市场使用的产品。

 

声称只有现有利益企业才能在市场获胜是懒惰的思维方式:它证明了一种无所作为的消沉态度,因为都声称游戏已经结束了。与之相反的情况似乎令人难以置信:我相信会发生一次为期 20 年的平台转移( 20-year platform shift ),没有一家初创企业获胜吗?这不太可能。

 

4. 有许多适合风险投资的人工智能机会。

There are many VC-investable AI opportunities

在 AI 悲观者的对立面,有一些风险投资的拉拉队长希望能够投资到可投资的创业公司。很长一段时间以来,风险投资一直与技术进步相提并论。在技术迅速被市场采用的时期,风险投资家会赚取大笔资金。

 

但是,风险投资人不是当前领先的人工智能公司的主要股东。有多少风险投资家持有英伟达或微软的股权?即使在规模较大的初创公司中,Midjourney 是用自有资金发展起来的,OpenAI 只筹集了一小部分资金来源是风险投资。

 

风险投资人主要投资于早期公司,因此他们需要讲述关于年轻创业公司机会的故事( they need to tell narratives about the opportunities for young startups ):新的基础模型、向量数据库、LLM 驱动的应用等等。其中一些叙事可能会被证明是正确的!但风险投资人在追求人工智能回报的过程中,很容易对市场结构产生幻觉。

 

许多投资公司迅速制定了 LLM 基础设施市场地图(比如红杉资本,A16Z, Greylock ),将人工智能硬塞进了 2010 年代的 SaaS 框架中去寻找机会:他们似乎认为许多单点解决方案构成了一个 “ AI堆栈 ”,寄希望于每个解决方案都捕获了一些价值。

 

讲真这看起来不太靠谱。今天的许多基础设施都是为了补充 LLM 的局限性而构建的:补充模态( complementary modalities )、增加监控、链接命令( chained commands )、增加内存等。但基础模型是通过 API 构建的,旨在将基础设施从开发人员抽象出来( foundation models are built via API to abstract away infrastructure from developers )。渐进式的模型更新会破坏围绕它们构建的互补性基础设施栈。如果最终只有少数 LLM 占主导地位,那么丰富的基础设施生态系统就不那么重要了。

 

AI 的应用层对风险投资人应该更有利,因为许多新进入者需要风险资本来启动业务。LLM 将在传统行业中解锁新的软件类别,从法律,到医疗,再到企业服务。

 

但由于软件行业既得利益企业可以利用 LLM API,初创公司在应用层面的机会将取决于新的产品范式的转变( the app-level opportunities for startups will be limited to new product paradigms )。

 

如果没有太多适合风险投资的机会,那么风险投资公司将在过去几十年来最重要的平台转移中失去经济收益。在基础设施层面,风险投资公司迫切希望 “ 碎片化的 AI 堆栈 ”( fragmented AI stack ) 的逻辑成立,既是一种应对机制( coping ),也是为了向有限合伙人和创始人展示他们已经掌握了这一领域。

 

毫无疑问,其中一些受风险投资支持的公司会成为大型独立公司。只是需要以谨慎的态度评估它们,考虑到所涉及的激励因素。我担心风险投资的部署速度,会超过风险投资支持的企业取得市场胜利的速度。

 

5. AI 的发展需要减速

AI needs to be slowed down

有许多人有强烈动机希望减缓人工智能 LLM( 大型语言模型 )的发展,比如:那些没有赢得基础模型竞赛的开发者、抱有希望超越美国的中国竞争对手、担心失业的工人、AI 悲观主义者。

 

第 N 名的 LLM 开发者:《暂停巨大的 AI 实验》( Pause Giant AI Experiments )公开信看似是有意掩盖的竞争性FUD ( 恐惧、犹豫和怀疑 )策略。我认为其中很多签署者的动机过于明显是因为保护自身利益:许多签署者也是基础模型的开发者,他们希望有时间迎头赶上差距。

 

我们的竞争对手中国:中国目前在人工智能领域还落后于美国的一个致命弱点是,他们的国家报告只关注发布的 LLM 数量,而不是质量或普及程度。与公开信上的签名者一样,中国也希望美国放慢 LLM 的步伐,以缩小他们在竞争中的差距。

 

可能被取代的工作者:许多人因担心被替代而有减缓 AI 发展的动机,如文案撰写人、呼叫中心员工、文职工作人员。

 

当 GPT-4 在某些数学和逻辑任务上失败时,人们急于提出批评。这类内容似乎总是会很快传播开来。知道 AI 在某些方面还不如人类是一种安慰。

 

AI 悲观主义者:我认真看待 AI 的发展风险 — 我们根本不知道它在 5-10 年内是否会取代人类或者对我们采取敌对态度。与此同时,AI 悲观主义者的观点是不可证伪的:预言灾难性的未来是不可能被证明错误的。传递这一观点的人的价值观也会产生他们自己的偏见;我将把这个分析留给读者自己来完成。

 

在没有足够严谨的反馈循环来引导 AI 起飞的经验性证据的情况下,应该以怀疑的态度看待减缓 AI 发展的信息。过早的激进警告反而将损害 AI 的安全性;在没有真正的风险出现之前宣称 AI 的末日将使人们对真正的风险视而不见。与此同时,AI 对人类社会的生产力进步益处太大,我们不能再等下去。

 

结论

Conclusion

在上世纪 90 年代中期的早期互联网时代,和 2010 年代初的加密货币时期,一开始只有很少的人涌入这些新兴领域,但最后几乎所有早期入局者都赚了钱。

 

现在的 AI 浪潮似乎是完全相反的情况。在 ChatGPT 推出后,每个人都纷纷加入了 AI 的竞争:科研研究人员、产品开发人员、风险投资人、初创公司。但与以往的技术变革不同,可能只有极少数新的参与者在 LLM( 大型语言模型 )的部署时代能够获胜。与加密货币不同,LLM 的价值主张是显而易见的,推动了迅速的需求增长;与互联网不同,LLM 产品利用了廉价的普及计算资源来快速部署(cheap ubiquitous computing to deploy quickly )。处于领先地位的少数 AI 参与者正以迅雷不及掩耳之势获胜。

 

由于 AI 革命的不均匀分布,几乎没有什么人能定义前沿到底在哪里,这不幸地意味着科技行业的其他人,在某种程度上处于无知和偏见的结合状态( some combination of uninformed and biased )。大多数谈论者都在赶时髦,产生了一种以自身利益为导向的世界观,既有绝望( 悲观 )、否认( 不得不应对 ),又有推销( 希望 )的混合体。

 

我没有能力覆盖我经常遇到的所有 AI 叙事,但每当你听到有人非常确定地分享一种叙事时,警钟应该在你的脑海中响起。在这个早期发展阶段,没有什么是确定的。

 

真相只会存在于那些不在公开场合的讨论当中,你必须通过深入对话和积累经验来寻找真相。唯一可信赖的来源只会是第一手资料。

 

 

原文链接:

 

https://www.piratewires.com/p/hallucinations-in-ai

范阳

未来科技、自然之美与人类进步。

好内容,更需要鼓励