杨立昆认为大语言模型（LLM）无法实现通用人工智能（AGI），主张通过联合嵌入预测架构（JEPA）构建世界模型，使AI具备物理推理和预测能力，从而突破生成式AI的固有缺陷。 --- ## 1. 大语言模型的局限性：复现而非推理 - **核心缺陷**：LLM依赖自回归机制，仅统计下一个字符/像素的概率，无法建立全局因果逻辑，误差累积导致输出偏离事实。 - **数据对比**：GPT-3训练样本达数千亿，但扩大参数量无法解决结构性缺陷，如模糊视频预测（10^1500万种可能性远超语言Token枚举）。 ## 2. JEPA世界模型：预测物理规律的核心架构 - **技术原理**：通过编码器将输入压缩为抽象表征（如Barlow Twins的128维嵌入），预测器在数学空间内推理动作后果，避免像素级重建。 - **优势案例**：V-JEPA让机器人通过动作指令预测环境变化，准确率73.2%（ImageNet分类），比监督学习AlexNet高10%。 ## 3. 解决表征坍塌：联合嵌入的技术突破 - **关键难题**：早期联合嵌入易输出恒定向量（如全1），导致无效学习。 - **解决方案**：Barlow Twins通过最大化特征差异（互相关矩阵趋近单位矩阵），DINOv3实现88.4%图像分类准确率，逼近监督模型。 ## 4. 世界模型的应用：从理论到自主智能体 - **核心价值**：AI可预判行为后果（如驾驶决策），通过优化控制反向推导最优动作序列。 - **对比批判**：杨立昆直言LLM缺乏安全规划能力，世界模型是实现AGI的必要条件。 --- （总字数约为原文22%）

2026-05-04 12:02

杨立昆的反共识判断：大语言模型路线错了，JEPA世界模型才是通往AGI唯一解

划重点KeyPoints

本文来自微信公众号：划重点KeyPoints ，编辑：重点君，作者：重点君

如果提到LLM路线的反对者，李飞飞和杨立昆（Yann LeCun）一定是绕不开的两人。

近期，杨立昆在科技频道Welch Labs详细阐述了他反对仅依靠大语言模型（LLM）来通向AGI的理由，并说明了基于联合嵌入预测架构（JEPA）架构的世界模型技术细节。

作为深度学习的主要推动者之一，杨立昆认为，单纯的自回归大语言模型与生成式AI无法实现通用人工智能（AGI），绝大部分人类智能来自于对真实世界的无监督学习。如果AI只进行逐字预测的文本生成，或者逐个像素预测的图像生成，它就无法真正掌握物理世界的内在运行规律。

基于这样的判断，杨立昆试图推进一种不同于主流生成式大模型的研发方向：通过构建在抽象表征空间内进行预测的JEPA架构，弥补AI在认知与推理方面的能力缺失。

我们整理了这场访谈的主要信息，以下是重要内容：

1.大语言模型追求复现，而世界模型强调预测

在杨立昆看来，AI具备物理推理能力的层次要高得多。

生成式大模型是复现逻辑，模型本质上是在重现训练数据中的统计规律，它的主要任务是模仿，只要输出结果在视觉或语法上合理即可。

世界模型则是预测逻辑，模型的主要任务是推理。它必须在面对未知环境时，准确判断行为产生的物理结果。AI的最终目标是具备真正的常识，成为能够自主规划和行动的智能体。

2.大语言模型存在固有缺陷，世界模型才能通向AGI

杨立昆认为，当前的生成式大语言模型受制于自回归机制。系统只是在计算下一个最可能出现的字符或像素，并未在全局层面建立对事物内部逻辑的认知。随着输出内容的增加，误差也会持续累加，最终必然导致严重偏离客观事实的输出结果。单纯依靠扩大模型参数量无法解决这一结构性难题，概率统计过程本身无法直接转化为严谨的因果推理能力。

而世界模型在系统内部建立了反映现实逻辑的预测机制。这使得AI在实际执行任务前，能够先在抽象层面上准确预判不同行动路线的物理后果。这种基于客观规律进行内部推演和决策的能力，改变了机器只能被动响应静态数据的现状，赋予AI主动干预现实的基础认知，这是机器获取通用人工智能的必要条件。

3.JEPA世界模型技术路线摒弃像素级预测，转向数学表征空间（Representation Space）

主流的生成式模型试图重构图像或视频的每一个视觉细节。由于物理世界充满了不可预测的随机干扰信息，这种尝试往往会导致模型生成模糊的图像，或者消耗极其庞大的计算资源。

与注重视觉生成效果的模型不同，JEPA架构的主要特征在于剔除无用的环境细节。它通过孪生网络（Siamese Networks）等结构，将输入信息压缩成高度概括的数学表征。这意味着模型不再需要完全还原环境，而是直接在抽象层面上预测事物的运动规律和发展趋势。

JEPA目前已被用于提升机器视觉与物理推理能力，研究人员通过V-JEPA等模型，让机器人在不依赖海量人工标注数据的情况下，学会理解物体之间的相互作用。

4.解决表征坍塌（Representation Collapse）难题，世界模型即将迎来技术突破

为什么在抽象空间内进行预测的AI发展面临困难？主要阻碍在于模型容易进入表征坍塌的错误状态。在这种状态下，模型会输出恒定不变的错误结果来强行匹配预测目标。

为了解决这一难题，杨立昆团队采用了Barlow Twins等技术策略。通过最大化不同特征之间的信息差异，迫使模型学习真实有效的环境信息。随着表征学习技术的成熟，基于JEPA的世界模型领域即将迎来大规模扩展的技术突破时刻。

以下是杨立昆访谈实录：

1.寻找取代LLM的全新架构：JEPA

主持人：人工智能传奇人物杨立昆筹集了十亿美元，用于探索人工智能的替代方案。与大型语言模型不同，杨立昆的方法既不以语言为基础，也不是生成式的，它在设计上就不会输出文字、图片或视频。取而代之的是，他提出了JEPA方案。

JEPA不是单一的AI模型，而是一种全新的架构或用于训练AI模型的框架。在人工智能和机器学习的许多成功案例中，模型都是通过给定输入X来预测输出Y进行训练的。比如大型语言模型接收输入文本X并被训练来预测接下来出现的文本Y；图像分类器接收输入图像X并被训练来预测相应的标签Y。

但JEPA的工作原理并非如此。在JEPA中，输入X和输出Y被分别输入到名为编码器(Encoder)的模型中。这些编码器会返回一个数字向量或矩阵，也就是通常所说的嵌入(Embedding)。随后，第三个被称为预测器(Predictor)的模型会基于X的嵌入来预测Y的嵌入。

为什么这可能是构建AI系统的一种更好方式？你认为JEPA或者基于世界模型的方法未来有一天会取代LLM吗？还是说它们其实是在解决不同的问题？

杨立昆：初期它们解决的是不同问题，但最终它们确实会取代LLM。因为LLM虽然非常擅长处理语言，但除此之外基本毫无建树。在语言本身即为推理基底的领域，相比主流的生成式语言AI方法，它们的表现非常出色。

主持人：JEPA存在于联合嵌入架构(Joint Embedding Architectures)这一替代路径上。有趣的是，杨立昆在这两条路径的发展初期都发挥了重要作用。

在这个由两部分组成的系列访谈的第一部分中，我们将探索通往JEPA的这条替代路径。我们将深入探讨为什么杨立昆会在生成式架构于语言领域崭露头角之时选择放弃它，并探寻他在解决困扰联合嵌入架构多年的表示崩溃(Representation Collapse)问题时所获得的灵感。最后我们将深入研究JEPA架构本身。在第二部分中，我们将深入探讨JEPA的实现方式，并看看这些模型与驱动LLM的方法相比究竟表现如何。

杨立昆在20世纪80年代就预见到了这场变革的到来。当时AI领域的大多数人正忙于构建显式编程而非从数据中学习的专家系统，而他开创了卷积神经网络。25年后当深度学习开始崛起并占据AI主导地位时，突破性的深度学习模型AlexNet被发现与杨立昆在20世纪90年代提出的卷积网络惊人地相似。

然而随着深度学习在2010年代继续高歌猛进，杨立昆和其他研究人员变得愈发担忧，因为这种AI方法过度依赖带标签的训练数据。AlexNet是在庞大且经过精心标注的ImageNet数据集上通过监督学习进行训练的，它被训练去匹配人类标注者为每张图像分配的标签。相比之下，儿童只需极少数明确标记的示例就能学习到像“狗”这类概念且极具通用性的表示。

随着手动标记数据成为监督学习的瓶颈，人们对替代方法的兴趣日益浓厚。强化学习让模型通过与环境交互而非从标记数据中学习，它在2010年代中期经历了多次复兴，Google DeepMind在Atari游戏以及高度复杂的围棋(Go)上的突破性表现就凸显了这一点。与此同时杨立昆等人探索了从无标签数据中学习的无监督方法，其中包括一种被称为自监督学习(Self-supervised Learning)的变体，其标签直接取自数据本身。

杨立昆：大约在2015年，我开始在机器学习社区展示一张后来变成梗的幻灯片。我在上面说如果把智能比作一个蛋糕，那么自监督学习就是蛋糕的主体，监督学习是蛋糕上的糖霜，而强化学习只是顶端的那颗樱桃。当时人们对强化学习近乎疯狂，所以我试图告诉他们这种方法太低效了，永远不可能带我们达到接近人类或动物智能的水平。事实证明，自监督学习的成功在文本和语言领域发生得要比在视觉等更自然的模态中快得多。

2.生成式模型在视觉领域的困境

主持人：杨立昆这里指的是通过预测下一个Token来训练大型语言模型(LLM)所取得的成功。OpenAI成立于2015年，最初致力于强化学习，创建了OpenAIGym和Universe并在复杂的视频游戏中展示了令人印象深刻的性能。

当公司大部分精力都集中在强化学习上时，Ilya Sutskever和Alec Radford等人开始对来自Google的一种新型神经网络架构Transformer产生兴趣。它最初是为语言翻译设计的，但在实验过程中Radford尝试了一种有趣的修改。他没有让Transformer将一种语言转换为另一种语言，而是转向了一种更简单的自监督方法：训练文本被分解为序列，Transformer接收除了最后一个Token之外的所有内容，并被训练来预测最后一个Token是什么。

Radford和他的OpenAI同事们在一个包含7000本书的庞大内部数据集上训练了他们的Transformer。这个阶段现在被称为预训练(Pre-training)，随后他们使用标准的有监督学习在特定的语言任务上进一步训练模型。

这种两阶段训练方法效果显著，在包括高中水平阅读理解在内的九项语言基准测试中创下了新的SOTA结果，表现超越了针对每个单独任务专门设计的架构。Radford的模型也就是现在的GPT-1，虽然当时没有引起太多公众关注，但它是一个巨大的突破，使模型摆脱了对人工标注数据的依赖并开启了前所未有的规模化水平。

OpenAI的其他研究人员迅速领悟了这项研究的重要性，团队全力投入这种方法，在2019年激进地扩展到GPT-2，2020年推出GPT-3，以及2022年发布ChatGPT。在2012年AlexNet是在约一百万个样本上训练的，而到2020年GPT-3的训练样本量已达到数千亿个。

有趣的是这种新出现的训练范式完全符合杨立昆几年前的预测：广泛的自监督预训练阶段，随后是监督学习，最后是强化学习，将原始的下一个Token预测模型塑造成为一个实用的AI助手。然而尽管这些自监督生成方法在语言领域取得了明显突破，但在图像和视频数据方面的情况却模糊得多。

杨立昆：我一直在研究视觉领域。最初的想法是使用生成式架构来训练一个预测视频中会发生什么的系统，基本上就是在像素层级训练视频后续的发展。

主持人：在GPT-1成功的前几年，包括杨立昆在内的研究人员曾尝试将同样的自监督生成式方法应用于视频。在最直接的实现中，神经网络接收一系列视频帧的RGB像素值，然后像GPT模型预测语言中的下一个Token一样去预测下一帧的像素值。

然而当我们使用这些模型来预测下一帧时，结果是模糊的，而且这种模糊感在更长周期的预测中会剧烈累积。大语言模型是自回归(Autoregressive)的，当ChatGPT回答问题时它一次生成一个Token，并在每一步将最新生成的Token传回输入端以产生下一个输出。如果我们尝试将这种自回归方法应用于下一帧视频预测模型，结果会迅速退化为模糊的虚无。

生成式视频预测方法产生的模糊帧并不是什么未解之谜。语言虽然复杂且不可预测，但与视频相比根本不算什么。语言模型使用固定大小的词汇表，比如GPT-2拥有50257个离散输出对应下一个可能生成的Token。这种完全枚举的方法在视频领域行不通。

对于全高清视频，在最一般的情况下每个像素可以取256个离散值，而我们拥有1920×1080×3个彩色像素。这意味着下一帧视频可能有大约10的1500万次方种可能性，这令可观测宇宙中的原子数量都相形见绌。因此视频预测模型不可能像语言模型那样为每一个可能的下一帧提供离散输出。相反那个时代的许多生成式视频方法让网络直接输出像素强度值，这种方法面临的巨大挑战是模型如何学习处理不确定性。

如果我们对比LLM学习补全句子“球弹向了xx地方”和一个预测球体弹跳视频下一帧的神经网络，就能清楚看到问题所在。在LLM训练案例中，模型在训练集中会看到各种示例，由于模型为每个Token都有独立输出，它基本上可以独立更新这些概率。

但我们的视频模型就没有这么轻松了。如果数据集包含球从同一路径开始运动然后向各个方向弹跳的视频，由于模型被迫针对给定输入直接预测单个输出帧，面对这种歧义性它能做的最好处理就是预测这些结果的平均值。当我们对视频的像素值取平均时，最终得到的就是一片模糊褪色的混乱画面。

虽然这只是最天真的方法，在过去几十年里人们也尝试了许多图像预测策略并取得了不同程度的成功，但这些自然产生的挑战促使杨立昆等研究人员提出了一个有趣的问题：我们的模型真的必须是生成式的吗？在GPT示例的关键预训练阶段，模型是否具有生成能力其实并不重要。

在针对“预测下一个Token”进行预训练之后，我们得到的是一个本质上非常出色的自动补全模型。但真正重要的是模型为了解决预测任务而学习到的内部表示和特征，正是这些内部表示使得预训练模型能够被快速适配成强大的AI助手。语言上的下一个Token预测是智能的一种代理指标，事实证明这种方法效果惊人。但是否还有其他信号和方法可以用来学习构建智能系统所需的强大内部表示(Representations)呢？

3.联合嵌入架构的引入

杨立昆：与此同时在2017到2018年左右，我们开始意识到学习图像表示的最佳系统是那些非生成式的系统。它们不进行重构。

你输入一张图像将其通过一个编码器（Encoder），接着你尝试引导这个编码器在具备某些特性的前提下提取尽可能多的信息。例如你拍摄同一场景的两张图像，或者拍摄一张图像并以某种方式对其进行损坏或转换。你将它们都通过Encoder运行，然后告诉系统无论提取出什么，这两张图像的表示都应该是相同的，因为它们在语义上代表同一个事物。我

从90年代起就一直在研究这类联合嵌入(Joint Embedding)的想法，这并不是新概念，我们以前称之为孪生神经网络(Siamese Neural Net)。

主持人：杨立昆提到的孪生网络是由他及其合作者于20世纪90年代初在贝尔实验室(Bell Labs)开发的，当时是为了开发检测欺诈签名的系统。

该系统的工作原理是将一对签名图像输入到两个相同的神经网络副本中。这些网络副本并非为了生成任何数据而训练，相反它们输出的是数字向量也就是嵌入向量(Embedding Vectors)。

网络副本在两类样本上进行训练：正样本包含一个参考签名和一个非欺诈签名，即出自同一人之手；负样本包含一个参考签名和一个欺诈签名。对于欺诈样本，网络被训练为产生差异最大的嵌入向量；对于正样本，则生成相似度最大化的嵌入向量。当新签名出现时，我们可以将其传入网络计算出一个嵌入向量并与参考签名生成的向量进行比较，如果相似度不足该签名将被检测为伪造。

通过对签名进行联合嵌入，孪生网络学习到了签名图像中非常有用的内部表示，值得注意的是这一过程无需学习预测或生成任何实际的签名图像。正如基于GPT的方法那样，联合嵌入为视频模糊问题提供了一个潜在的可行解决方案。

杨立昆：你获取一张图像将其输入编码器，接着你尝试引导这个编码器提取尽可能多且具有特定属性的信息。例如你拍摄同一场景的两张图像或者获取一张图像并对其进行损坏或转换。你将它们通过编码器运行并告诉系统，无论提取出什么这两张图像的表示都应该是相同的，因为它们在语义上代表同一个事物。

4.攻克联合嵌入的表示崩溃难题

主持人：所以这里的思路是，我们避开了在生成式模型中看到的视频模糊问题。通过使用联合嵌入架构，将经过损坏或转换处理的图像或视频副本映射到相似的嵌入向量。理想情况下，这个经过训练的模型将学习到图像或视频的有用的内部表示，我们可以将其重新用于其他任务，正如GPT模型在预训练期间学习内部表示并最终被调整为AI助手的行为一样。

然而这种联合嵌入(Joint Embedding)策略存在一个巨大的问题。由于我们训练网络的目的是使原始图像或视频与损坏后的版本尽可能相似，网络可能会找到一个平凡解，即无论传入什么输入，它都简单地返回相同的嵌入向量。如果网络学会了对任何输入都输出全1的向量，那么它对于同一图像的受损和未受损视图都会返回全1，从而使产生的相似度最大化，但实际上并没有学到任何有用的东西。这个问题被称为表示崩溃(RepresentationCollapse)。

在杨立昆最初的孪生网络(SiameseNetwork)方法中，团队使用了如今被称为对比学习(ContrastiveLearning)的方法来避免表示崩溃，并在训练时为网络提供正负样本。事实证明这种对比方法同样适用于图像和视频，我们可以训练网络使其对同一底层图像或视频的不同视图输出相似的嵌入，而对不同的图像或视频输出不同的嵌入。

这些对比方法虽然在图像和视频领域取得了成功，但在扩大规模时却面临困境，往往需要海量的计算资源和庞大的负样本库才能学习到有意义的表示。杨立昆认为在最坏的情况下，对比样本的数量可能会随表示维度的增加呈指数级增长。

到2010年代末，杨立昆等人已经清楚认识到，使用生成式模型去完全重建图像和视频并不是自监督学习的有效路径。但当时业界并没有一个直接的解决方案来处理表示崩溃问题，这也阻碍了联合嵌入架构学习到与大语言模型同等强大的通用内部表示。

杨立昆：很明显，对于图像和视频这类信号采用重建的方法并不是个好主意。后来我恍然大悟，因为我们当时用来训练联合嵌入架构的方法多少有些取巧。直到我和Meta的几位博士后同事，特别是阿德里安·巴德斯(AdrienBardes)做了一些研究，他提出了一种名为BarlowTwins的技术。这项技术基于计算神经科学和机器学习领域的一个古老理念，杰夫·辛顿(GeoffreyHinton)也曾研究过类似观点，即系统需要有某种衡量信息内容的标准并尝试将其最大化。著名的理论神经科学家霍勒斯·巴洛(HoraceBarlow)在这方面做过一些开创性的基础研究。

主持人：这里杨立昆引用的是霍勒斯·巴洛的研究工作。1961年巴洛提出假设，认为动物和人类视觉系统中的神经元是通过减少相互之间的冗余信息来运作的。2020年，杨立昆的博士后研究员斯蒂芬·德尼(StephaneDeny)基于对巴洛研究的了解，提出将巴洛的理念应用于网络输出端，以此作为避免表示崩溃的一种途径。

在我们讨论的联合嵌入架构中，嵌入向量是由网络最后一层的人工神经元生成的。如果嵌入向量长度为128，那么每个网络的输出层就包含128个神经元。如果传入一批多样的图像并观察遍历过程，第一个神经元可能在狗的照片上强烈激活，但在猫的照片上则无反应。

在联合嵌入方法中，网络接收同一批图像的变形视图，其核心目的就是让同一底层图像生成的嵌入表示趋于相似。因此我们希望第二个网络中第一个神经元的输出能与第一个网络中第一个神经元的输出保持高度一致。标准架构只需测量并最大化这两个向量的相似度即可，但这极易导致网络简单地为所有输入输出相同值，即发生表示崩溃。

引入巴洛的假设后，团队选择通过计算两个网络输出向量之间的互相关(Cross-Correlation)来减少不同神经元输出间的冗余。计算过程包括对每个向量进行缩放并求点积，最终得到皮尔逊相关系数(PearsonCorrelationCoefficient)。为了减少冗余，我们希望这种相关性趋近于零。

将两个编码器的神经元输出分别垂直和水平排列，计算所有神经元对之间的相关性并构建成一个矩阵。由于联合嵌入架构的核心理念是为同一图像的不同失真版本产生相似输出，我们希望两个编码器中对应的神经元具有高度相关性，同时希望非对角线上对应不同神经元的元素相关性为零。理想状态下，这个互相关矩阵应该呈现为单位矩阵(IdentityMatrix)。

杨立昆及其合作者由此设计了一个全新的损失函数，用于衡量互相关矩阵与单位矩阵之间的偏差。这种被称为Barlow Twins的新方法效果惊人，它在成功学习训练图像强大内部表示的同时，完美避开了表示崩溃的陷阱。团队采用了多种方法来验证这些内部表示的质量。

正如早期自监督预训练让GPT-1超越了纯监督模型一样，当时视觉任务最重要的基准测试是ImageNet数据集的分类准确率。2012年原始的AlexNet在验证集上实现了59.3%的准确率。为了将自监督的Barlow Twins与全监督模型进行直观对比，团队使用了线性探测(LinearProbe)方法，即在冻结的Barlow Twins编码器输出端添加一层神经元，并使用监督学习进行分类训练。结果令人瞩目，该模型在ImageNet上达到了73.2%的准确率，比全监督的AlexNet高出整整10个百分点。

然而在2012年到2021年间，全监督方法本身也取得了长足进步，例如谷歌团队在2020年将Transformer架构应用于图像分类，创下了88.6%的新纪录。因此到2021年，尽管自监督学习在视觉任务中进展迅猛，但其综合表现仍略逊于最顶尖的全监督方法。在语言领域推动大模型快速发展的生成式预训练范式，在图像和视频领域依然难以跑通。

杨立昆：事实证明我们选择的是一条正确的道路。在那之后我们发布了Barlow Twins的简化版VICReg，效果同样出色。与此同时我们在巴黎的同事也在研究类似路线，最终演变成了DINO系列。这也是一种JEPA技术，事实非常明确，联合嵌入在图像表示的自监督学习方面具有显著优势。

主持人：2025年8月发布的DINOv3论文标志着视觉领域的一个重要转折点。它利用联合嵌入架构实现了88.4%的极高图像准确率，紧逼当前行业的最先进水平。

正如作者在论文中所述，这是自监督学习首次在图像分类任务上达到与监督模型相匹敌的成果。DINOv3在零人工标签介入的情况下展现出的表征学习能力令人震撼。它为分析的每个图像块(Patch)输出一个嵌入向量。如果从测试图像的手部区域提取嵌入向量并与图像其他部分进行相似度比对，DINO能够精准地将手部从复杂背景中完美分割出来，这种能力同样适用于球、猫或书本等任何物体。

在Barlow Twins、VICReg和DINOv1取得连串成功后，杨立昆于2022年将这些思路凝练成了一篇长达60页的重磅立场论文《迈向自主机器智能之路》(A Path Towards Autonomous Machine Intelligence)。与他以往专注于机器学习具体技术细节的论文不同，这篇文章采用基于第一性原理的全局视角，深刻探讨了我们究竟该如何构建真正的智能机器。论文首先犀利指出，目前的AI方法距离人类的学习能力还差得很远，比如一名青少年只需20小时左右的练习就能熟练掌握开车技能。

杨立昆：这基本上就是Tesla正在努力的方向。但是他们距离真正实现Level3至Level5的自动驾驶还差得很远。然而一个17岁的少年只需几个小时的练习就能学会开车。这究竟是如何实现的？难道我们不应该弄清楚这背后隐藏的智能奥秘吗？我的核心推测是，这个奥秘就是世界模型(WorldModels)。

5.世界模型：迈向自主机器智能

主持人：杨立昆压下重注的论断是：现代AI缺失的最关键一环正是世界模型，即能够对物理世界运行规律做出准确预测的模型。正如他在2022年论文中所阐释的，常识本质上可以被视为一系列世界模型的集合，它们负责告诉智能体什么是可能的、什么是合理的以及什么是绝对不可能的。凭借这些世界模型，动物只需极少量的试错就能掌握新技能，它们能够预判自身行为的后果，进而进行推理、规划、探索并为复杂问题构思出全新的解决方案。杨立昆进一步论证，联合嵌入架构为构建这种世界模型提供了最坚实的底层基础。

杨立昆：JEPA代表联合嵌入预测架构(联合嵌入PredictiveArchitecture)。其运行机制是先获取对世界的当前观测状态，再获取下一个观测状态，并将它们依次通过编码器进行处理。随后预测器会尝试根据时间t的状态去预测时间t+1的状态，你还可以通过输入具体的动作指令来对预测过程进行干预和调节，这样你就获得了一个完整的世界模型。

主持人：举个具体的例子，与其使用传统的生成式架构去逐个预测视频下一帧的庞大像素值，我们完全可以将视频当前帧和下一帧映射到精简的嵌入空间中。然后训练一个预测器模型，让它在给定当前视频嵌入的情况下直接预测下一帧的嵌入。在这种实现机制下，JEPA架构成功将模型从预测海量像素的繁重且低效的任务中解脱出来，使预测器能够全神贯注于分析场景中经过编码器筛选的那些核心显著特征。杨立昆在这里提出了一个极佳的思维实验。

杨立昆：如果你训练一个模型来预测行车记录仪画面中接下来会发生什么，传统的生成式模型会把极其宝贵的算力资源浪费在预测道路两旁树叶的随机摆动上，这些内容本质上毫无预测规律可言，却占据了画面中大量移动的像素。

主持人：正如杨立昆之前提到的，我们可以通过引入动作条件将JEPA的应用边界进一步拓宽。在V-JEPA2的研究中，团队将机械臂接收到的具体动作信号作为约束条件输入到JEPA模型中。JEPA在观察机械臂及其所处环境的连续图像序列时，不仅要通过训练预测下一帧画面的嵌入表示，还要同步处理发送给机械臂的控制信号。这使得预测器能够深度学习并准确预测出各种不同的控制指令将如何实际改变机械臂在未来嵌入图像中的空间位置。

这种经过充分学习的世界模型随后就可以直接用于机器人的复杂规划与精密控制。给定一张代表目标状态的图像(例如将杯子移出平台)，该图像被传入下一帧编码器生成目标状态的嵌入。在此基础上，系统可以使用控制算法在世界模型中进行预演和探索，测试各种假设性的动作干预，最终反向推导出一系列能够引导模型预测状态完美匹配目标状态的最优动作序列。正如杨立昆所评价的，这确实是用前沿架构对一个经典旧理念的全新重塑。

杨立昆：你构建了一个强大的模型，它能根据当前的世界状态以及你设想采取的控制动作，精准提供下一个时间步的世界状态。一旦拥有了这个模型，你就可以在虚拟空间中预测任意动作序列的最终结果，并通过数学优化计算出一条最优的操作路径以达成特定目标。这是非常经典的优化控制(OptimalControl)理论，其历史渊源可以追溯到20世纪50年代末的苏联以及60年代初的西方学术界。

主持人：这确实是控制理论中极其经典的核心内容。

杨立昆：是的。但这套架构中不那么经典的部分在于，你需要用最前沿的机器学习技术来从零训练这个模型。更具颠覆性的是，你还要让网络自行学习出一种高度抽象的输入状态表示，并在这个抽象的状态空间中完成模型的学习闭环，这正是JEPA的精髓所在。

让我抛出一个可能会得罪不少硅谷同行的争议性观点。我根本无法理解你们怎么能设想去构建一个高级的智能体系统，却不赋予它预测自身行为后果的基础能力。变分自编码器(VAE)做不到这一点，当前火热的大语言模型也同样不具备世界模型。它们根本无法在行动前预判自己的输出会造成什么后果，它们只是盲目地生成token采取行动，然后就像某位法国国王所说的那样——“我死后哪怕洪水滔天”。

如果你真的想构建安全可靠的智能体系统，它们绝对必须具备预测行为后果的能力，只有这样它们才能合理规划行动序列以完成复杂任务，并在此过程中严格确保安全护栏不被突破。在这样的系统里，推理过程已经演变成了一个严密的搜索与推演过程，而不再是简单的自回归预测。这就是世界模型的全部核心理念与终极价值。

AI创投日报频道: 前沿科技

划重点KeyPoints

去除噪音，划下重点

认证作者

已在虎嗅发表 34 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定