VAST联合浙大等高校开源LegoACE，探索AI无需人工显式规则，从数据中学习三维约束结构生成规律，为结构化生成提供新思路。 ## 1. AI搭乐高的核心难点：从生成内容到生成可行结构生成式AI此前擅长生成符合感知要求的文字、图像等内容，但乐高需要满足砖块位置、朝向、连接、稳定性等物理规则，本质是生成受约束的离散结构，这触及了生成式AI从“生成看起来像的内容”到“生成真的能成立的结构”的深层挑战。 ## 2. 传统乐高生成方案的核心瓶颈此前方案通常显式标注连接点、人工编写拼接规则：一类基于体素建模，依赖人工标注连接点，随着乐高零件种类增加，标注和维护成本会急速上升；另一类用类自然语言序列微调大模型，仅能支持较规则的方块类零件，难以扩展到异形、专用零件，瓶颈本质是依赖人工显式建模连接关系，受限于砖块类型和规则复杂度。 ## 3. LegoACE的核心方案：让模型从数据中隐式学习规则 LegoACE放弃人工标注连接点与显式规则，将乐高搭建转化为自回归序列生成问题，类比大语言模型从文本学语法，让模型从大量样本中学习砖块组合规律。研究团队构建了大规模数据集LegoVerse，包含55000个独特乐高模型、9314种砖块类型，覆盖多类场景，支持48种轴对齐旋转变换，为模型学习提供了数据基础。 LegoACE采用乐高原生序列化方法，将每块砖编码为位置、旋转、类型三个token，整体转为自回归模型可处理的序列，基于decoder-only Transformer实现生成，支持文字条件生成与多视角法线图条件生成，还通过数据增强、DPO对齐优化生成质量。 ## 4. LegoACE的效果与通用意义对比传统方法，LegoACE训练推理效率更优，支持更丰富的砖块类型，可直接使用车轮、门窗等专用零件，生成结果在整体形态和局部细节上更贴近目标，能生成结构完整、表现力更强的乐高模型。该方案证明，对于由离散基本单元组成、受复杂规则约束的物理对象，AI可无需人工逐条编写规则，从数据中学习组合规律，为分子设计、电路设计、模块化建筑、机械结构等广泛的结构化生成任务提供了新启发，是生成式AI从内容生成走向物理世界结构生成的有益探索。 ## 5. 当前局限与未来方向 LegoACE因缺少显式结构约束，在训练数据不足或遇到罕见组合时，仍可能出现无法实际拼接的问题。后续可通过扩大数据规模、结合显式几何检查与物理约束验证，兼顾生成丰富度与可靠性。

2026-05-29 10:42

让AI 搭3D乐高，为什么这么难？VAST 联合浙大等高校开源LegoACE

AI前线

本文来自微信公众号： AI前线，作者：VAST，原文标题：《让 AI 搭3D乐高，为什么这么难？VAST 联合浙大等高校开源LegoACE》

过去几年，生成式AI已经学会了写文章、画图像、做视频。它们擅长生成"看起来合理"的内容：一段文字是否通顺，一张图片是否逼真，一段视频是否连贯，很多时候都可以从视觉和语义上判断。

但当AI试图进入物理世界，问题会变得复杂得多。

一张图片只要视觉上可信就可以，但一个LEGO模型必须真的能搭起来。每一块砖的位置、朝向和类型都要相互匹配，凸点和凹槽要对得上，局部结构要能连接，整体形状还要稳定。换句话说，AI面对的不再只是"生成一个外观"，而是"生成一个受规则约束的结构"。

这正是LegoACE想回答的问题：

如果不把所有连接规则都人工写进模型里，AI能不能像学习语言一样，从大量真实LEGO模型中自己学会搭建规律？

在SIGGRAPH Asia 2025上，LegoACE给出了一种新的思路：不再显式标注每块砖的连接点，也不手工设计复杂的拼接规则，而是让模型从大量LEGO模型中学习"什么样的砖块组合更可能成立"。

这件事的意义并不只在于让AI会搭乐高。更大的问题是：当AI面对分子、电路、建筑模块、机器人结构这类由基本单元组成、又受到复杂约束限制的对象时，它能否不依赖人工写死规则，而是从数据中学会现实世界的组合规律？

论文标题：LegoACE:Autoregressive Construction Engine for Expressive LEGO Assemblies

论文链接：https://doi.org/10.1145/3757377.3763881

项目主页：https://xh38.github.io/LegoACE/

作者单位：浙江大学、VAST、清华大学、KAUST、香港大学

AI会生成内容，

但会"搭东西"吗？

如果只是让AI画一辆车，它可以画出车轮、车身、车窗和车灯。只要图像看起来像车，结果就已经足够有说服力。

但如果要让AI生成一个真正由LEGO砖块组成的车，难度就完全不同了。

每一块砖都不是自由漂浮的像素，而是一个有明确几何形状、连接方式和空间朝向的实体。模型不仅要知道"这里应该有一个车轮"，还要知道车轮对应什么LEGO零件、应该放在哪里、如何朝向、怎样与周围砖块连接，以及整个结构是否真的能拼起来。

这类问题可以看作一种结构化生成：对象不是连续的图像，而是由一组离散部件组成；部件之间不是随意摆放，而是受到连接、支撑、方向、空间占用等规则约束。

LEGO是一个很好的例子，因为它足够大众：几乎每个人都知道它是什么；但它又足够复杂：真正搭建一个模型时，背后存在大量细致的几何和结构规则。

因此，让AI搭LEGO，并不是一个简单的玩具问题。它实际上触及了生成式AI的一个更深层挑战：

AI能不能从"生成看起来像的东西"，走向"生成真的能成立的结构"？

过去的思路：

把连接规则写给AI

在LegoACE之前，相关方法通常会尝试显式告诉AI LEGO砖块之间如何连接。

这听起来很自然。既然LEGO的凸点和凹槽有固定位置，那就把这些连接点标出来；既然不同砖块之间有拼接规则，那就把这些规则写进系统。这样，AI在生成时就可以参考这些人工定义的连接关系。

问题在于，这条路线很难扩展。

一种常见做法是基于体素建模。模型需要先把LEGO结构转成带连接关系的三维体素表示，再用生成模型进行学习和生成。但这通常要求为每种砖块人工标注连接点。对于少量规则砖块来说，这或许还能接受；但真实LEGO零件的形状和类别非常丰富，一旦砖块数量增加，人工标注和规则维护的成本就会迅速上升。

另一类方法尝试把LEGO模型写成类似自然语言的文本序列，再微调大语言模型进行生成。代表性工作如BrickGPT。它看起来绕开了连接点标注，但代价是只能使用较规则的方块类零件，因为这些砖块的连接关系天然比较固定。如果要引入车轮、窗户、门、斜面、装饰件等更丰富的不规则零件，如何设计合适的文本表示和连接规则仍然是一个难点。

也就是说，过去方法的核心瓶颈并不只是模型能力，而是表示方式本身：

只要系统依赖人工显式建模连接关系，它就很容易被砖块类型、标注成本和规则复杂度限制住。

LegoACE的思路：不把规则写死

而让模型学会规则

它不再要求人工标注每块砖的连接点，也不显式告诉模型"哪块砖能连哪块砖"。相反，它把LEGO模型看作一个按顺序搭建的过程：已经放好一部分砖块之后，模型预测下一块砖应该是什么类型、放在什么位置、采用什么朝向。

这和大语言模型有一个很自然的类比。

人们并没有把所有语法规则、搭配习惯和表达方式逐条写进语言模型里。模型通过阅读大量文本，逐渐学会了哪些词更可能接在一起、什么样的句子更自然、什么样的表达更符合上下文。

LegoACE做的事情类似，只不过学习对象从文字变成了LEGO结构。

给定前面已经搭好的砖块序列，模型需要预测下一块砖。它会在大量训练数据中反复看到：某些砖块通常以怎样的方式组合，某些零件更适合出现在什么位置，什么样的局部结构更稳定，什么样的搭建顺序更常见。

在这个过程中，连接关系并没有被人工写进模型，而是被模型从数据中隐式学会。

这并不是说规则不存在，而是规则的来源发生了变化：

过去是人先总结规则，再把规则交给模型；

LegoACE则是让模型直接从真实样本中学习规则。

LegoVerse：让模型从足够多的

搭建样本中学习

如果要让模型自己学习搭建规律，数据规模就变得非常关键。

为此，研究团队构建了一个新的大规模LEGO数据集LegoVerse。相比以往规模较小、砖块类型有限的数据集，LegoVerse覆盖了更丰富的模型和零件：

55,000个独特LEGO模型；

9,314种砖块类型；

涵盖建筑、车辆、人物、飞船、动物、家具等多个类别；

支持48种轴对齐旋转变换。

这个数据集的意义在于，它让模型不再只能学习少量规则方块的组合方式，而是有机会接触真实LEGO设计中更加多样的零件和结构。

这也是LegoACE能够摆脱显式连接点标注的重要前提：

如果数据足够丰富，模型就可以从大量样本中观察到不同砖块如何组合，而不是依赖人工逐一标注每个连接位置。

把LEGO模型变成"句子"

要让Transformer生成LEGO，第一步是把LEGO模型转换成一种类似语言的序列。

在语言模型里，一句话由一串token组成；在LegoACE中，一个LEGO模型也被表示为一串token。区别在于，语言token表示词或子词，而LEGO token表示砖块的空间信息和类型信息。

LegoACE使用了LEGO Native Tokenization，把每块砖编码成三个token：

位置token：表示这块砖放在哪里；

旋转token：表示这块砖采用什么朝向；

类型token：表示这块砖是哪一种零件。

整个LEGO模型则按照固定的空间顺序进行序列化，从而被转换成一个可以由自回归模型处理的token序列。

这里最关键的一点是：类型token只是区分"这是什么砖块"，并不显式编码这块砖有哪些连接点、哪里能拼、哪里不能拼。也就是说，模型并没有被直接告知砖块的几何连接规则。

它需要自己从训练数据中学会：某种类型的砖块，通常在什么位置、什么方向下，会和哪些砖块合理组合。

在模型结构上，LegoACE基于decoder-only Transformer，也就是和许多大语言模型类似的自回归生成范式。给定前面已经生成的砖块序列，模型预测下一个token，并逐步生成完整的LEGO模型。

这种设计让LEGO生成问题被转化为一个更通用的问题：

能否像生成句子一样，生成一个由离散部件组成的三维结构？

两种条件生成：

从文字和图像出发搭LEGO

LegoACE不只支持无条件生成，也支持从不同输入条件出发生成LEGO模型。

第一种是文字条件生成。用户输入一句描述，例如一辆车、一座建筑或一个动物模型，系统通过CLIP提取文本语义，再指导模型生成相应的LEGO结构。

第二种是多视角法线图条件生成。给定目标物体的多视角法线图，系统通过DINOv2提取视觉特征，再生成对应的LEGO模型。这相当于让模型根据一个三维物体的外观和形状线索，直接预测一个可由LEGO砖块组成的结构。

为了增强模型从局部信息推断完整结构的能力，LegoACE还在训练中引入了数据增强：随机截取模型的一段子序列，渲染对应的法线图作为条件输入，让模型学习如何从部分结构恢复完整模型。

在训练完成后，研究团队进一步使用DPO（Direct Preference Optimization）进行对齐。对于同一个输入，模型生成两个候选结果，再根据Chamfer Distance判断哪个更接近真实结构，并将更好的结果作为偏好样本，用于进一步优化模型。

这些技术细节背后的目标其实很直接：

让模型不只是"会生成砖块序列"，而是能根据文字或图像条件，生成更符合目标对象形态的LEGO结构。

结果：更丰富的零件

更高的生成质量

和基于体素扩散的LEGO生成方法相比，LegoACE在训练和推理效率上都有明显优势。由于它不需要把每块砖展开成大量体素，也不需要显式处理复杂连接点，整个生成过程更加轻量。

更重要的是，LegoACE能使用更加丰富的砖块类型。

这直接带来了视觉表现力上的差异。

在文字条件生成中，与BrickGPT这类主要依赖规则方块的表示方式相比，LegoACE可以自然地使用车轮、方向盘、门窗、装饰件等专用零件。因此，当生成车辆、建筑或家具时，它不必用普通方块去"模拟"这些部件，而是可以直接选择更合适的LEGO零件。

在法线图条件生成任务上，论文对比了一条更间接的路线：先使用3D生成或重建方法从图像得到mesh，再通过Blender插件将mesh转换为LEGO方块模型。相比之下，LegoACE可以直接从法线图端到端生成LEGO结构，因此在整体形态和局部细节上都更贴近目标对象。

从生成结果来看，LegoACE在建筑、车辆、动物、人物等类别上都能产生较完整的LEGO模型。模型不仅能够捕捉对象的整体轮廓，也能在适当位置使用专用零件，提高生成结果的表现力。

这些结果说明，隐式学习连接关系并不一定会削弱生成能力。相反，当数据规模和表示方式足够合适时，它可能让模型摆脱人工规则的限制，从而覆盖更丰富的零件和结构。

为什么这件事不只是LEGO？

如果只把LegoACE看作一个LEGO生成系统，它当然已经足够有趣。但更值得讨论的是，它背后反映了一类更普遍的问题。

很多真实世界对象都可以被看作"受约束的基本单元如何组合"：

分子由原子和化学键组成；

电路由元件和连接关系组成；

建筑可以由模块化构件组成；

机械结构由零件和装配关系组成；

机器人形态也可以由关节、连杆和功能模块组成。

这些对象的共同特点是：

它们不是连续图像，而是离散结构；

它们不是随意组合，而是受到规则约束；

它们的规则往往很多、很细、强依赖上下文，很难完全手工写清楚。

传统方法往往会先定义规则，再让模型在规则内生成。这种方式可靠、可控，但当对象类型变复杂、部件种类变多时，规则设计和标注成本会迅速上升。

LegoACE展示了另一种可能：

不一定先把所有规则写出来，而是让模型从大量真实结构中学习哪些组合更自然、哪些连接更可能成立。

这和大语言模型的发展有某种相似性。

语言当然有语法，但现代语言模型并不是靠人类逐条写入语法规则才学会表达。它们通过大量文本样本，学习到词语之间、句子之间、上下文之间的统计规律。

LegoACE则把这种思路带到了三维结构生成中：

LEGO砖块就像一种结构化语言，砖块类型、位置和朝向构成了"词"，搭建顺序构成了"句子"，最终模型生成的是一个具有空间结构和连接逻辑的"作品"。

从这个角度看，LEGO只是入口。真正值得关注的是：

当AI走向物理世界和复杂结构设计时，它能否像学习语言一样，学会现实世界中那些难以完全写清楚的组合规律？

从"内容生成"到"结构生成"

今天的大多数生成式AI应用，仍然主要集中在内容层面：文字、图像、音频、视频。这些内容的评价标准通常偏感知和语义：是否自然、是否清晰、是否符合描述。

但未来越来越多的AI任务会进入结构层面。

结构生成的要求更高。它不仅要像，还要能成立；不仅要符合语义，还要满足约束；不仅要生成一个结果，还要保证部件之间的关系合理。

这也是LegoACE的高层意义所在。它不是简单地把LLaMA用在LEGO上，而是在探索一个更大的问题：

面对由离散部件组成、并受到复杂规则约束的对象，AI应该如何生成？

一种方式是继续手工定义规则，把规则写得越来越细。

另一种方式是利用大规模数据，让模型自己学习规则。

更现实的未来，可能是两者结合：模型负责学习复杂的组合偏好和设计模式，显式约束负责保证物理可行性和安全边界。

LegoACE站在了这个方向上。它证明，对于LEGO这样具有明确连接逻辑和丰富部件类型的对象，模型可以在不依赖显式连接点标注的情况下，从数据中学习到有效的搭建规律。

这为更广泛的结构化生成任务提供了启发。

边界：隐式学习并不等于没有约束

当然，让模型隐式学习规则，并不意味着规则消失了。

对于LEGO这样的物理结构，连接是否合法、整体是否稳定、模型是否真的能够拼接，仍然是必须面对的问题。LegoACE的生成结果虽然展现了很强的扩展性和表现力，但由于缺少显式结构约束，在训练数据不足或遇到罕见组合时，仍可能出现无法实际拼接的问题。

这也是后续工作需要继续解决的方向。

一方面，可以继续扩大数据规模，让模型看到更多真实搭建样本；另一方面，也可以将隐式学习到的生成能力与显式几何检查、物理约束、装配验证结合起来，使生成结果既丰富，又可靠。

因此，LegoACE并不是在否定规则，而是在重新思考规则与学习之间的关系：

复杂规则不一定都要由人手工写出，也可以通过数据被模型学习；但在真正进入物理世界时，学习到的规则仍然需要和显式约束共同发挥作用。

结语

LEGO是一个有趣的切入点，因为它既熟悉又复杂。每个人都知道LEGO可以拼搭出各种模型，但真正让AI学会搭LEGO，并不只是让它生成一堆砖块，而是让它理解砖块之间如何组合、连接和支撑。

LegoACE的价值不只在于生成LEGO模型。它更像是一个观察窗口，让我们看到生成式AI可能从"内容生成"走向"结构生成"。

过去，我们常常把复杂规则写给AI。

现在，一个新的方向正在出现：让AI从大量真实样本中自己学会规则。

从LEGO到分子、电路、建筑和机器人结构，这类问题会越来越重要。因为现实世界中的许多对象，本质上都不是孤立的形状，而是由基本单元在复杂约束下组合而成的结构。

LegoACE提出的思路说明，当AI面对这样的结构化世界时，它不一定只能被动接受人工定义好的规则。它也可以通过数据，学习什么样的组合更自然、什么样的结构更可能成立。

这或许正是生成式AI走向真实世界时必须跨过的一步。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定