本文来自微信公众号: AI前线 ,作者:VAST,原文标题:《让 AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE》
过去几年,生成式AI已经学会了写文章、画图像、做视频。它们擅长生成"看起来合理"的内容:一段文字是否通顺,一张图片是否逼真,一段视频是否连贯,很多时候都可以从视觉和语义上判断。
但当AI试图进入物理世界,问题会变得复杂得多。
一张图片只要视觉上可信就可以,但一个LEGO模型必须真的能搭起来。每一块砖的位置、朝向和类型都要相互匹配,凸点和凹槽要对得上,局部结构要能连接,整体形状还要稳定。换句话说,AI面对的不再只是"生成一个外观",而是"生成一个受规则约束的结构"。
这正是LegoACE想回答的问题:
如果不把所有连接规则都人工写进模型里,AI能不能像学习语言一样,从大量真实LEGO模型中自己学会搭建规律?
在SIGGRAPH Asia 2025上,LegoACE给出了一种新的思路:不再显式标注每块砖的连接点,也不手工设计复杂的拼接规则,而是让模型从大量LEGO模型中学习"什么样的砖块组合更可能成立"。
这件事的意义并不只在于让AI会搭乐高。更大的问题是:当AI面对分子、电路、建筑模块、机器人结构这类由基本单元组成、又受到复杂约束限制的对象时,它能否不依赖人工写死规则,而是从数据中学会现实世界的组合规律?
论文标题:LegoACE:Autoregressive Construction Engine for Expressive LEGO Assemblies
论文链接:https://doi.org/10.1145/3757377.3763881
项目主页:https://xh38.github.io/LegoACE/
作者单位:浙江大学、VAST、清华大学、KAUST、香港大学
AI会生成内容,
但会"搭东西"吗?
如果只是让AI画一辆车,它可以画出车轮、车身、车窗和车灯。只要图像看起来像车,结果就已经足够有说服力。
但如果要让AI生成一个真正由LEGO砖块组成的车,难度就完全不同了。
每一块砖都不是自由漂浮的像素,而是一个有明确几何形状、连接方式和空间朝向的实体。模型不仅要知道"这里应该有一个车轮",还要知道车轮对应什么LEGO零件、应该放在哪里、如何朝向、怎样与周围砖块连接,以及整个结构是否真的能拼起来。
这类问题可以看作一种结构化生成:对象不是连续的图像,而是由一组离散部件组成;部件之间不是随意摆放,而是受到连接、支撑、方向、空间占用等规则约束。
LEGO是一个很好的例子,因为它足够大众:几乎每个人都知道它是什么;但它又足够复杂:真正搭建一个模型时,背后存在大量细致的几何和结构规则。
因此,让AI搭LEGO,并不是一个简单的玩具问题。它实际上触及了生成式AI的一个更深层挑战:
AI能不能从"生成看起来像的东西",走向"生成真的能成立的结构"?
过去的思路:
把连接规则写给AI
在LegoACE之前,相关方法通常会尝试显式告诉AI LEGO砖块之间如何连接。
这听起来很自然。既然LEGO的凸点和凹槽有固定位置,那就把这些连接点标出来;既然不同砖块之间有拼接规则,那就把这些规则写进系统。这样,AI在生成时就可以参考这些人工定义的连接关系。
问题在于,这条路线很难扩展。
一种常见做法是基于体素建模。模型需要先把LEGO结构转成带连接关系的三维体素表示,再用生成模型进行学习和生成。但这通常要求为每种砖块人工标注连接点。对于少量规则砖块来说,这或许还能接受;但真实LEGO零件的形状和类别非常丰富,一旦砖块数量增加,人工标注和规则维护的成本就会迅速上升。
另一类方法尝试把LEGO模型写成类似自然语言的文本序列,再微调大语言模型进行生成。代表性工作如BrickGPT。它看起来绕开了连接点标注,但代价是只能使用较规则的方块类零件,因为这些砖块的连接关系天然比较固定。如果要引入车轮、窗户、门、斜面、装饰件等更丰富的不规则零件,如何设计合适的文本表示和连接规则仍然是一个难点。
也就是说,过去方法的核心瓶颈并不只是模型能力,而是表示方式本身:
只要系统依赖人工显式建模连接关系,它就很容易被砖块类型、标注成本和规则复杂度限制住。
LegoACE的思路:不把规则写死
而让模型学会规则
它不再要求人工标注每块砖的连接点,也不显式告诉模型"哪块砖能连哪块砖"。相反,它把LEGO模型看作一个按顺序搭建的过程:已经放好一部分砖块之后,模型预测下一块砖应该是什么类型、放在什么位置、采用什么朝向。
这和大语言模型有一个很自然的类比。
人们并没有把所有语法规则、搭配习惯和表达方式逐条写进语言模型里。模型通过阅读大量文本,逐渐学会了哪些词更可能接在一起、什么样的句子更自然、什么样的表达更符合上下文。
LegoACE做的事情类似,只不过学习对象从文字变成了LEGO结构。
给定前面已经搭好的砖块序列,模型需要预测下一块砖。它会在大量训练数据中反复看到:某些砖块通常以怎样的方式组合,某些零件更适合出现在什么位置,什么样的局部结构更稳定,什么样的搭建顺序更常见。
在这个过程中,连接关系并没有被人工写进模型,而是被模型从数据中隐式学会。
这并不是说规则不存在,而是规则的来源发生了变化:
过去是人先总结规则,再把规则交给模型;
LegoACE则是让模型直接从真实样本中学习规则。
LegoVerse:让模型从足够多的
搭建样本中学习
如果要让模型自己学习搭建规律,数据规模就变得非常关键。
为此,研究团队构建了一个新的大规模LEGO数据集LegoVerse。相比以往规模较小、砖块类型有限的数据集,LegoVerse覆盖了更丰富的模型和零件:
55,000个独特LEGO模型;
9,314种砖块类型;
涵盖建筑、车辆、人物、飞船、动物、家具等多个类别;
支持48种轴对齐旋转变换。

这个数据集的意义在于,它让模型不再只能学习少量规则方块的组合方式,而是有机会接触真实LEGO设计中更加多样的零件和结构。
这也是LegoACE能够摆脱显式连接点标注的重要前提:
如果数据足够丰富,模型就可以从大量样本中观察到不同砖块如何组合,而不是依赖人工逐一标注每个连接位置。
把LEGO模型变成"句子"
要让Transformer生成LEGO,第一步是把LEGO模型转换成一种类似语言的序列。
在语言模型里,一句话由一串token组成;在LegoACE中,一个LEGO模型也被表示为一串token。区别在于,语言token表示词或子词,而LEGO token表示砖块的空间信息和类型信息。
LegoACE使用了LEGO Native Tokenization,把每块砖编码成三个token:
位置token:表示这块砖放在哪里;
旋转token:表示这块砖采用什么朝向;
类型token:表示这块砖是哪一种零件。
整个LEGO模型则按照固定的空间顺序进行序列化,从而被转换成一个可以由自回归模型处理的token序列。
这里最关键的一点是:类型token只是区分"这是什么砖块",并不显式编码这块砖有哪些连接点、哪里能拼、哪里不能拼。也就是说,模型并没有被直接告知砖块的几何连接规则。
它需要自己从训练数据中学会:某种类型的砖块,通常在什么位置、什么方向下,会和哪些砖块合理组合。

在模型结构上,LegoACE基于decoder-only Transformer,也就是和许多大语言模型类似的自回归生成范式。给定前面已经生成的砖块序列,模型预测下一个token,并逐步生成完整的LEGO模型。
这种设计让LEGO生成问题被转化为一个更通用的问题:
能否像生成句子一样,生成一个由离散部件组成的三维结构?
两种条件生成:
从文字和图像出发搭LEGO
LegoACE不只支持无条件生成,也支持从不同输入条件出发生成LEGO模型。
第一种是文字条件生成。用户输入一句描述,例如一辆车、一座建筑或一个动物模型,系统通过CLIP提取文本语义,再指导模型生成相应的LEGO结构。
第二种是多视角法线图条件生成。给定目标物体的多视角法线图,系统通过DINOv2提取视觉特征,再生成对应的LEGO模型。这相当于让模型根据一个三维物体的外观和形状线索,直接预测一个可由LEGO砖块组成的结构。
为了增强模型从局部信息推断完整结构的能力,LegoACE还在训练中引入了数据增强:随机截取模型的一段子序列,渲染对应的法线图作为条件输入,让模型学习如何从部分结构恢复完整模型。
在训练完成后,研究团队进一步使用DPO(Direct Preference Optimization)进行对齐。对于同一个输入,模型生成两个候选结果,再根据Chamfer Distance判断哪个更接近真实结构,并将更好的结果作为偏好样本,用于进一步优化模型。
这些技术细节背后的目标其实很直接:
让模型不只是"会生成砖块序列",而是能根据文字或图像条件,生成更符合目标对象形态的LEGO结构。
结果:更丰富的零件
更高的生成质量
和基于体素扩散的LEGO生成方法相比,LegoACE在训练和推理效率上都有明显优势。由于它不需要把每块砖展开成大量体素,也不需要显式处理复杂连接点,整个生成过程更加轻量。
更重要的是,LegoACE能使用更加丰富的砖块类型。
这直接带来了视觉表现力上的差异。
在文字条件生成中,与BrickGPT这类主要依赖规则方块的表示方式相比,LegoACE可以自然地使用车轮、方向盘、门窗、装饰件等专用零件。因此,当生成车辆、建筑或家具时,它不必用普通方块去"模拟"这些部件,而是可以直接选择更合适的LEGO零件。

在法线图条件生成任务上,论文对比了一条更间接的路线:先使用3D生成或重建方法从图像得到mesh,再通过Blender插件将mesh转换为LEGO方块模型。相比之下,LegoACE可以直接从法线图端到端生成LEGO结构,因此在整体形态和局部细节上都更贴近目标对象。

从生成结果来看,LegoACE在建筑、车辆、动物、人物等类别上都能产生较完整的LEGO模型。模型不仅能够捕捉对象的整体轮廓,也能在适当位置使用专用零件,提高生成结果的表现力。

这些结果说明,隐式学习连接关系并不一定会削弱生成能力。相反,当数据规模和表示方式足够合适时,它可能让模型摆脱人工规则的限制,从而覆盖更丰富的零件和结构。
为什么这件事不只是LEGO?
如果只把LegoACE看作一个LEGO生成系统,它当然已经足够有趣。但更值得讨论的是,它背后反映了一类更普遍的问题。
很多真实世界对象都可以被看作"受约束的基本单元如何组合":
分子由原子和化学键组成;
电路由元件和连接关系组成;
建筑可以由模块化构件组成;
机械结构由零件和装配关系组成;
机器人形态也可以由关节、连杆和功能模块组成。
这些对象的共同特点是:
它们不是连续图像,而是离散结构;
它们不是随意组合,而是受到规则约束;
它们的规则往往很多、很细、强依赖上下文,很难完全手工写清楚。
传统方法往往会先定义规则,再让模型在规则内生成。这种方式可靠、可控,但当对象类型变复杂、部件种类变多时,规则设计和标注成本会迅速上升。
LegoACE展示了另一种可能:
不一定先把所有规则写出来,而是让模型从大量真实结构中学习哪些组合更自然、哪些连接更可能成立。
这和大语言模型的发展有某种相似性。
语言当然有语法,但现代语言模型并不是靠人类逐条写入语法规则才学会表达。它们通过大量文本样本,学习到词语之间、句子之间、上下文之间的统计规律。
LegoACE则把这种思路带到了三维结构生成中:
LEGO砖块就像一种结构化语言,砖块类型、位置和朝向构成了"词",搭建顺序构成了"句子",最终模型生成的是一个具有空间结构和连接逻辑的"作品"。
从这个角度看,LEGO只是入口。真正值得关注的是:
当AI走向物理世界和复杂结构设计时,它能否像学习语言一样,学会现实世界中那些难以完全写清楚的组合规律?
从"内容生成"到"结构生成"
今天的大多数生成式AI应用,仍然主要集中在内容层面:文字、图像、音频、视频。这些内容的评价标准通常偏感知和语义:是否自然、是否清晰、是否符合描述。
但未来越来越多的AI任务会进入结构层面。
结构生成的要求更高。它不仅要像,还要能成立;不仅要符合语义,还要满足约束;不仅要生成一个结果,还要保证部件之间的关系合理。
这也是LegoACE的高层意义所在。它不是简单地把LLaMA用在LEGO上,而是在探索一个更大的问题:
面对由离散部件组成、并受到复杂规则约束的对象,AI应该如何生成?
一种方式是继续手工定义规则,把规则写得越来越细。
另一种方式是利用大规模数据,让模型自己学习规则。
更现实的未来,可能是两者结合:模型负责学习复杂的组合偏好和设计模式,显式约束负责保证物理可行性和安全边界。
LegoACE站在了这个方向上。它证明,对于LEGO这样具有明确连接逻辑和丰富部件类型的对象,模型可以在不依赖显式连接点标注的情况下,从数据中学习到有效的搭建规律。
这为更广泛的结构化生成任务提供了启发。
边界:隐式学习并不等于没有约束
当然,让模型隐式学习规则,并不意味着规则消失了。
对于LEGO这样的物理结构,连接是否合法、整体是否稳定、模型是否真的能够拼接,仍然是必须面对的问题。LegoACE的生成结果虽然展现了很强的扩展性和表现力,但由于缺少显式结构约束,在训练数据不足或遇到罕见组合时,仍可能出现无法实际拼接的问题。
这也是后续工作需要继续解决的方向。
一方面,可以继续扩大数据规模,让模型看到更多真实搭建样本;另一方面,也可以将隐式学习到的生成能力与显式几何检查、物理约束、装配验证结合起来,使生成结果既丰富,又可靠。
因此,LegoACE并不是在否定规则,而是在重新思考规则与学习之间的关系:
复杂规则不一定都要由人手工写出,也可以通过数据被模型学习;但在真正进入物理世界时,学习到的规则仍然需要和显式约束共同发挥作用。
结语
LEGO是一个有趣的切入点,因为它既熟悉又复杂。每个人都知道LEGO可以拼搭出各种模型,但真正让AI学会搭LEGO,并不只是让它生成一堆砖块,而是让它理解砖块之间如何组合、连接和支撑。
LegoACE的价值不只在于生成LEGO模型。它更像是一个观察窗口,让我们看到生成式AI可能从"内容生成"走向"结构生成"。
过去,我们常常把复杂规则写给AI。
现在,一个新的方向正在出现:让AI从大量真实样本中自己学会规则。
从LEGO到分子、电路、建筑和机器人结构,这类问题会越来越重要。因为现实世界中的许多对象,本质上都不是孤立的形状,而是由基本单元在复杂约束下组合而成的结构。
LegoACE提出的思路说明,当AI面对这样的结构化世界时,它不一定只能被动接受人工定义好的规则。它也可以通过数据,学习什么样的组合更自然、什么样的结构更可能成立。
这或许正是生成式AI走向真实世界时必须跨过的一步。
