VAST联合浙大等高校开源LegoACE,探索AI无需人工显式规则,从数据中学习三维约束结构生成规律,为结构化生成提供新思路。 ## 1. AI搭乐高的核心难点:从生成内容到生成可行结构 生成式AI此前擅长生成符合感知要求的文字、图像等内容,但乐高需要满足砖块位置、朝向、连接、稳定性等物理规则,本质是生成受约束的离散结构,这触及了生成式AI从“生成看起来像的内容”到“生成真的能成立的结构”的深层挑战。 ## 2. 传统乐高生成方案的核心瓶颈 此前方案通常显式标注连接点、人工编写拼接规则:一类基于体素建模,依赖人工标注连接点,随着乐高零件种类增加,标注和维护成本会急速上升;另一类用类自然语言序列微调大模型,仅能支持较规则的方块类零件,难以扩展到异形、专用零件,瓶颈本质是依赖人工显式建模连接关系,受限于砖块类型和规则复杂度。 ## 3. LegoACE的核心方案:让模型从数据中隐式学习规则 LegoACE放弃人工标注连接点与显式规则,将乐高搭建转化为自回归序列生成问题,类比大语言模型从文本学语法,让模型从大量样本中学习砖块组合规律。 研究团队构建了大规模数据集LegoVerse,包含55000个独特乐高模型、9314种砖块类型,覆盖多类场景,支持48种轴对齐旋转变换,为模型学习提供了数据基础。 LegoACE采用乐高原生序列化方法,将每块砖编码为位置、旋转、类型三个token,整体转为自回归模型可处理的序列,基于decoder-only Transformer实现生成,支持文字条件生成与多视角法线图条件生成,还通过数据增强、DPO对齐优化生成质量。 ## 4. LegoACE的效果与通用意义 对比传统方法,LegoACE训练推理效率更优,支持更丰富的砖块类型,可直接使用车轮、门窗等专用零件,生成结果在整体形态和局部细节上更贴近目标,能生成结构完整、表现力更强的乐高模型。 该方案证明,对于由离散基本单元组成、受复杂规则约束的物理对象,AI可无需人工逐条编写规则,从数据中学习组合规律,为分子设计、电路设计、模块化建筑、机械结构等广泛的结构化生成任务提供了新启发,是生成式AI从内容生成走向物理世界结构生成的有益探索。 ## 5. 当前局限与未来方向 LegoACE因缺少显式结构约束,在训练数据不足或遇到罕见组合时,仍可能出现无法实际拼接的问题。后续可通过扩大数据规模、结合显式几何检查与物理约束验证,兼顾生成丰富度与可靠性。
让AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE
2026-05-29 10:42

让AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE

本文来自微信公众号: AI前线 ,作者:VAST,原文标题:《让 AI 搭3D乐高,为什么这么难?VAST 联合浙大等高校开源LegoACE》


过去几年,生成式AI已经学会了写文章、画图像、做视频。它们擅长生成"看起来合理"的内容:一段文字是否通顺,一张图片是否逼真,一段视频是否连贯,很多时候都可以从视觉和语义上判断。


但当AI试图进入物理世界,问题会变得复杂得多。


一张图片只要视觉上可信就可以,但一个LEGO模型必须真的能搭起来。每一块砖的位置、朝向和类型都要相互匹配,凸点和凹槽要对得上,局部结构要能连接,整体形状还要稳定。换句话说,AI面对的不再只是"生成一个外观",而是"生成一个受规则约束的结构"。


这正是LegoACE想回答的问题:


如果不把所有连接规则都人工写进模型里,AI能不能像学习语言一样,从大量真实LEGO模型中自己学会搭建规律?


在SIGGRAPH Asia 2025上,LegoACE给出了一种新的思路:不再显式标注每块砖的连接点,也不手工设计复杂的拼接规则,而是让模型从大量LEGO模型中学习"什么样的砖块组合更可能成立"。


这件事的意义并不只在于让AI会搭乐高。更大的问题是:当AI面对分子、电路、建筑模块、机器人结构这类由基本单元组成、又受到复杂约束限制的对象时,它能否不依赖人工写死规则,而是从数据中学会现实世界的组合规律?


论文标题:LegoACE:Autoregressive Construction Engine for Expressive LEGO Assemblies


论文链接:https://doi.org/10.1145/3757377.3763881


项目主页:https://xh38.github.io/LegoACE/


作者单位:浙江大学、VAST、清华大学、KAUST、香港大学


AI会生成内容,


但会"搭东西"吗?


如果只是让AI画一辆车,它可以画出车轮、车身、车窗和车灯。只要图像看起来像车,结果就已经足够有说服力。


但如果要让AI生成一个真正由LEGO砖块组成的车,难度就完全不同了。


每一块砖都不是自由漂浮的像素,而是一个有明确几何形状、连接方式和空间朝向的实体。模型不仅要知道"这里应该有一个车轮",还要知道车轮对应什么LEGO零件、应该放在哪里、如何朝向、怎样与周围砖块连接,以及整个结构是否真的能拼起来。


这类问题可以看作一种结构化生成:对象不是连续的图像,而是由一组离散部件组成;部件之间不是随意摆放,而是受到连接、支撑、方向、空间占用等规则约束。


LEGO是一个很好的例子,因为它足够大众:几乎每个人都知道它是什么;但它又足够复杂:真正搭建一个模型时,背后存在大量细致的几何和结构规则。


因此,让AI搭LEGO,并不是一个简单的玩具问题。它实际上触及了生成式AI的一个更深层挑战:


AI能不能从"生成看起来像的东西",走向"生成真的能成立的结构"?


过去的思路:


把连接规则写给AI


在LegoACE之前,相关方法通常会尝试显式告诉AI LEGO砖块之间如何连接。


这听起来很自然。既然LEGO的凸点和凹槽有固定位置,那就把这些连接点标出来;既然不同砖块之间有拼接规则,那就把这些规则写进系统。这样,AI在生成时就可以参考这些人工定义的连接关系。


问题在于,这条路线很难扩展。


一种常见做法是基于体素建模。模型需要先把LEGO结构转成带连接关系的三维体素表示,再用生成模型进行学习和生成。但这通常要求为每种砖块人工标注连接点。对于少量规则砖块来说,这或许还能接受;但真实LEGO零件的形状和类别非常丰富,一旦砖块数量增加,人工标注和规则维护的成本就会迅速上升。


另一类方法尝试把LEGO模型写成类似自然语言的文本序列,再微调大语言模型进行生成。代表性工作如BrickGPT。它看起来绕开了连接点标注,但代价是只能使用较规则的方块类零件,因为这些砖块的连接关系天然比较固定。如果要引入车轮、窗户、门、斜面、装饰件等更丰富的不规则零件,如何设计合适的文本表示和连接规则仍然是一个难点。


也就是说,过去方法的核心瓶颈并不只是模型能力,而是表示方式本身:


只要系统依赖人工显式建模连接关系,它就很容易被砖块类型、标注成本和规则复杂度限制住。


LegoACE的思路:不把规则写死


而让模型学会规则


它不再要求人工标注每块砖的连接点,也不显式告诉模型"哪块砖能连哪块砖"。相反,它把LEGO模型看作一个按顺序搭建的过程:已经放好一部分砖块之后,模型预测下一块砖应该是什么类型、放在什么位置、采用什么朝向。


这和大语言模型有一个很自然的类比。


人们并没有把所有语法规则、搭配习惯和表达方式逐条写进语言模型里。模型通过阅读大量文本,逐渐学会了哪些词更可能接在一起、什么样的句子更自然、什么样的表达更符合上下文。


LegoACE做的事情类似,只不过学习对象从文字变成了LEGO结构。


给定前面已经搭好的砖块序列,模型需要预测下一块砖。它会在大量训练数据中反复看到:某些砖块通常以怎样的方式组合,某些零件更适合出现在什么位置,什么样的局部结构更稳定,什么样的搭建顺序更常见。


在这个过程中,连接关系并没有被人工写进模型,而是被模型从数据中隐式学会。


这并不是说规则不存在,而是规则的来源发生了变化:


过去是人先总结规则,再把规则交给模型;


LegoACE则是让模型直接从真实样本中学习规则。


LegoVerse:让模型从足够多的


搭建样本中学习


如果要让模型自己学习搭建规律,数据规模就变得非常关键。


为此,研究团队构建了一个新的大规模LEGO数据集LegoVerse。相比以往规模较小、砖块类型有限的数据集,LegoVerse覆盖了更丰富的模型和零件:


55,000个独特LEGO模型;


9,314种砖块类型;


涵盖建筑、车辆、人物、飞船、动物、家具等多个类别;


支持48种轴对齐旋转变换。



这个数据集的意义在于,它让模型不再只能学习少量规则方块的组合方式,而是有机会接触真实LEGO设计中更加多样的零件和结构。


这也是LegoACE能够摆脱显式连接点标注的重要前提:


如果数据足够丰富,模型就可以从大量样本中观察到不同砖块如何组合,而不是依赖人工逐一标注每个连接位置。


把LEGO模型变成"句子"


要让Transformer生成LEGO,第一步是把LEGO模型转换成一种类似语言的序列。


在语言模型里,一句话由一串token组成;在LegoACE中,一个LEGO模型也被表示为一串token。区别在于,语言token表示词或子词,而LEGO token表示砖块的空间信息和类型信息。


LegoACE使用了LEGO Native Tokenization,把每块砖编码成三个token:


位置token:表示这块砖放在哪里;


旋转token:表示这块砖采用什么朝向;


类型token:表示这块砖是哪一种零件。


整个LEGO模型则按照固定的空间顺序进行序列化,从而被转换成一个可以由自回归模型处理的token序列。


这里最关键的一点是:类型token只是区分"这是什么砖块",并不显式编码这块砖有哪些连接点、哪里能拼、哪里不能拼。也就是说,模型并没有被直接告知砖块的几何连接规则。


它需要自己从训练数据中学会:某种类型的砖块,通常在什么位置、什么方向下,会和哪些砖块合理组合。



在模型结构上,LegoACE基于decoder-only Transformer,也就是和许多大语言模型类似的自回归生成范式。给定前面已经生成的砖块序列,模型预测下一个token,并逐步生成完整的LEGO模型。


这种设计让LEGO生成问题被转化为一个更通用的问题:


能否像生成句子一样,生成一个由离散部件组成的三维结构?


两种条件生成:


从文字和图像出发搭LEGO


LegoACE不只支持无条件生成,也支持从不同输入条件出发生成LEGO模型。


第一种是文字条件生成。用户输入一句描述,例如一辆车、一座建筑或一个动物模型,系统通过CLIP提取文本语义,再指导模型生成相应的LEGO结构。


第二种是多视角法线图条件生成。给定目标物体的多视角法线图,系统通过DINOv2提取视觉特征,再生成对应的LEGO模型。这相当于让模型根据一个三维物体的外观和形状线索,直接预测一个可由LEGO砖块组成的结构。


为了增强模型从局部信息推断完整结构的能力,LegoACE还在训练中引入了数据增强:随机截取模型的一段子序列,渲染对应的法线图作为条件输入,让模型学习如何从部分结构恢复完整模型。


在训练完成后,研究团队进一步使用DPO(Direct Preference Optimization)进行对齐。对于同一个输入,模型生成两个候选结果,再根据Chamfer Distance判断哪个更接近真实结构,并将更好的结果作为偏好样本,用于进一步优化模型。


这些技术细节背后的目标其实很直接:


让模型不只是"会生成砖块序列",而是能根据文字或图像条件,生成更符合目标对象形态的LEGO结构。


结果:更丰富的零件


更高的生成质量


和基于体素扩散的LEGO生成方法相比,LegoACE在训练和推理效率上都有明显优势。由于它不需要把每块砖展开成大量体素,也不需要显式处理复杂连接点,整个生成过程更加轻量。


更重要的是,LegoACE能使用更加丰富的砖块类型。


这直接带来了视觉表现力上的差异。


在文字条件生成中,与BrickGPT这类主要依赖规则方块的表示方式相比,LegoACE可以自然地使用车轮、方向盘、门窗、装饰件等专用零件。因此,当生成车辆、建筑或家具时,它不必用普通方块去"模拟"这些部件,而是可以直接选择更合适的LEGO零件。



在法线图条件生成任务上,论文对比了一条更间接的路线:先使用3D生成或重建方法从图像得到mesh,再通过Blender插件将mesh转换为LEGO方块模型。相比之下,LegoACE可以直接从法线图端到端生成LEGO结构,因此在整体形态和局部细节上都更贴近目标对象。



从生成结果来看,LegoACE在建筑、车辆、动物、人物等类别上都能产生较完整的LEGO模型。模型不仅能够捕捉对象的整体轮廓,也能在适当位置使用专用零件,提高生成结果的表现力。



这些结果说明,隐式学习连接关系并不一定会削弱生成能力。相反,当数据规模和表示方式足够合适时,它可能让模型摆脱人工规则的限制,从而覆盖更丰富的零件和结构。


为什么这件事不只是LEGO?


如果只把LegoACE看作一个LEGO生成系统,它当然已经足够有趣。但更值得讨论的是,它背后反映了一类更普遍的问题。


很多真实世界对象都可以被看作"受约束的基本单元如何组合":


分子由原子和化学键组成;


电路由元件和连接关系组成;


建筑可以由模块化构件组成;


机械结构由零件和装配关系组成;


机器人形态也可以由关节、连杆和功能模块组成。


这些对象的共同特点是:


它们不是连续图像,而是离散结构;


它们不是随意组合,而是受到规则约束;


它们的规则往往很多、很细、强依赖上下文,很难完全手工写清楚。


传统方法往往会先定义规则,再让模型在规则内生成。这种方式可靠、可控,但当对象类型变复杂、部件种类变多时,规则设计和标注成本会迅速上升。


LegoACE展示了另一种可能:


不一定先把所有规则写出来,而是让模型从大量真实结构中学习哪些组合更自然、哪些连接更可能成立。


这和大语言模型的发展有某种相似性。


语言当然有语法,但现代语言模型并不是靠人类逐条写入语法规则才学会表达。它们通过大量文本样本,学习到词语之间、句子之间、上下文之间的统计规律。


LegoACE则把这种思路带到了三维结构生成中:


LEGO砖块就像一种结构化语言,砖块类型、位置和朝向构成了"词",搭建顺序构成了"句子",最终模型生成的是一个具有空间结构和连接逻辑的"作品"。


从这个角度看,LEGO只是入口。真正值得关注的是:


当AI走向物理世界和复杂结构设计时,它能否像学习语言一样,学会现实世界中那些难以完全写清楚的组合规律?


从"内容生成"到"结构生成"


今天的大多数生成式AI应用,仍然主要集中在内容层面:文字、图像、音频、视频。这些内容的评价标准通常偏感知和语义:是否自然、是否清晰、是否符合描述。


但未来越来越多的AI任务会进入结构层面。


结构生成的要求更高。它不仅要像,还要能成立;不仅要符合语义,还要满足约束;不仅要生成一个结果,还要保证部件之间的关系合理。


这也是LegoACE的高层意义所在。它不是简单地把LLaMA用在LEGO上,而是在探索一个更大的问题:


面对由离散部件组成、并受到复杂规则约束的对象,AI应该如何生成?


一种方式是继续手工定义规则,把规则写得越来越细。


另一种方式是利用大规模数据,让模型自己学习规则。


更现实的未来,可能是两者结合:模型负责学习复杂的组合偏好和设计模式,显式约束负责保证物理可行性和安全边界。


LegoACE站在了这个方向上。它证明,对于LEGO这样具有明确连接逻辑和丰富部件类型的对象,模型可以在不依赖显式连接点标注的情况下,从数据中学习到有效的搭建规律。


这为更广泛的结构化生成任务提供了启发。


边界:隐式学习并不等于没有约束


当然,让模型隐式学习规则,并不意味着规则消失了。


对于LEGO这样的物理结构,连接是否合法、整体是否稳定、模型是否真的能够拼接,仍然是必须面对的问题。LegoACE的生成结果虽然展现了很强的扩展性和表现力,但由于缺少显式结构约束,在训练数据不足或遇到罕见组合时,仍可能出现无法实际拼接的问题。


这也是后续工作需要继续解决的方向。


一方面,可以继续扩大数据规模,让模型看到更多真实搭建样本;另一方面,也可以将隐式学习到的生成能力与显式几何检查、物理约束、装配验证结合起来,使生成结果既丰富,又可靠。


因此,LegoACE并不是在否定规则,而是在重新思考规则与学习之间的关系:


复杂规则不一定都要由人手工写出,也可以通过数据被模型学习;但在真正进入物理世界时,学习到的规则仍然需要和显式约束共同发挥作用。


结语


LEGO是一个有趣的切入点,因为它既熟悉又复杂。每个人都知道LEGO可以拼搭出各种模型,但真正让AI学会搭LEGO,并不只是让它生成一堆砖块,而是让它理解砖块之间如何组合、连接和支撑。


LegoACE的价值不只在于生成LEGO模型。它更像是一个观察窗口,让我们看到生成式AI可能从"内容生成"走向"结构生成"。


过去,我们常常把复杂规则写给AI。


现在,一个新的方向正在出现:让AI从大量真实样本中自己学会规则。


从LEGO到分子、电路、建筑和机器人结构,这类问题会越来越重要。因为现实世界中的许多对象,本质上都不是孤立的形状,而是由基本单元在复杂约束下组合而成的结构。


LegoACE提出的思路说明,当AI面对这样的结构化世界时,它不一定只能被动接受人工定义好的规则。它也可以通过数据,学习什么样的组合更自然、什么样的结构更可能成立。


这或许正是生成式AI走向真实世界时必须跨过的一步。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定