本文来自微信公众号: 集智俱乐部 ,作者:赵思怡
引言:从工程经验到范式转移
从过去几十年的技术直觉出发,人们通常认为:晶体管尺寸越小,计算系统就会越快、越强、也越高效。这一认识在以摩尔定律为核心驱动的技术发展阶段中长期成立,并构成半导体工业发展的基础范式。
然而,进入当代技术阶段后,这一规律正在出现结构性偏离。尽管制程工艺仍在持续进步,但系统级性能提升已呈现明显边际递减;与此同时,先进制程的研发与制造成本不断上升,使得单纯依赖晶体管几何缩放维持指数级性能增长变得愈发困难。
这一变化引出一个更深层的问题:如果技术仍在持续演进,那么“性能进步的体感为何正在减弱”?
在复杂芯片与系统设计的长期实践中,一个逐渐清晰的工程事实被反复验证:当制程进入高密度与高成本并存阶段后,性能提升的主导来源正在发生迁移——不再主要依赖器件尺度缩小,而更多来自系统结构的重构与协同优化。
在这一背景下,近期提出的“华为韬定律”被用以描述这一工程趋势。需要强调的是,该概念并非物理或数学意义上的定律,而是一种源于系统工程实践的结构性判断,其核心在于揭示系统演进方向的变化:
系统优化的主轴正在从“空间尺度驱动”,转向“时间结构驱动”。
具体而言,这一变化首先体现在工程路径层面:三维封装通过缩短路径降低延迟,互连重构减少通信等待,存储与计算协同降低访问开销,架构优化削减同步与调度成本。尽管实现路径不同,但其共同结果指向同一事实:
系统整体响应时间正在被系统性压缩。

因此,“韬定律”的意义不在于提出新的物理规律,而在于提供一个系统工程层面的信号:空间尺度在系统性能中的主导作用正在下降,而时间维度正在成为关键优化变量。
基于这一转变,可以进一步提出一个更本质的问题:如果系统性能不再主要依赖空间缩放,那么驱动系统演进的核心变量究竟是什么?
摩尔定律的再解释:从空间缩放到时间压缩
传统意义上的摩尔定律通常被理解为晶体管数量随时间增长的经验规律。但从系统运行效果来看,这一空间层面的变化,其本质并不在于几何尺度本身,而在于对系统响应速度的持续提升。
晶体管尺寸缩小缩短了载流子迁移路径并降低开关延迟,互连距离压缩减少信号传播时间,更高集成度则降低模块间通信与协同开销。尽管这些变化发生在不同工程层级,但共同作用于同一结果:系统各层级的响应延迟持续下降。

在此意义上,摩尔定律并非空间缩放规律,而是通过空间工程手段实现的时间压缩过程。空间结构的变化只是实现路径,而非最终目标,真正被优化的是系统从输入到输出的时间响应结构。
基于这一理解,可以将时间从经验性描述提升为统一分析变量,引入跨层级表征量——时间常数τ,用于刻画系统在不同层级上的状态响应速率,即从扰动输入到稳定输出所需的特征时间尺度。
在多尺度系统中,τ在不同层级具有不同物理或逻辑含义:器件层对应载流子输运与开关延迟,电路层对应RC网络的充放电时间常数,芯片层体现为计算与存储交互延迟,系统层则扩展为跨节点通信与一致性收敛时间。
这些τ并非独立存在,而是通过层级耦合构成嵌套结构。下层τ决定局部动力学,上层τ由多层τ的组合关系约束,从而形成多尺度时间约束体系。因此,系统性能不再由单一延迟参数决定,而由τ谱结构整体支配。
从系统建模角度看,τ可视为跨层级状态变量,用于统一刻画微观动力学与宏观系统行为之间的时间映射关系。因此,系统优化问题可以统一表述为:在多层耦合约束下,对系统τ谱进行整体压缩与结构重构。
跨学科中的时间尺度收敛
当对系统的分析不再局限于特定工程实现形式,而是逐渐抽象为对“时间结构本身”的刻画时,τ的角色也随之发生变化。系统优化不再仅被理解为工程参数调节问题,而被统一表述为对τ结构的调控问题。在这一意义上,τ不再只是局部工程变量,而上升为刻画系统演化过程的时间尺度描述量,用于表达系统从微观动态到宏观行为之间的时间组织方式。
在这一抽象之上,不同工程领域中的分析框架开始呈现出结构上的可比性。原本分散在计算、物理、生物与控制等系统中的时间约束问题,在形式上逐渐收敛为对关键时间尺度的刻画与调控问题。这种结构一致性使得不同系统之间在动力学层面具备可映射关系,从而为跨学科层面的比较分析提供了基础(Lamport,1978;Kalman,1960)。
在物理学中,超快动力学的发展使时间尺度首次成为可直接实验解析的变量。飞秒与阿秒时间分辨技术使电子跃迁与化学过程能够以时间演化轨迹的形式被观测,从而推动了对微观动力学结构的重新理解(Hentschel et al.,2001)。进一步研究表明,在非平衡复杂系统中,延迟传播与时间缓冲结构可能共同影响系统稳定性与相变行为,使时间尺度从单纯观测量逐渐演化为影响系统动力学结构的重要变量(Krausz&Stockman,2014)。
在化学动力学中,Arrhenius关系建立了反应速率与能垒之间的指数映射,使反应“时间尺度”成为可计算的动力学量(Arrhenius,1889)。在此基础上,现代反应网络研究进一步表明,复杂反应体系中的速率限制过程往往对应系统动力学中的主导时间尺度,从而使反应动力学分析逐渐从单一时间常数模型扩展为多时间尺度耦合结构(Atkins&de Paula,2010)。
在生物与神经科学中,大量研究揭示了时间尺度的层级结构特征。合成生物学中的振荡回路系统表明,基因调控网络可以被工程化为具有明确时间结构的动态系统(Elowitz&Leibler,2000)。进一步研究显示,生物系统普遍由多层时间过程共同驱动,从分子调控到细胞行为再到神经活动,形成嵌套式时间结构。神经科学研究进一步发现,不同脑区存在差异化的内禀时间常数,并在群体尺度上呈现层级分布特征(Murray et al.,2014),从而支持从快速感知到慢速语义整合的多尺度信息处理机制(Hasson et al.,2008)。
在计算机科学与分布式系统中,时间结构则体现为一致性与排序约束的基础问题。Lamport提出的逻辑时钟机制在无全局时间条件下构造了事件的逻辑时间结构,从而为分布式系统提供了一种形式化的时间表示方式(Lamport,1978)。这一思想在现代分布式系统中进一步演化为对通信延迟、同步开销与收敛时间的整体优化问题(Tanenbaum&van Steen,2017)。
在控制理论中,状态空间方法揭示了系统极点结构与动态响应时间之间的严格对应关系,使系统设计问题可以在一定程度上被理解为对时间常数谱结构的配置与调节问题(Kalman,1960;Ogata,2010)。
综上所述,尽管各学科研究对象与物理载体差异显著,但其动力学描述在结构层面呈现出高度一致性:系统行为普遍可以被映射为对关键时间尺度τ的约束、竞争与演化过程。因此,时间尺度逐渐成为跨学科研究中用于描述复杂系统动力学的一类结构性变量,而非局限于特定领域的技术参数。
然而,这种“跨领域一致性”如果仅停留在描述层面,还不足以构成可操作的工程框架。更关键的问题在于:这些不同系统中的τ结构,是否可以被进一步抽象为统一的分析对象,并转化为系统设计与优化的直接变量?
时间尺度范式下的系统工程

这一视角提供了一种统一的系统分析方式:通过识别系统中的主导τ层级及其演化路径,可以将复杂系统的优化问题转化为对关键时间结构的调控与重构问题。
从产业与系统工程视角来看,τ范式的引入本质上改变了技术演进的评价维度。在传统以摩尔定律为主导的范式中,技术进步主要依赖制程缩放与晶体管密度提升,其优化目标隐含地指向空间维度;而在时间尺度框架下,评价重心转向系统级延迟、响应效率与端到端执行时间等时间结构指标。
这一变化意味着工程创新的关注点正在从单一器件层级扩展至跨层级系统协同问题,涵盖芯片设计、互连网络、存储体系与软件调度等多个环节。在这一结构中,系统性能不再由局部最优决定,而主要受跨层级时间常数链条中的主导τ所约束。
进一步从系统工程理论来看,这一结构变化对应于瓶颈结构的重定义:系统能力不取决于平均性能,而取决于时间链路中的关键约束节点。

图片来源:出海网
随着数字经济、人工智能与大模型基础设施进入国家战略层面,算力体系正在从传统“硬件资源建设”阶段,转向面向全局协同的系统工程阶段。在这一背景下,国家近年来持续推进“云—网—算—控”一体化战略部署,其目标已不再局限于单点算力提升,而是通过云计算中心、通信网络、算力调度与智能控制体系的协同耦合,构建面向全国范围的统一算力基础设施。
从系统结构上看,这一体系本质上构成了一个跨层级、多节点耦合的时间系统:计算任务的调度效率、数据流动路径、网络传输时延以及跨区域协同能力,共同决定整体系统的有效响应能力。因此,系统约束正在从传统意义上的“资源规模约束”,逐步转向“端到端时间结构约束”,即系统整体性能越来越取决于跨层级时间常数链条的组织效率。
这一变化也意味着,产业竞争的核心评价标准正在发生深层转移。过去以制程节点、晶体管密度和单点峰值算力为代表的“规模优势”,正在逐渐让位于对复杂系统时间结构的整体优化能力。换言之,未来算力竞争的关键,不仅是谁拥有更多资源,而是谁能够更有效地组织、调度并压缩系统中的关键τ结构,从而实现更高效的端到端系统响应能力。
因此,时间尺度框架的意义已不仅限于对计算系统的重新解释,而是在更广泛层面上提供了一种理解复杂系统演化的新视角。随着后摩尔时代逐步到来,系统能力的竞争重心正在转向对时间结构的组织、调度与重构能力,而这也将成为未来系统工程与算力基础设施演进的重要方向。
摘要
在过去六十年中,摩尔的几何尺度缩放持续推动了半导体技术的进步。然而,这一行业共识性的增长模式正在失效:单纯依赖尺寸缩小所带来的性能收益已经趋于平缓,先进芯片的设计成本已超过十亿美元级别,而最先进制程节点上的“单位晶体管成本下降”趋势也已停止甚至反转。
本文提出一种后续的扩展性范式——时间尺度缩放(τscaling)。该范式将“时间”本身,而非晶体管面积,作为系统进步的核心衡量指标,并以单一特征时间常数τ作为统一优化目标,在跨越约十二个数量级的尺度范围内(从单个开关晶体管到数据中心级工作负载)建立一致性的优化框架。
文中给出了两类生产级验证案例:在移动SoC中,LogicFolding方法通过将数字、模拟与存储电路分配至垂直堆叠的多层主动结构,实现了在固定制程节点下晶体管密度55%的阶跃式提升以及41%的能效提升;在AI系统中,通过联合设计的系统栈——包括语义感知内存互联的Unified Bus架构、近封装Hi-ONE光互连模块以及面向边缘到表面结构的三维折叠(3D Folding)技术——预计到2035年可实现超过100倍的硬件集成增长。
更深层的论点在于方法论层面:τscaling是自Dennard缩放以来首个能够在整个计算栈中建立统一优化目标的规模化原则。
引言
自20世纪60年代中期以来,半导体产业长期以“纳米尺度”作为技术进步的主要衡量标准。在这一范式下,每约十八个月,晶体管尺寸持续缩小,工作频率不断提高,而单位逻辑门成本持续下降。
摩尔定律既是一种经验性观察,也构成了整个计算产业体系赖以建立的行业共识框架。然而,这一共识正在失去效力。在7纳米节点之后,几何尺度缩放已不再持续带来历史意义上的性能红利。光刻设备逐渐逼近图形化的物理极限,极紫外(EUV)设备的折旧成本在晶圆成本中占据主导地位,而单位晶体管成本曲线已趋于平缓,甚至在部分情况下出现反转。
对于那些无法稳定获取最先进光刻能力的组织而言,这一约束更早成为决定性瓶颈,并产生更显著的影响。
因此,行业的核心问题已经发生转变:问题不再是“晶体管还能缩小多少”,而是“应该优化什么,以及以什么目标进行优化”。
在过去六年中,作者所在的华为半导体团队围绕这一问题,在移动SoC、AI加速器、系统互连架构及封装技术等多个层面进行了硅实证研究。研究结论表明,解决路径既不在于进一步推进制程节点,也不在于引入新的晶体管结构,而在于改变系统优化的根本目标函数。
本文认为,未来十年的电子系统演进,将不再以几何缩放为主导,而将以时间缩放为核心——即在整个系统栈的各个层级中系统性降低单一特征时间常数τ,从皮秒级晶体管开关过程,到秒级数据中心工作负载响应过程,建立统一的时间优化框架。
τscaling的理论基础将在下文中展开,其既作为一种科学方法论,也作为一种产业演进路线图,并基于2020年5月至2026年5月间累计381颗量产芯片的工程实践经验进行归纳总结。
几何时代的终结
在其大部分发展历史中,半导体产业的核心任务始终相对单一:不断缩小晶体管尺寸。
1965年,Gordon Moore提出经验观察——晶体管密度大约每两年翻一倍。十年后,Robert Dennard进一步提出缩放理论,指出在电压与几何尺寸按比例缩小的情况下,器件内部电场可以保持近似不变。
在摩尔定律与Dennard缩放理论的共同作用下,半导体产业在近五十年的时间里持续获得了“单位功耗性能”与“单位成本性能”的指数级提升,构成了现代计算体系增长的核心动力。
然而,这一长期稳定的技术演进机制在两个阶段中逐渐瓦解。大约在2005年前后,Dennard缩放率先失效:电压不再能够随特征尺寸同步下降,功耗密度持续上升,“暗硅时代”由此开始。
尽管如此,几何缩放在随后一段时间内仍然延续,其动力主要来自FinFET结构以及后续的环绕栅极(Gate-All-Around,GAA)器件架构,使得晶体管尺寸仍可继续缩小。
然而在7纳米节点之后,仅依赖几何尺寸缩小所带来的收益开始明显趋于平缓。其原因已经在文献中得到较充分解释:载流子速度饱和使得器件内禀延迟对沟道长度的依赖关系由二次关系退化为近似线性关系;局部互连中的寄生电阻与电容逐渐主导标准单元的延迟预算;同时,掩模成本、极紫外(EUV)光刻折旧以及设计规则复杂度的提升,使得先进制程芯片的设计成本在2纳米节点已突破十亿美元级别。
这一变化在经济层面同样具有不可逆性。在先进制程节点上,单位晶体管成本已经趋于平缓,并在部分最前沿节点出现上升趋势。这意味着支撑过去五十年的产业共识——“每一代都能以更低成本获得更多晶体管”——正在失去有效性。
对于华为半导体而言,这一转折还叠加了额外约束:对最先进光刻设备的受限获取,使得单纯依赖制程节点迭代的路径在现实中不可持续。在这一背景下,约六年前,传统的几何演进路线已出现平台期,从而迫使一个更根本的问题浮现出来——这一问题在今天看来,实际上是整个行业终将共同面对的结构性转折。
时间,而非空间:摩尔时代的真实“货币”
如果从最终用户所感知到的效果来归纳,摩尔定律从来都不只是一个“几何尺度变化规律”。其本质并不在于空间维度的缩小,而在于系统响应行为的加速。
更小的晶体管之所以提升性能,是因为其开关速度更快;更密集的互连结构之所以提升性能,是因为信号传播路径更短;更高的集成度之所以提升性能,是因为数据跨越的模块边界更少。
从本质上看,每一代技术进步所带来的共同结果,都可以归结为一个统一变化:时间的减少——从器件层的皮秒级降低到纳秒级,从芯片层的纳秒级降低到微秒级,再到系统层从微秒级降低到秒级。空间缩放在其中扮演的角色,本质上只是“压缩时间”的实现手段,而非最终目标。
一旦这一点被明确,一个自然的重构方式随之出现:应当将“时间”本身提升为系统的核心度量指标。在这一框架下,可以在计算系统的每一个层级——晶体管、电路、芯片以及系统——定义一个特征时间常数τ,并将其统一的下降过程视为系统优化的核心目标。
因此,几何尺度缩放不再是唯一的主导机制,而只是众多用于降低τ的方法之一。
这一思想被定义为τscaling,并在本文中被提出作为取代传统几何摩尔缩放的后续演进范式,用以指导半导体系统的发展方向。
在形式上,τ可以被视为一个多层级耦合结构,其表达为:
τ=f(τtransistor,τcircuit,τchip,τsystem)
其中,τtransistor、τcircuit、τchip与τsystem分别表示晶体管层、电路层、芯片层与系统层的时间常数。每一层的τ不仅由本层自身机制决定,同时也由其下层结构的时间行为,以及该层引入的组织与通信开销共同构成。
从尺度上看,τ的作用范围跨越约十二个数量级(从皮秒到秒),同时也覆盖从纳米到千米的空间范围。在每一个层级中,都存在不同的τ压缩机制:
在晶体管层面,τ对应器件的本征开关延迟,其优化路径包括载流子迁移率提升、应变工程、高κ/金属栅结构以及环绕栅极(GAA)架构,同时还越来越依赖对局部互连寄生电阻与电容的压缩,因为这些寄生效应已经在多个情况下超过器件本征延迟。
在电路层面,τ主要体现为信号路径上的RC传播延迟,其优化方式包括降低导体电阻、使用低介电常数材料,以及更关键的——通过三维垂直集成减少互连长度。
在芯片层面,τ对应计算与存储访问延迟,其优化依赖架构设计选择、流水线深度、存储层次结构以及片上互连网络的设计。
在系统层面,τ表现为端到端消息传输与同步延迟,其优化手段包括互连拓扑设计、通信协议栈优化以及系统级网络架构设计。
在这一多层结构基础上,可以得到一个具有指导意义的代际关系形式:
其中缩放因子α具有明显的应用相关性,而非统一常数。根据现有工程实践经验,在不同应用场景中α呈现显著差异:在功耗受限的移动设备中约为每年1.3倍;在安全关键型自动驾驶系统中约为每年1.5倍;而在AI工作负载中,由于吞吐量直接转化为经济价值,α甚至可达到每年10倍的水平。
τ之所以能够成为一个真正有效的统一指标,而不仅仅是对已有指标的重新命名,在于它在整个系统栈中具有一致性:频率、延迟、带宽与吞吐量在各自层级上,本质上都受τ约束。
因此,无论是工艺工程师、电路设计师还是系统架构师,都可以在同一个物理量框架下讨论系统优化问题。τ成为贯通整个计算栈的统一语言,使得跨层协同优化成为可能。
也正是在这一点上,传统“各层独立优化、时序作为附属约束”的时代正式结束。
LogicFolding:移动SoC中的验证性案例
τscaling理论的第一个生产级验证,来自移动端系统。在这一场景中,智能手机SoC本身就构成了一个完整系统:不存在多插槽并行结构,也无法依赖大规模多节点互联来掩盖局部通信瓶颈。所有用户体验层面的性能输出,都必须来自同一颗芯片,在仅有数瓦功耗预算以及严格热约束的手持设备形态中完成。
在2020年之后,随着先进制程节点获取受限,一个关键问题变得尤为突出:在制程节点固定不再推进的前提下,如何持续实现代际性能提升?
对此问题的回答,最终形成了一个新的设计方法论:LogicFolding。
定义(Definition)
LogicFolding是一种系统级设计方法,其核心思想是在垂直堆叠的多层主动电路结构中,对数字电路、模拟电路以及存储电路进行跨层划分与协同布局,并在时间尺度优化原则下,同时优化性能、功耗与面积。
在数字电路中,逻辑结构可以分为组合逻辑(寄存器之间的布尔运算网络)与时序逻辑(用于状态保持的触发器)。整个数字系统的性能上限由关键路径延迟决定,即相邻触发器之间的最长传播路径延迟。而该延迟又主要由路径上的互连RC效应以及逻辑门数量共同主导。
传统设计方法通常将逻辑单元布置在二维平面上,并通过上方金属层进行布线。随着互连长度增加,寄生电阻与电容显著上升,从而导致关键路径延迟持续恶化。
LogicFolding则放弃了这种平面假设。其核心变化在于:将关键路径上的逻辑门分布到两个乃至多个垂直堆叠的主动层中,并通过超细间距的混合键合(hybrid bonding)实现互连。
从电路设计视角来看,这些分层结构在逻辑上表现为一个连续整体,跨层单元可以被视为扩展的“逻辑平面”。因此,信号路径长度显著缩短,寄生RC快速下降,时钟偏斜减小,最终使得在相同制程节点下实现更高的工作频率成为可能。
为了使LogicFolding达到理想效果,需要控制混合键合间距与顶层金属间距之间的“齿轮比”(gear ratio)。在工程实践中,该比值通常需要低于3,且越接近1越理想。
以当前约720nm的顶层金属间距为例,对应的混合键合间距应低于2μm;理想情况下接近1:1匹配时,跨界面布线开销几乎可以被消除。
要实现这一目标,同时满足低于0.5μm的对准精度、亚1.5μm级TSV尺寸控制以及接近100%的良率(通过冗余设计实现),需要跨供应链与生态系统的多年协同工艺开发。
在Kirin 2026上的结果(Measured Results)
在Kirin 2026平台上的实测结果如下:
•晶体管密度由155 MTr/mm²阶跃提升至238 MTr/mm²(单代提升幅度相当于过去三年几何缩放累计效果,芯片面积利用率约68%)
•SoC性能核能效提升41%,最高主频提升约13%
•基于双层结构构建的高速全局NoC通路,使数据路径面积降低55%,同时提升供电稳定性
•后硅阶段时钟偏斜校正机制独立贡献超过5%的系统性能增益
•在SRAM中,由于位线与字线长度显著影响访问速度与单位能耗,LogicFolding显著缩短关键路径,使单位能耗降低并使频率提升超过40%
•在典型处理器核心中,双层折叠结构使时钟缓冲数量减少50%以上,时钟偏斜降低25%,布线长度减少约30%
这些提升均在固定制程节点下实现,并非依赖新的光刻工艺,而是通过对逻辑在三维空间中的拓扑重构所获得。
需要强调的是,Kirin 2026中的LogicFolding实现是刻意保守的:混合键合间距仅达到1.5μm;TSV仅向下一层金属结构延伸一阶;折叠策略仅应用于关键路径,而非全芯片范围。
即便如此,该架构仍使CPU性能核频率达到3.1GHz。
未来演进路径(Outlook)
在未来十年中,LogicFolding预计将从局部关键路径优化,演进为全局多层折叠架构,包括三层、四层乃至更多主动层的垂直集成。这一演进将由低温混合键合技术成熟所驱动,从而降低层间热预算限制,并推动TSV连接从顶层金属逐步下移至M6等更深层金属结构,释放超过30%的高层路由资源。
在这一技术路径下,到2035年,晶体管密度有望提升至400 MTr/mm²以上。同时,CPU主频也将持续提升,并逐步迈向4GHz及以上水平(见表1)。该演进路线在工程与成本层面均具有可实现性与经济可行性。

表1:Kirin CPU性能核心运行频率变化趋势
从皮秒到微秒:AI数据中心中的τscaling
一个自然引出的问题是:在毫瓦级功耗的智能手机场景中提出的设计原则,是否能够延展并适用于千兆瓦级的AI训练与推理系统。
AI工作负载处于τ谱系的另一端:它不再对应单一芯片,而是由数百甚至数千颗芯片协同构成的统一计算机器,其整体算力在过去十年中大约增长了六个数量级。
答案是肯定的——前提是τ被提升为系统级的统一优化目标,并贯穿整个计算链路进行全局优化,而非局限于单个加速器内部。
在AI系统侧,有两个关键事实共同塑造了τscaling的基本逻辑。
首先,AI系统规模仍在持续增长,从单芯片扩展到数十颗、数百颗,并正逐步演进至数千乃至数万颗芯片协同工作的形态。
其次,现代AI系统的能耗预算与物料成本结构中,主导因素并不是计算本身,而是数据移动过程。研究显示,在大型AI集群中,超过80%的能量消耗来源于数据传输过程,而超过70%的系统成本被用于数据存储相关结构。
这一结论直接导出一个重要判断:在系统层面,降低数据在不同计算单元之间的传输时间——无论是在芯片之间、机架之间,还是封装内部——与降低计算本身所需时间同等重要,甚至在许多应用中更为关键。
τscaling在AI规模系统中的实现,依赖于三个协同作用的技术层级:
第一层为系统级互连架构——Unified Bus(统一总线),用于构建低开销、语义一致的全局数据互连体系;
第二层为近封装光互连引擎——Hi-ONE,用于突破传统电互连在带宽与传输距离上的物理限制;
第三层为封装结构本身的拓扑重构——3D Folding,通过三维集成方式重新组织计算、存储与互连资源的空间布局。
这三个层级共同构成了AI规模下τscaling的系统实现路径。
4.1统一总线——τ优先的系统级互连架构
传统的多节点、多加速器系统架构中,数据在系统内的传输通常需要跨越多层堆叠式协议栈完成。典型路径包括:从PCIe到主机层通信协议,在机箱内部通过NVLink或各类专有互连网络进行传输,在跨机箱通信中依赖Ethernet或InfiniBand等网络协议,并在更高层由软件栈提供远程内存访问抽象。
在这一分层结构中,每增加一层协议,就必然引入一次协议转换、额外的数据序列化过程、附加的DMA缓冲区开销以及额外的握手机制。这些跨层转换不仅增加系统延迟,还降低通信可靠性,并带来显著的工程与经济成本。
Unified Bus(UB,统一总线)架构的核心思想,是用单一统一协议取代上述分层协议栈,使其能够在机箱内部乃至跨机箱范围内一致运行。该架构构建了一种完全基于点对点(peer-to-peer)的互连体系,在整个系统范围内原生暴露统一的内存语义。
在这一机制下,数据传输被简化为不经过协议转换的内存语义级点对点通信;同时,由硬件层直接管理一致性(coherence),从而取代传统软件栈中的消息传递与同步机制。
从实测结果来看,该架构在系统通信路径上带来了约两个数量级的性能提升。端到端远程访问延迟从传统TCP/IP类协议栈的“数十微秒”级别下降至约100纳秒级别,在主导通信路径上实现约500倍的τ缩减。
在机架级系统尺度上,这一变化使得整个系统在行为上逐渐逼近单一逻辑计算实体,即一个在互连语义上保持一致性的统一机器体系。这一体系在内部被称为“System-as-One-Chip(系统即单芯片)”。
4.2 Hi-ONE——封装级光互连(Optical I/O at the Package)
当系统通信延迟被显著压缩之后,新的瓶颈随之转移:问题不再首先出现在协议栈或机箱级互连,而是出现在更底层的物理互连与能耗约束上。随着单机架内芯片密度不断提升,系统整体功率密度与可靠性开始逼近物理极限,同时电互连中的SerDes(串并转换器)能力也逐渐达到瓶颈。
在当前约400 Gb/s每AI芯片的带宽水平下,铜互连与电缆系统仍然成熟可靠。然而,当单芯片带宽需求进入多Tb/s级别时,铜互连逐渐失去可行性:SerDes性能提升进入平台期,线缆尺寸迅速膨胀至难以工程化部署的程度,机架布线与面板安装变得不可实现,同时系统在热设计与供电裕量方面也被全面耗尽。
针对这一问题,华为半导体提出了高密度光互连节点引擎——Hi-ONE(High-density Optical-interconnect-Node Engine)。该方案是一种近封装光互连系统,可在单模块级别提供约8 Tb/s的带宽输出,与AI芯片在Unified Bus架构下的通信带宽实现对齐,从而在单一光链路上完成系统级数据吞吐匹配。
Hi-ONE将传统电互连中约100 cm量级的SerDes有效传输距离缩短至约5 cm级别,同时消除大规模铜缆带来的空间与部署负担,并将有效通信距离从不足1米扩展至约100米,从而使面向分布式、吉瓦级数据中心的高密度互连在物理上重新具备可实现性。
Hi-ONE的设计思想本身同样体现了τscaling的核心原则。在传统方案中,为保证信号完整性,通常依赖复杂的数字信号处理(DSP)进行高精度均衡与恢复;而在Hi-ONE中,这一路径被显著简化,转而采用以线性系统为核心的实现方式——包括模拟均衡增强驱动器与跨阻放大器(TIA)等结构。
与此同时,系统允许Unified Bus协议在物理层上适度放宽误码率约束,从而在协议层与物理层之间建立新的跨层权衡关系。
这种设计将系统复杂度从单一层级的极致优化,转移为跨层协同的整体优化,使功耗、成本与集成复杂度显著降低,也集中体现了τ优先方法论所强调的“跨层代价交换”原则。
4.3 N²对N困境与3D Folding的必然性
AI加速器架构之所以在2.5D封装路径上逐渐显现瓶颈,其根本原因并不在于单点器件性能不足,而在于系统拓扑结构本身存在固有的尺度失配问题。这一问题可以被清晰地表述为一个几何增长矛盾。
在典型的2.5D AI芯片架构中,逻辑计算单元位于封装中心,而HBM存储堆栈、SerDes互连以及供电模块则分布在芯片周边区域。无论是内存访问、数据通信还是电流供应路径,其物理连接都必须通过芯片边界完成。
设芯片边长为N,则其计算能力随面积扩展,近似按N²增长;然而,所有依赖边界进行交互的资源——包括内存带宽、互连I/O以及供电能力——却主要受限于边缘长度,其增长规模近似为N。
因此,系统内部出现了一个本质性的尺度不一致问题:
计算能力∝N²
而带宽、I/O与供电能力∝N
这一差异构成了所谓的“fan-out困境”,即随着系统规模扩大,计算增长速度远快于支撑这些计算的数据与能量供应能力的增长速度。这种结构性失配并不能通过提升晶体管性能或改进局部电路设计来解决,因为其本质来源于系统拓扑结构的几何约束。
3D Folding提供了一种对该问题的结构性重构路径。其核心思想是将原本位于封装边缘的关键资源重新分布到“面”而非“边”上,从而改变其尺度增长规律。
具体而言,供电系统(包括背面供电与集成电压调节器)、高速存储互连(通过混合键合直接连接逻辑与存储)、以及光互连模块(通过近封装Hi-ONE实现)均从传统的外围布局迁移至三维结构的表面分布模式。
当这些关键资源从“边界依赖”转变为“表面分布”之后,其扩展能力将从线性增长(N)提升至面积级增长(N²),从而与计算能力的增长速度重新对齐。
从系统结构上看,这一变化意味着封装不再是“中心计算单元+周边资源环”的二维结构,而转变为一个在垂直方向上协同扩展的三维集成体。在该结构中,计算、存储、互连与供电不再分层孤立,而是共同嵌入在统一的三维体系中,实现同步扩展。
因此,3D Folding并非一种可选优化路径,而是在N²与N增长不匹配这一拓扑矛盾下的结构性必然结果。随着系统规模继续扩大,这一趋势将愈发不可避免。
逻辑与存储:从解耦到再融合
τ(时间常数)缩放带来的一个深层影响,并不仅体现在单点性能或互连带宽的提升上,而在于它正在重新改写计算体系中一个长期稳定的结构前提——逻辑与存储的分离范式。
在经典计算机体系结构中(例如8086时代所奠定的模型),处理器与存储器被刻意解耦,并通过标准化总线进行连接。这种架构选择在当时具有决定性意义:它使得CPU与存储器可以沿各自独立的产业路径演进。计算性能遵循摩尔定律持续增长,而存储产业则形成了相对独立且规模庞大的生态体系。
这种“分工式演化”在过去几十年中被证明是极其成功的,它不仅提升了系统扩展性,也推动了半导体产业链的专业化分工。
然而,在AI计算时代,这一结构性解耦正在被逐步逆转。
随着计算密度的持续提升,系统瓶颈逐渐从“算力不足”转向“数据无法高效移动”。在现代AI负载中,性能与能耗的关键约束不再主要由计算单元决定,而是由数据在存储层、互连层与计算层之间的搬运效率所主导。
HBM、高带宽封装互连以及3D堆叠SRAM等技术的快速发展,本质上都在回应同一个事实:对于AI系统而言,数据移动的重要性正在接近甚至超过计算本身。
当逻辑与存储开始重新紧密耦合时,一个新的结构性趋势正在形成——二者正在从“架构解耦”走向“物理融合”。
这种融合不仅体现在芯片层面的距离缩短,也体现在系统设计理念的变化:存储不再只是被动的数据仓库,而逐渐成为计算过程的一部分;而计算单元也不再是独立的处理核心,而是嵌入在数据结构之中的动态执行机制。
这种变化也在悄然重塑产业结构。
在传统模式下,CPU与存储分别由不同产业链主导;但在融合趋势下,存储带宽、封装能力以及高密度互连技术的重要性显著提升,其战略地位正在不断上升,甚至在某些系统中开始与逻辑制程本身同等重要。
因此,未来AI硬件竞争的关键不再只是“算力规模”,而是“逻辑—存储融合能力”的系统工程水平。
从τscaling的视角来看,这一趋势并非偶然,而是必然结果:当系统优化目标转向整体时间常数时,任何跨层的数据移动都会成为τ的重要组成部分。逻辑与存储之间的边界越清晰,跨界延迟就越高;而当系统追求极限τ压缩时,这种边界必然被重新模糊甚至消解。
换言之,τscaling不仅优化了结构,也在重新定义结构本身。
开放性挑战
必须强调的是,将τscaling作为一个完整成熟的体系来描述仍然为时过早。尽管其在多个层级的工程实践中已经展现出一致性趋势,但在工具链、制造偏差、互连代价、能耗约束与评价体系等方面,仍然存在一系列尚未解决的关键问题。这些问题既构成当前研究的边界,也指向未来协同创新的方向。
工具链与方法学
当前的EDA工具体系,建立在一个相对稳定的历史假设之上:面积(area)、时序(timing)与功耗(power)分别作为独立优化维度,而“系统τ”往往只是这些优化之后的残差结果。
然而,在LogicFolding等三维堆叠结构中,这一范式不再适用。设计工具必须能够将多个堆叠芯片视为一个连续的三维设计实体,而不是离散的二维模块集合。
这意味着优化粒度需要从“模块级”下降到“单元级(cell-level)”,并在统一的成本函数下,在整个体积空间中进行布局与布线。同时,时序收敛必须跨越芯片之间的垂直互连路径,而这些路径中存在的寄生电阻电容、KOZ(keep-out zone)限制,以及跨晶圆制造偏差,会以复杂耦合的方式影响系统行为,而传统二维EDA工具并未针对这些问题进行建模。
尽管目前已经开发出初步的内部工具并取得了一定效果,但完整方法论仍在形成过程中。可以确定的是,一个“τ原生(τ-native)”的工具链——具备开放性、多物理场耦合能力以及三维原生建模能力——将成为下一代电子系统设计最关键的基础设施之一。
跨晶圆工艺波动
在LogicFolding体系中,不同晶圆甚至不同工艺批次的芯片可能被堆叠在同一系统中。这意味着器件层面的关键参数(如阈值电压Vth、驱动电流以及互连RC)将表现出显著高于传统单晶圆设计的波动性。
这种跨晶圆差异对系统影响最显著的部分集中在时钟分配网络与保持时间裕量(hold-time margin)上,因为它们对延迟变化极为敏感。
因此,仅依赖传统静态设计裕量已经不足以保证系统稳定性。需要引入更具适应性的设计机制,包括智能冗余结构、自适应补偿电路,以及“τ感知(τ-aware)”的签核流程,从系统层面对不确定性进行建模与约束。
垂直互连开销
每一个混合键合(hybrid bonding)连接以及每一个TSV(硅通孔)都会引入不可忽略的电阻与电容负担。同时,TSV所需的禁布区(KOZ)会挤占原本可用于标准单元布局的有效面积。
因此,LogicFolding的有效性必须在每一层之间逐级验证,其核心判据可以理解为一个“延迟收益是否超过互连代价”的不等式约束:
这一约束的本质是:只有当垂直互连带来的τ降低收益大于其引入的额外RC延迟时,三维堆叠才是有效的。
这一阈值在移动端关键路径与存储系统中已经被明确跨越,但在不同工作负载下仍然存在差异,并且随着键合间距的进一步缩小,该边界仍将持续移动。
能耗问题
需要明确的是,τ是一种“时间法则”,而不是“能量法则”。一个系统即便在功耗增加的情况下实现10倍速度提升,也并不违反τscaling逻辑,但在现实工程中可能超出电网与散热能力的约束。
因此,τscaling必须与能源体系协同演进,形成“能量伴随路径”。这一方向包括:
记忆语义化互连结构(减少冗余数据搬运)
近封装或共封装光互连(显著降低每比特能耗)
背面供电技术(提升供电效率与密度)
存算一体或近存计算架构
在数据中心层面进行精细化DVFS管理(动态电压频率调节)
本质上,这是将系统中“时间裕量”重新分配为“能量裕量”的过程。τ优化在某些条件下可以转化为能量优化的上游变量。
基准测试体系
当前主流性能评估体系,如Linpack、MLPerf与SPEC等,均建立在“单一标量指标能够代表系统性能”的假设之上。然而,这一假设在多层级、强耦合的τ系统中已不再成立。
τ范式下的系统评估需要一种新的方法——τ剖面(τ-profile)基准测试。这类测试不再输出单一性能分数,而是输出一个跨层级的τ向量,用以描述系统在器件层、电路层、芯片层与系统层各自的主导延迟与剩余优化空间。
在这种框架下,系统瓶颈不再隐藏于平均指标之中,而是显式呈现为“主导τ层”。而这一主导层,恰恰定义了下一阶段最值得投入优化的方向。
总体而言,这些开放问题共同说明:τscaling并不是一个已经完成的理论体系,而是一个正在形成中的跨层系统方法论。其真正的挑战,不在于单点技术突破,而在于如何在复杂工程系统中建立统一的时间优化语言。
六年回顾,十年展望
在2020年5月至2026年5月的六年周期中,华为半导体在移动、AI、汽车、工业与基础设施等多个领域完成了381款芯片的设计与规模化量产。覆盖如此广泛产品组合的工程实践,为τscaling这一假设提供了持续的验证基础。
在这一技术路径的整体演进中,τscaling所提出的核心判断在多个层级上均表现出一致性与延续性。
在器件与电路层面,随着工艺与架构协同演进,晶体管密度预计将从155 MTr/mm²持续提升,并在2031年前后迈向400 MTr/mm²以上的水平。这一增长并非仅由传统几何缩放驱动,而更多来自结构性优化与系统级设计方法的共同作用。
在芯片层面,以LogicFolding为代表的三维逻辑重构技术,已经在先进移动SoC中验证了一点:即便在固定制程节点条件下,通过改变逻辑、存储与互连的空间组织方式,关键路径频率、能效与系统密度仍然可以持续提升。这意味着性能演进不再完全依赖工艺代际推进,而开始部分转向架构与拓扑优化。
在系统层面,Unified Bus与Hi-ONE等技术进一步证明:原本以微秒为单位的通信延迟(communicationτ),可以被压缩至纳秒级别,使得跨芯片乃至跨机架的AI集群在行为上逐渐逼近“单一一致性机器(coherent machine)”的系统形态。这一变化标志着系统边界正在被重新定义。
展望未来,基于当前技术演进路径的外推结果显示:CPU性能核心频率有望在2029年前后迈向4 GHz甚至更高水平;Kirin SoC整体能效在3至5年内有望实现超过2倍的提升(典型负载条件下);而AI硬件系统的整体集成度则有望在2035年前实现超过100倍的增长。
然而,比任何单一产品或指标更重要的,是这一体系背后的方法论意义。
τscaling是自Dennard缩放以来,首次为整个计算栈提供统一优化目标的系统性原则。它将不同领域的工程角色——工艺工程师、电路设计师、体系结构设计师、系统工程师以及软件优化人员——统一在同一个量纲之下,使得跨层优化不再是隐性的经验协同,而成为显式可度量的共同目标。
在这一框架中,任何单一层级的优化成果,只有在最终反映为系统τ的降低时,才具有完整意义。
同时,这一转变也重新定义了产业投资逻辑。未来的资源配置不再仅仅围绕“先进制程节点”,而是更多转向“τ优化能力”的构建能力,即系统级延迟压缩能力的整体竞争。因此,封装技术、存储带宽与系统互连架构,其战略权重正在逐步上升,并在某些维度上开始超越单纯逻辑制程本身。
对于长期习惯将“摩尔定律”等同于“技术进步”的工程群体而言,这一转变并不容易被立即接受。但从系统演化的角度来看,一个基本事实正在变得不可回避:几何缩放主导的时代已经结束,否认这一点并不能改变现实约束。
技术进步的主轴,正在从“尺寸缩小驱动的加速”,转向“跨层τ优化驱动的加速”。在这一新的范式中,未来六到十年内率先以τ作为核心优化目标的公司、研究机构与生态系统,将在下一阶段计算体系的形态塑造中占据主导地位。未来十年的研究与工程任务已经基本明确,但挑战同样是系统性的:工具链、标准体系、性能基准、器件物理模型以及经济学框架,都需要跨组织协作才能完成。因此,这一观点不仅是一份阶段性技术总结,也更像是一份面向整个行业与研究共同体的邀请。
方向已经清晰,但路径仍需共同完成。
