台积电董事长亲述：半导体技术发展，进入深水区-虎嗅网

近日台积电董事长Mark Liu（刘德音）在IEEE上刊登了一篇长文，标题为“How We’ll Reach a 1 Trillion Transistor GPU”。

作为全球半导体产业巨头，Mark Liu讲述了AI产业发展背后的芯片故事，视角独特，非常值得一读。

下面我给大家解读一下这篇文章。

一、10年内将出现万亿晶体管集成的GPU

从1997年IBM Deep Blue击败国际象棋大师Garry Kasparov算起，到ChatGPT、Sora的诞生，过去了整整27年。

这27年中，人工智能的能力得到了极大的提升，这背后有三大驱动力：算法架构的创新、海量数据的积累、半导体技术的革命。

可以说，半导体产业的技术革新，是人工智能发展的重要驱动力。

IBM的Deep Blue采用的是0.6微米和0.35微米的混合芯片制造工艺。赢得ImageNet竞赛的神经网络模型，背后是基于40纳米制程的芯片工艺。在围棋界独霸天下的AlphaGo，采用的是28nm的制程工艺。轰动全球的ChatGPT，则是基于4nm工艺。

如果AI革命按现在的速度发展下去，10年内我们就需要一个万亿晶体管的GPU。

而要知道，英伟达最新发布的Blackwell架构的B200芯片，也才只有2080亿个晶体管。也就是说，10年内GPU中晶体管的集成数量将有10倍的提升空间。

半导体技术进步的驱动力包括：新材料、光刻技术发展、新型晶体管、先进封装工艺。上图中把这四种类型的驱动因素分别呈现，一目了然。

二、光刻工艺达到瓶颈，3D封装成为突破口

自集成电路发明以来，半导体技术一直致力于缩小尺寸，从而能够将更多的晶体管塞进一个拇指大小的芯片中。

现如今，随着2.5D、3D封装技术被广泛应用，集成度提升到了新的水平。

台积电正在将许多芯片组合成为一个紧密集成的、大规模互联的系统。这是半导体集成领域正在发生的范式转变。

在AI时代，晶体管的集成度变得愈发重要。这是因为光刻机在加工芯片的过程中，有一个非常重要的物理限制，即不能制造超过800 mm²尺寸的集成电路。

更具体来说，这个数字是858 mm²（26 mm×33 mm），可以理解为光刻机可处理的芯片极限尺寸，在业内被称为Reticle Limit。

因此，人们无法通过单纯做大芯片尺寸来提升性能。

现如今，我们可以通过将多个芯片连接到一块更大的中介层上（interposer），从而突破光刻机ReticleLimit的性能瓶颈，在单一系统中集成更多的晶体管。

例如，台积电著名的CoWoS技术（Chip-on-Wafer-on-Substrate）可以容纳多达6个掩膜板区域的计算芯片，以及十几个HBM芯片。

三、CoWoS先进封装在Nvidia GPU中的应用

台积电的CoWoS技术已经被广泛应用于Nvidia的GPU中，包括Ampere架构及Hopper架构的GPU。

它们均由一块GPU芯片和6个HBM共同集成在硅中介层上，计算芯片的尺寸大约是当前芯片制造工艺允许的最大尺寸。

Ampere架构的GPU采用7nm工艺，集成了540亿个晶体管。Hopper架构的GPU采用4nm工艺，集成了800亿个晶体管。

制程工艺的提升使得我们能够在相同的表面积上多封装50%的晶体管数量，从而有效支持ChatGPT这类大语言模型的训练及推理。

图：Nvidia芯片架构演进历史，申万宏源

四、HBM、Bumpless Bonding：高性能GPU的基石

另一项关键的半导体技术是HBM。

HBM在控制逻辑IC之上，垂直堆叠了若干DRAM芯片，并采用TSV（硅通孔）进行垂直互联，让信号能够穿过每个芯片的焊锡凸点，从而形成存储芯片之间的连接。

这种将芯片堆叠在一起形成集成系统的能力，在台积电被称为SoIC（System-on-Integrated Chips）。

现如今，高性能GPU基本离不开HBM。

根据台积电的最新技术3D SoIC，可以将现在的HBM方案进行“无凸块化”处理（bumplessbonding）。

新版HBM架构采用铜对铜的连接，用混合键合技术堆叠12层芯片，并且在低温下粘合在一块较大的逻辑芯片之上，总厚度仅为600微米。

新版HBM架构能够提供更密集的垂直互联，铜对铜连接的密度显著高于焊锡凸块所提供的集成密度。

五、硅光：未来半导体产业最重要的技术之一

对于大语言模型而言，有高性能芯片还不够。为了达到极高的计算速度，我们还需要提升通信速率。

现如今，光学互联已经被广泛应用于数据中心里的服务器机架。不久之后，我们就会需要通过基于硅光的光学接口，来将GPU和CPU封装在一起。

这样一来，数百台服务器可以对外表现为一个具备统一内存的巨型GPU。

随着AI应用需求的推动，硅光将成为未来半导体产业最重要的技术之一。

六、CoWoS先进封装在AMD MI300A中的应用

AMD的MI300A加速处理单元不仅仅运用了CoWoS，还用到了台积电的SoIC技术。

MI300A同时包含了GPU和CPU核心，其中GPU负责处理AI任务所需的密集矩阵乘法运算，而CPU负责控制整个系统的运算，HBM则统一为二者提供服务。

9个基于5nm制程的计算芯片，堆叠在4个基于6nm制程的基础芯片上，后者主要负责缓存和IO通信。处理器的计算部分包含了1500亿个晶体管。

当下，单块GPU芯片已经达到了光刻工艺的制造极限（reticle limit），晶体管数量约1000亿个。为了继续增加晶体管集成度，势必需要将多个chiplet通过2.5D或3D封装的方式来集成互联，执行运算。

幸运的是，业界已经能够快速缩小chiplet之间垂直互联的间距，从而提升连接密度，并且还有非常充足的提升空间。

我们认为通过垂直互联技术的发展，晶体管的集成密度可以至少提成一个数量级，使得多芯片GPU内集成超过1万亿个晶体管。

七、EEP仍将保持每2年翻3倍的增长趋势

为了有效评估半导体技术创新对系统性能带来的影响，业内有一个指标叫做EEP。

EEP的全称是Energy-Efficient Performance，即能效性能，是能效与性能的综合衡量标准。

过去15年来，半导体行业的EEP呈现出每2年提高3倍的趋势。我们相信这个趋势会继续保持下去，其背后得益于新材料的应用、先进封装工艺、EUV光刻技术的发展、电路及系统架构设计的优化等等。

八、3D集成电路将迎来Mead-Conway时刻

1978年，加州理工大学教授Carver Mead以及Xero PARC研究中心的Lynn Conway发明了一种通过计算机辅助设计集成电路的方法。

它们通过一组设计规则，让工程师能够轻松设计超大规模的集成电路，而无需了解太多的工艺细节。

当下3D芯片设计领域也需要同样的能力。现在一位3D芯片设计师需要了解的知识非常多，包括系统架构设计、软硬件优化、3D封装技术等等。

正如我们在1978年所做的一样，我们再次需要一种通用语言，用计算机能够理解的方式来描述3D芯片设计技术，让设计人员可以在无需考虑底层技术的同时，自由地设计3D芯片。

类似的技术正在陆续诞生，比如一项名为3Dblox的开源标准正在被越来越多的半导体技术公司和EDA公司所采用。

九、隧道已至终点，面向无限可能的未来

过去50年，半导体技术的发展就像是走进了一条隧道，有着明确的目标和清晰的路径。所有人的目标只有一个：shrink the transistor。

现在，我们已经走到了隧道尽头。从现在开始，半导体技术的发展正式进入深水区，在隧道之外有着各式各样的可能性，等待人们去探索。

本文来自微信公众号：Alpha Engineer（ID：gh_37d171c60737），编译：费斌杰，原文链接：https://spectrum.ieee.org/trillion-transistor-gpu