12-22

谷歌将内部使用的TPU芯片出售给竞争对手,与GPU展开竞争

新闻图片

谷歌在内部使用张量处理单元(TPU)12年后,于2025年加速推进其商业化战略,向Anthropic、Meta等竞争对手出售芯片,标志着TPU正式从'内部神器'转型为公开市场竞争者,挑战英伟达在AI芯片市场的霸主地位。最新一代TPU v7在'每瓦性能'上较前代提升100%,能效比GPU高出60%-65%,已成功支撑Gemini等顶级AI模型训练,引发AI芯片市场格局剧变。

5 来源
十年磨一剑:TPU的诞生与内部进化

谷歌TPU的起源可追溯至2013年底,当时面临AI计算需求激增的生存危机,内部三个团队(Google Brain、DeepMind及数据中心定制硬件部门)同时投入研发,最终由后者胜出。该团队核心成员如Jonathan Ross曾参与AMD Zen架构设计,为TPU奠定了坚实基础。[1]

2015年,TPU已在谷歌内部默默支撑核心产品,为谷歌地图、翻译等服务提供强大计算能力,但直到2016年才正式对外公布。2017年成为关键转折点,谷歌团队发布Transformer架构,其计算特性与TPU设计高度适配,同时宣布免费开放1000台Cloud TPU,巩固了TPU作为AI基础设施底座的地位。[1][2]

此后,TPU持续迭代升级:v2换装高带宽内存(HBM),带宽从34 GB/s飙升至600 GB/s,彻底解决’数据饥饿’问题;v4和v5e参与了Gemini模型训练,而性能更强的v5p则专为前沿模型量身定制。[2]

架构对决:TPU与GPU的技术较量

TPU与GPU的根本差异在于设计理念:TPU作为专用ASIC芯片,‘剔除了芯片中大量非针对AI设计的部分’,专为深度学习优化,而GPU则是通用图形处理器。[1]

技术优势体现在三方面:

  • 能效比显著领先:TPU能将深度神经网络推理的总体能效降至原来的十分之一,TPU v6效率比GPU高出60%-65%,前几代产品也有40%-45%的提升。[2][3]

  • 速度优势突出:在训练动态模型(如搜索工作负载)方面,TPU比GPU快5倍,极大减少了对HBM的读写次数,使芯片能专注于实际计算而非等待数据传输。[3]

  • 系统级创新:谷歌引入大规模液冷技术,将4096颗芯片组成超节点,利用自研环形拓扑网络实现近乎无损的跨芯片通信,构建出驱动世界顶级AI模型的Exa级超级计算机。[2][4]

商业化破局:从内部神器到市场新贵

2018年,谷歌首次将TPU部署至云平台,但真正商业化转折发生在2025年。谷歌发布代号’Ironwood’的最新TPU,专为AI推理工作负载设计,提供256颗和9216颗芯片两种组态,并加速向外部客户开放。[1]

市场反应迅速:2025年10月,Anthropic协议通过多达100万个TPU获取超过10亿瓦的谷歌算力;11月,Meta Platforms Inc.开始洽谈于2027年在其数据中心使用谷歌TPU。[1]

券商Seaport分析师杰伊·戈德堡指出,TPU已成为英伟达’最强大且最具威胁的替代选择’,尤其在某些AI任务中表现更优。尽管客户如Anthropic仍同时采购英伟达芯片,但TPU正逐步成为’多元算力组合’中的关键组成部分,打破英伟达近乎垄断的市场格局。[1][2]

全栈生态:谷歌的垂直整合战略

谷歌TPU成功的关键在于其’芯片-云-模型-应用’的全栈AI能力链条,与其他厂商严重依赖外部算力不同,谷歌构建了难以复制的生态护城河。[1]

内部协同效应显著:TPU被应用于谷歌及DeepMind的AI研发,Gemini等尖端模型的开发经验反哺芯片设计,形成技术迭代的良性循环。谷歌明确表示,TPU v4和v5e都参与了Gemini的训练,而v5p正是为支持此类前沿模型定制。[2][3]

成本优势持续扩大:随着TPU迭代至第七代,谷歌通过提升性能、增强算力并降低能耗,显著压低了运行成本。2025年HotChips活动数据显示,TPU v7相较于v6e在’每瓦性能’上提升了100%,长期来看成本更为可观。[1][4]

正如黄仁勋在播客中所言,谷歌TPU在ASIC领域是一个’特例’,其成功不仅源于技术优势,更在于谷歌将芯片、云服务、AI模型和应用场景深度整合的战略眼光,为定义未来AI基础设施赢得了关键入场券。[4][1]

本内容由AI生成