谷歌将内部使用的TPU芯片出售给竞争对手，与GPU展开竞争

谷歌在内部使用张量处理单元(TPU)12年后，于2025年加速推进其商业化战略，向Anthropic、Meta等竞争对手出售芯片，标志着TPU正式从'内部神器'转型为公开市场竞争者，挑战英伟达在AI芯片市场的霸主地位。最新一代TPU v7在'每瓦性能'上较前代提升100%，能效比GPU高出60%-65%，已成功支撑Gemini等顶级AI模型训练，引发AI芯片市场格局剧变。

5 来源

十年磨一剑：TPU的诞生与内部进化

谷歌TPU的起源可追溯至2013年底，当时面临AI计算需求激增的生存危机，内部三个团队（Google Brain、DeepMind及数据中心定制硬件部门）同时投入研发，最终由后者胜出。该团队核心成员如Jonathan Ross曾参与AMD Zen架构设计，为TPU奠定了坚实基础。[1]

2015年，TPU已在谷歌内部默默支撑核心产品，为谷歌地图、翻译等服务提供强大计算能力，但直到2016年才正式对外公布。2017年成为关键转折点，谷歌团队发布Transformer架构，其计算特性与TPU设计高度适配，同时宣布免费开放1000台Cloud TPU，巩固了TPU作为AI基础设施底座的地位。[1][2]

此后，TPU持续迭代升级：v2换装高带宽内存(HBM)，带宽从34 GB/s飙升至600 GB/s，彻底解决’数据饥饿’问题；v4和v5e参与了Gemini模型训练，而性能更强的v5p则专为前沿模型量身定制。[2]

2 来源

架构对决：TPU与GPU的技术较量

TPU与GPU的根本差异在于设计理念：TPU作为专用ASIC芯片，‘剔除了芯片中大量非针对AI设计的部分’，专为深度学习优化，而GPU则是通用图形处理器。[1]

技术优势体现在三方面：

能效比显著领先：TPU能将深度神经网络推理的总体能效降至原来的十分之一，TPU v6效率比GPU高出60%-65%，前几代产品也有40%-45%的提升。[2][3]
速度优势突出：在训练动态模型（如搜索工作负载）方面，TPU比GPU快5倍，极大减少了对HBM的读写次数，使芯片能专注于实际计算而非等待数据传输。[3]
系统级创新：谷歌引入大规模液冷技术，将4096颗芯片组成超节点，利用自研环形拓扑网络实现近乎无损的跨芯片通信，构建出驱动世界顶级AI模型的Exa级超级计算机。[2][4]

4 来源

商业化破局：从内部神器到市场新贵

2018年，谷歌首次将TPU部署至云平台，但真正商业化转折发生在2025年。谷歌发布代号’Ironwood’的最新TPU，专为AI推理工作负载设计，提供256颗和9216颗芯片两种组态，并加速向外部客户开放。[1]

市场反应迅速：2025年10月，Anthropic协议通过多达100万个TPU获取超过10亿瓦的谷歌算力；11月，Meta Platforms Inc.开始洽谈于2027年在其数据中心使用谷歌TPU。[1]

券商Seaport分析师杰伊·戈德堡指出，TPU已成为英伟达’最强大且最具威胁的替代选择’，尤其在某些AI任务中表现更优。尽管客户如Anthropic仍同时采购英伟达芯片，但TPU正逐步成为’多元算力组合’中的关键组成部分，打破英伟达近乎垄断的市场格局。[1][2]

2 来源

全栈生态：谷歌的垂直整合战略

谷歌TPU成功的关键在于其’芯片-云-模型-应用’的全栈AI能力链条，与其他厂商严重依赖外部算力不同，谷歌构建了难以复制的生态护城河。[1]

内部协同效应显著：TPU被应用于谷歌及DeepMind的AI研发，Gemini等尖端模型的开发经验反哺芯片设计，形成技术迭代的良性循环。谷歌明确表示，TPU v4和v5e都参与了Gemini的训练，而v5p正是为支持此类前沿模型定制。[2][3]

成本优势持续扩大：随着TPU迭代至第七代，谷歌通过提升性能、增强算力并降低能耗，显著压低了运行成本。2025年HotChips活动数据显示，TPU v7相较于v6e在’每瓦性能’上提升了100%，长期来看成本更为可观。[1][4]

正如黄仁勋在播客中所言，谷歌TPU在ASIC领域是一个’特例’，其成功不仅源于技术优势，更在于谷歌将芯片、云服务、AI模型和应用场景深度整合的战略眼光，为定义未来AI基础设施赢得了关键入场券。[4][1]

4 来源

本内容由AI生成