谷歌TPU的起源可追溯至2013年底,当时面临AI计算需求激增的生存危机,内部三个团队(Google Brain、DeepMind及数据中心定制硬件部门)同时投入研发,最终由后者胜出。该团队核心成员如Jonathan Ross曾参与AMD Zen架构设计,为TPU奠定了坚实基础。[1]
2015年,TPU已在谷歌内部默默支撑核心产品,为谷歌地图、翻译等服务提供强大计算能力,但直到2016年才正式对外公布。2017年成为关键转折点,谷歌团队发布Transformer架构,其计算特性与TPU设计高度适配,同时宣布免费开放1000台Cloud TPU,巩固了TPU作为AI基础设施底座的地位。[1][2]
此后,TPU持续迭代升级:v2换装高带宽内存(HBM),带宽从34 GB/s飙升至600 GB/s,彻底解决’数据饥饿’问题;v4和v5e参与了Gemini模型训练,而性能更强的v5p则专为前沿模型量身定制。[2]