4小时前

Jeff Dean谈Google搜索、TPU、编码代理及模型效率与性能平衡

新闻图片

Google首席科学家Jeff Dean近期在多场对话中深入阐述了AI发展的过去、现在和未来方向。Dean强调,AI的下一轮发展关键在于三个方面:能力来源、成本控制与复杂任务完成能力。他同时揭示了塑造现代AI的六大转折点,从异步梯度更新到模型蒸馏,再到思维链推理,这些

5 来源
AI下一轮发展的三大关键问题

在最近的Latent Space播客对谈中,Jeff Dean明确指出,过去两年AI行业关注的重点是模型的智能程度,但聪明只是起点。[1]下一轮AI发展需要关注三个更关键的问题:能力从哪里来、成本能否降低、复杂任务能否完成。[1]

这三个问题直接对应了AI产业化的核心挑战。Dean指出,去年模型还只能编写简单函数,而今年已经能够分析可再生能源部署并生成报告。[1]这种能力的跃迁来自推理路径的进化——通过输出中间步骤,模型为每个生成的词分配了更多的计算量,从而能利用更多算力推导出最终答案。[2]Dean强调,能力来源、成本结构、世界理解这三条因素决定了谁能把AI真正应用到业务中。[1]

AI发展的六大转折点与工程创新

Dean在斯坦福演讲中系统回顾了塑造现代AI的六大关键转折点,这些突破点都体现了务实的工程思维超越严格理论的力量。[1]

其中最具代表性的是异步梯度更新机制。为了训练比以往任何时候都大的神经网络,Dean及其团队开发了名为"Disbelief"的分布式训练系统,采用了这一看似"不应该做"的方法。[1]但事实证明它极为有效,体现了AI领域一种务实的工程思维——相比坚守严格的理论正确性,能够有效扩展并行计算、在现实世界中获得结果的方法更为关键。[1]

思维链推理的突破同样瞩目。仅仅两年前,研究人员还在为AI模型在中学水平数学问题上达到15%的正确率而兴奋。[1]但基于类似原理的Gemini模型如今已能解决国际数学奥林匹克竞赛中的高难度几何问题,达到金牌水平。[1]此外,模型蒸馏技术也取得了突破——在语音识别任务中,仅用3%的训练数据,通过蒸馏技术让强大的教师模型指导学生模型,准确率从44%飙升至57%,几乎追平使用全部数据训练的基线模型。[1]

Google的技术积累与ChatGPT推出后的反思

在与传奇AI教父Hinton的对话中,Dean回顾了Google长期的技术积累如何塑造了今日AI格局。[1]Dean强调,Google今天依赖的大部分技术——从互联网协议到芯片架构——本质上都来自早年的学术研究。[1]深度学习的爆发不是因为某一天突然有了新想法,而是很多30年前没人重视的研究一起开始发挥作用。[1]

然而,ChatGPT的推出促使Dean进行了深刻的反思。他坦诚,Google被搜索业务的思维限制住了,太过纠结准确性和幻觉问题,反而忘了模型可以做很多不是搜索的事情。[1]更关键的问题是,当时Google有三个团队在各自训练模型——Brain、Research、DeepMind——每个团队的算力都不够大,各自为战。[1]ChatGPT上线一周后,Dean写了一页纸的备忘录,核心观点是:Google其实早就能做出这个,但没有把资源合起来。[1]

对于Google发表Transformer论文后是否后悔的问题,Dean给出了干脆的回应:“不后悔,因为它对世界产生了巨大的影响。”[2][3]

未来方向:从成本困境到Scaling新前景

Dean早年的一次"餐巾纸背面计算"深刻影响了Google的技术选择。[1]他当时估算,如果全球有1亿用户,每人每天使用3分钟高质量语音识别模型,Google将需要把数据中心的计算机数量翻倍。[2]这一成本困境推动了模型蒸馏等效率技术的发展。

展望未来,Dean最兴奋的方向之一是Scaling注意力机制的触达范围,从百万Token扩展到数万亿。[3]这将让模型直接访问所有科学论文、所有视频,而非将数万亿token塞进几千亿个权重里。[3]Dean坦承,这当然需要硬件的创新,还需要更节能、性价比更高的推理芯片。[3]这种新的Scaling方向代表了AI在解决现有效率问题后,朝向更深层能力提升的新探索。

本内容由AI生成