本文来自微信公众号: 快刀青衣 ,作者:快刀青衣
造AI最多,不等于用AI最多。
不少朋友都知道,每年斯坦福大学会出一个AI指数报告,是全球范围内最权威的AI年度综述之一。
本周最新发布的2026版报告有423页,覆盖了全球36个国家,追踪了从2010年到2025年的纵向数据,里面有数百个AI模型的性能基准测试,还有超过25万篇AI学术论文的汇总分析。
不过在2026年这个AI智能体已经很厉害的时代,几百页的报告已经不算什么厉害的了,无论是「上百页PPT」还是「几万字长文」,这对于AI来说都是小菜一碟,重点在于里面内容到底有没有干货,不能只靠数量和苦劳。
读这份报告的时候,我以为自己能半小时扫完,然后发现根本停不下来。我在看的时候随手记了不少笔记,既然记了这么多,今天挑几条分享给你。
我特意选了些有点反常识的发现,不是「AI又进步了」这类你早就知道的结论,而是那些我看完会愣一下、值得再琢磨琢磨的内容,一共7条。
01 AI能拿IMO金牌,却看不准时钟
2025年,谷歌的Gemini Deep Think在国际数学奥林匹克竞赛(IMO)上拿到了35分,达到金牌水平。这是一道一道解出来的,不是运气。
与此同时,报告里还有另一组数据:让同样的顶级AI模型去读一张普通的模拟时钟,准确率只有50.1%,而普通人类能达到90%以上。
这组数字让我觉得挺有意思。我们通常觉得,一个系统越聪明,它的能力应该是均匀提升的,既然能解博士级别的数学题,看个时钟不应该是小事一桩吗?但AI不是这么工作的。
AI的能力边界是锯齿形的,某些维度碾压人类,某些维度连小学生都不如。报告里把这个现象叫做「jagged frontier」,意思是参差不齐的前沿。
这对我们用AI的方式有一个很实际的启示:不要因为它在某件事上表现超神,就假设它在别的事上也靠谱。
所以我现在用AI的习惯是,换一个新任务,就当它是第一次用,重新测一遍,然后在不同的任务上选择使用不同的工具。
02造AI最多的国家,AI使用率反而少
美国硅谷是全球AI研发的绝对中心,顶级模型基本都从那里出来。按常理推断,技术领先的地方应该用得也最多,但现实完全不是这样。
报告显示,AI工具的实际使用率,美国在全球仅仅排第24名,只有28.3%的成年人在日常使用生成式AI。反而是新加坡的使用率高达61%。
造AI和用AI,是两件相关性远低于我们想象的事。背后的原因很复杂,可能有文化因素,可能有职场结构,也可能是因为美国的白领阶层对AI有更深的抵触情绪。
当然还有一点是,我们印象中的「美国AI使用」,其实大多是硅谷的情况,那只是加州的一块地方,放到整体美国人的范围内,使用率就显得很低了。
但有一件事我觉得更值得注意:职场AI使用率最高的,不是最富裕的国家,而是发展中国家和新兴经济体。这说明AI对他们来说不是「酷炫的新玩具」,而是真的在解决实际问题。
对我们自己来说,一批国内大模型公司去玩命追最顶级的AI模型能力,这非常重要;但另一方面,我们这些普通人每天深度使用AI、用在自己生活和工作的方方面面,同样重要。
03中美AI差距,缩小到了2.7%
2023年5月,美国顶级AI模型在Arena Elo评分上领先中国超过200分(类似围棋段位里的等级分)。那时候业内有一种普遍的说法,认为中国至少落后美国两到三年。
到2026年3月,这个差距缩小到了2.7%。

具体来说,DeepSeek-R1在2025年1月出来的时候,和美国当时最强的模型只差0.4%。之后虽然美国推出了新模型,差距稍微拉开了一点,但整体上两边已经在同一量级竞争。
报告里还有一个更宏观的数据:所有顶级公司的最强模型之间,综合性能差距已经收窄到25分以内。换句话说,大家都在一条起跑线上了。
其实我之前在线下分享时说过一个更贴切的类比。
2023年的时候,中美AI顶级模型的差距,感觉美国模型的能力是一个高三尖子生的水平,而我们的顶级模型也就是小学四五年级的水平,当时号称「百模大战」,不少国内模型都属于刚刚入学的水平。
但到了2026年,我感觉中美模型更像在同一所大学里的大三同班同学。美国顶级模型有点像班里的学霸,某些维度上确实有天赋、确实厉害,但差距并没有到遥不可及的地步,大家是在同班竞争的。
04虚拟世界与现实世界的鸿沟
这条数据出现在报告的机器人章节,我觉得是整个报告里最值得警惕的一个信号。
研究人员让机器人完成一系列真实家务任务,比如拿东西、开柜子、整理物品。结果成功率只有12%。但同样的任务放到软件模拟环境里,成功率为89%。
这个差距不是小误差,是本质性的鸿沟。模拟环境里的物理规则是被简化过的,光线永远稳定,物体的材质和重量是标准化的,不会有突发情况。
真实世界完全不一样。想象一下,让机器人去厨房拿一个湿漉漉的杯子,光线、水渍、杯子的弧度,每一个细节都可能让它的手停在半空中不知道该怎么办。一块布料的褶皱、一个反光的表面,在模拟世界里根本不存在的变量,在现实里随处都是。
我们在短视频平台上经常看到各种机器人的演示视频,他们走路流畅、动作精准,看起来已经可以进厂干活了,但那些视频大多是在高度控制的场景下拍的。
报告里这组数据正是提醒我们:从「演示能跑」到「量产能用」,中间还有一段很长的路。
05互联网上过半新内容,已是AI写的
2025年1月,一个节点悄悄过去了:据Graphite数据显示,互联网上的新发布内容里,超过51.72%来自AI生成。
注意这里说的是「新发布内容」,不是存量。也就是说,从那个时间点开始,每天新增到互联网上的文字、图片、视频,有超过一半不是人写的。
报告里还提到了一个紧随其后的悖论:AI训练需要高质量的真实人类数据,但互联网正在被AI内容快速填满。而用AI生成的内容去训练下一代AI,效果会显著变差。
研究显示合成数据目前仍无法在预训练阶段替代真实数据。有研究者预测,真正的高质量人类原创数据可能在2026年到2032年之间出现枯竭。
这有点像一条河流,上游的人开始往里倒水,但倒的是从下游舀上来的水。
不过最近,我看到有视频爆出,在印度有一些纺织制造工厂,员工头上戴着有摄像头的绑带,持续记录每天的动手工作——其实这就是在为AI持续提供真实人类的数据。
06问AI问题,消耗的水可能超出想象
报告估算,GPT-4o仅在推理阶段,也就是用户日常提问时,一年消耗的水资源超过1200万人的年度饮用水需求。这还不包括训练阶段。而训练一次Grok 4,产生的碳排放大约是72000吨二氧化碳当量。
第一次看到这条数据时,我以为是单位搞错了,反复看了两遍才确认真的没有多加一个零。
我们通常觉得AI是「虚拟的」,用它不会消耗什么实体资源,顶多费点电。但数据中心需要大量冷却用水,这个消耗是真实的、物理意义上的。你每次让AI帮你改一封邮件、生成一张图,背后都有真实的水在蒸发。
当然,我肯定不会说「因为消耗水,所以别用AI」,这非常不现实。但这组数字可以让我们意识到,AI的环境成本被严重低估了,而这个账单最终是要有人来付的。
07 AI「消灭」的是职业的入门通道
关于AI会不会抢走程序员饭碗的讨论,报告给出了一个比较精确的答案——这取决于你是哪种程序员。
数据显示,年轻的、入门级的程序员就业量下降了约20%。但与此同时,中高级开发者的岗位不降反升。
逻辑不难理解:AI能快速完成基础的代码任务,过去需要一个初级程序员花两天写的模块,现在AI半小时搞定。但AI写出来的代码需要有人审查,架构需要有人设计,复杂问题需要有人判断,这些都需要经验。
所以,AI并没有消灭编程这个职业,它消灭的是编程职业的「入门通道」。
这个模式值得关注,因为它可能不只发生在程序员身上。AI往往先替代掉一个行业里最基础、最重复的工作,而这些工作恰恰是年轻人积累经验的起点。
当入门通道变窄,整个行业的人才结构会怎么变,仍是一个还没有答案的问题。
结语
好,这就是今天想和你分享的7条反常识发现。
这7条加在一起,大概能勾勒出一个轮廓:AI的进化速度远超我们的预期,但它的能力边界、环境代价、社会影响,都比表面看起来复杂得多。
这份报告有足足423页,我推荐你抽出一大块时间来好好阅读,我把报告的链接也放在文稿末尾了。不要担心英文问题,我在写OpenClaw教程的时候,也教过你一招,在这里也完全适用:
你可以在电脑屏幕上打开英文版PDF,然后打开豆包电脑端里的「共享屏幕和应用」,左边看报告,右边直接提问,效率会非常高。

📄报告原文
https://hai.stanford.edu/ai-index/2026-ai-index-report
