2026年斯坦福AI指数报告揭示：AI能力持续突破但社会适应滞后，技术发展速度远超治理、评估和劳动力市场的调整能力，形成"能力-准备度鸿沟"。 ## 1. 技术性能与行业格局 - **工业界主导研发但透明度下降**：2025年90%前沿模型来自企业，OpenAI等巨头停止披露训练细节，算力需求年增3.3倍但高度依赖台积电代工。 - **中美技术差距缩小**：2026年3月美国模型仅领先中国2.7%，DeepSeek-R1曾追平美国顶尖模型；中国论文/专利总量第一，美国高影响力专利占优。 - **"锯齿状能力"现象显著**：Gemini获IMO金牌但时钟识别率仅50.1%，AI代理任务成功率从12%跃至66%但结构化任务失败率仍达33%。 ## 2. 经济影响与劳动力变革 - **投资爆发式增长**：全球企业AI投资2025年翻倍，美国私人投资2,859亿美元（中国23倍）；生成式AI三年普及率达53%，超PC和互联网速度。 - **生产力提升与岗位流失并存**：软件开发生产力提升26%但22-25岁开发者就业降20%；客服领域效率升14-15%，但过度依赖AI可能导致长期学习损失。 - **环境成本激增**：Grok4训练排放72,816吨CO₂，GPT-4o年推理用水可满足1,200万人需求，AI数据中心总能耗达纽约州峰值需求。 ## 3. 科学医疗突破与局限 - **小模型超越大模型**：1.11亿参数MSAPairformer击败前代方法，2亿参数GPN-Star优于400亿参数模型，显示数据质量比规模更重要。 - **医学应用快速落地**：临床笔记AI使医生文书时间减83%，但FDA批准设备中仅2.4%经随机对照试验；多智能体诊断系统准确率85.5%，远超未辅助医生的20%。 - **科研端到端挑战**：AI在ChemBench超越人类化学家，但天体物理论文复现得分<20%，最优科研AI代理表现仅为博士专家一半（38.8% vs 83.5%）。 ## 4. 治理与公众认知分化 - **监管路径严重分化**：欧盟实施AI禁令，美国转向放松管制，发展中国家新增半数国家AI战略；美国公共AI投资204亿美元仅为2025年私人投资7%。 - **信任危机凸显**：仅31%美国人信任政府AI监管（全球平均54%），专家与公众对AI就业影响看法差50个百分点（73% vs 23%乐观）。 - **事故率飙升与安全困境**：AI事故年增55%（2025年362起），提升安全性的训练往往损害准确性，模型在对抗攻击下表现脆弱。 ## 5. 教育与社会适应滞后 - **使用普及与政策脱节**：80%美国学生用AI学习，仅50%中学制定AI政策；阿联酋等国家AI工程技能增速超正规教育。 - **人才流动逆转**：赴美AI人才数量较2017年降89%，新增AI博士全部流向学术界；工业机器人装机量中国占全球54%，台湾年增33%。

2026-04-23 17:39

2026斯坦福人工智能指数报告（万字中译版）

潜望工作室©

本文来自微信公众号：数字经济发展评论，作者：数字经济发展评论，原文标题：《必读丨2026斯坦福人工智能指数报告（万字中译版）》

近日，斯坦福大学人类中心人工智能研究所发布了《2026年人工智能指数报告》（第九版）。这份报告长达423页，本文对其进行精简编译，并按照报告原有的九章结构，逐一梳理和提炼了关键要点与核心结论。

原文标题：Artificial Intelligence Index Report 2026

原文来源：美国斯坦福大学人类中心人工智能研究所

原文编译：数字经济发展评论

引言

随着AI技术持续快速演进，围绕它构建的各类系统——治理框架、评估方法、教育体系及追踪AI影响所需的数据基础设施——能否跟上技术本身的步伐，已成为核心命题。AI的能力边界与人类社会应对准备之间的落差，贯穿本年度报告的每一章节。

本年度新增内容包括：对推理、安全性及现实任务执行领域AI测试的追踪分析，以及上述测量结果为何愈发难以准确解读；生成式AI经济价值的最新估算与劳动力市场影响的初步证据；AI主权的分析框架；以及与施密特科学基金会联合开发的科学章节。报告首次单独设立“AI与科学”和“AI与医学”两章，体现AI在这两个领域日益深远的影响。

近十年来，AI指数持续为这一快速演变的领域提供可靠的全球数据，为政策制定者、研究人员、企业高管、记者及公众的知情决策提供依据。本报告保持独立立场，致力于揭示表象之下的长期规律。

联合主席寄语摘要：一年前，本报告记录了AI成为主流力量的时刻；今年的数据则揭示了“到来之后”发生了什么。生成式AI在三年内实现了接近53%的人口级普及率，超过个人电脑和互联网。领先AI企业正以远超以往技术代际的速度实现规模化营收，全球企业投资在2025年翻逾一倍。技术前沿，各顶级模型的差距正在快速收窄；与此同时，评估工具却跟不上节奏。报告数据所揭示的，是一个能力扩张速度已超过周围体系适应能力的领域。

核心要点

1.AI能力并未停滞，而是在加速并惠及更多人群

2025年，工业界生产了超过90%的前沿模型，多个模型在博士级科学问题、多模态推理及竞赛数学上达到或超越人类基线。在核心编程基准SWE-bench Verified上，一年内性能从60%跃升至接近100%的人类水平。企业组织采用率达88%，五分之四的大学生现已使用生成式AI。

2.美中AI模型性能差距已实质性缩小

自2025年初，美中模型已多次交替领先。2025年2月，DeepSeek-R1短暂追平顶尖美国模型；截至2026年3月，Anthropic顶尖模型仅领先2.7%。美国在顶级模型数量和高影响力专利上仍领先，中国则在论文发表量、引用量、专利总数和工业机器人装机量上占据优势。韩国以AI人均专利量居全球首位。

3.美国拥有最多AI数据中心，但芯片高度集中于中国台湾晶圆厂

美国拥有5,427个数据中心，是第二名的十倍以上，能耗也居全球之首。全球几乎所有顶级AI芯片均由台积电（TSMC）一家代工，使全球AI硬件供应链面临极度集中风险；不过台积电在美工厂已于2025年开始投产。

4.AI能在国际数学奥林匹克获得金牌，却无法准确读懂时钟——“锯齿状前沿”的典型体现

Gemini Deep Think在2025年IMO中获得35分（金牌），而顶尖模型在ClockBench上正确识别模拟时钟的概率仅为50.1%。AI代理在OSWorld上的任务成功率从12%跃升至约66%，但在结构化基准中每三次仍约有一次失败。

5.机器人在可控环境中表现优异，但在家务任务上仍频繁失败

机器人仅能完成约12%的真实家庭任务；在RLBench软件仿真中，机械臂操控成功率已达89.4%。可控实验室与不可预测的现实家庭环境之间的鸿沟依然巨大。

6.负责任AI的进展远落后于AI能力提升，安全基准失效且事故数量急剧上升

几乎所有前沿模型开发者都公布能力基准测试结果，但负责任AI基准的报告仍零散稀少。AI Incident Data base记录的事故数量从2024年的233起上升至2025年的362起。研究表明，提升安全性等某一负责任AI维度往往会损害准确性等其他维度。

7.美国领跑AI投资，但吸引全球人才的能力正在下降

2025年，美国私人AI投资达2,859亿美元，是中国124亿美元的23倍以上（中国政府引导基金可能部署了更多资金）。美国新获资助的AI企业数量达1,953家，为第二名的逾10倍。然而，AI研究人员和开发者迁往美国的数量自2017年以来已下降89%，过去一年降幅高达80%。

8.AI普及速度创历史纪录，消费者正从免费工具中获得巨大价值

生成式AI在三年内实现53%的人口级普及，快于个人电脑和互联网。普及率与人均GDP密切相关，但新加坡（61%）和阿联酋（54%）等国高于预期，美国以28.3%排名第24。预计生成式AI工具对美国消费者的年度价值在2026年初已达1,720亿美元，每用户中位价值一年内增至三倍。

9.AI带来的生产力提升，正出现在初级就业开始下滑的同一批领域

研究显示，客户支持和软件开发领域的生产力提升分别达14%至26%，但在需要更多判断力的任务中效果较弱甚至为负。AI代理的实际部署仍处于各业务职能的个位数阶段。美国22至25岁软件开发者的就业人数从2024年起下滑近20%，而年长开发者人数仍在增长。

10.AI的环境足迹随能力提升同步扩大

Grok 4的估算训练排放量达72,816吨二氧化碳当量。AI数据中心装机容量已升至29.6GW，相当于纽约州峰值电力需求，仅GPT-4o的年度推理用水量就可能超过1,200万人的日常饮用需求。

11.科学领域的AI模型可超越人类科学家，但更大的模型并不总是更好

前沿模型在ChemBench上平均超越人类化学家，但在天体物理学论文复现方面得分低于20%，在地球观测问题上仅答对33%。参数量仅1.11亿的蛋白质语言模型MSAPairformer胜过此前的领先方法，参数量2亿的基因组学模型GPN-Star超越了近200倍大的模型。

12.AI正在改变临床诊疗，但严格证据仍然有限

2025年，自动生成临床笔记的AI工具获得广泛采用，医生报告书写病历的时间减少多达83%，职业倦怠显著降低。然而，一项对逾500项临床AI研究的综述发现，近半数依赖考试式问题而非真实患者数据，仅5%使用了真实临床数据。

13.正规教育滞后于AI发展，但终身学习正在各阶段填补缺口

80%以上的美国高中生和大学生在学业中使用AI，但仅有半数中学制定了AI政策，仅6%的教师认为政策内容清晰。课堂之外，AI工程技能增长最快的国家是阿联酋、智利和南非。美加两国新增AI博士数量在2022年至2024年间增长22%，但增量全部流向学术界，未进入产业。

14.AI主权正成为国家政策的核心议题，但能力分布严重不均

发展中国家的国家AI战略正快速扩张，国家主导的AI超算投资同步上升，彰显出对建立国内AI生态系统掌控权的雄心。然而，模型生产仍高度集中于美中两国。开源开发正在逐步重塑参与格局，来自世界其他地区的开源贡献已超越欧洲，并在GitHub上接近美国水平。

15.AI专家与公众对技术未来的看法存在巨大鸿沟，各国对AI治理机构的信任度也高度分化

73%的专家预期AI对职业的影响是积极的，而公众的这一比例仅为23%，差距达50个百分点。在经济和医疗领域也存在类似分歧。在受访国家中，美国民众对本国政府监管AI的信任度仅为31%，全球最低。相比美国或中国，欧盟在全球范围内获得更广泛的AI监管信任。

第一章研究与开发

2025年，支撑AI开发的资源持续增长，但发布的知名模型数量少于上年，前沿系统越来越集中于少数几个组织。产业界现占知名AI模型的90%以上，能力最强的系统透明度最低——OpenAI、Anthropic和谷歌等机构的训练代码、数据集规模和参数量均已停止披露。这些模型背后的计算能力自2022年以来每年增长约3.3倍，但几乎全部流经中国台湾一家芯片代工厂，使全球硬件供应链极为脆弱。开源开发和AI论文发表持续增长，研究格局正趋于地理分散化。

▲按选定地理区域划分的知名人工智能模型数量（2025年）

1.工业界主导，透明度下降：2025年，工业界生产了90%以上的知名AI模型，但最强大的模型透明度最低。OpenAI、Anthropic和谷歌等机构均已停止披露训练代码、参数量、数据集规模及训练时长。

2.美国研发领先，中国论文称霸：中国在论文发表量、引用量和专利授权方面居首，美国则保持更高影响力的专利并在2025年发布了50个知名模型（中国30个）。韩国以AI人均专利量领跑全球，中国在全球被引前100篇AI论文中的份额从2021年的33篇增至2024年的41篇。

3.参数规模原地踏步，算力持续攀升：报告参数量三年来徘徊在约1万亿，但顶尖实验室已停止披露。可独立估算的训练算力则持续增长。

4.合成数据仍未取代真实预训练数据：OLMo 3.1 Think 32B参数量仅为Grok 4的约1/90，但通过剪枝、去重和数据筛选，在多个基准上取得可比结果，表明数据质量和后训练技术大有潜力。

5.全球算力三年增长3.3倍，达1,710万H100当量（以英伟达H100芯片为基准折算的算力计量单位）：Nvidia占总算力60%以上，谷歌和亚马逊提供大量补充，华为份额虽小但在增长。算力扩张由超大规模数据中心建设和持续的前沿模型训练需求驱动。

6.美国AI数据中心全球最多，但芯片高度依赖台积电：美国拥有5,427个数据中心，为第二名的十倍以上，能耗也居全球首位。几乎所有领先AI芯片均由台积电代工，虽台积电美国厂已于2025年投产，但供应链集中风险依然显著。

7.AI环境足迹全面扩大：Grok4的训练排放量估计达72,816吨CO₂当量（以二氧化碳为统一核算标准的温室气体排放计量单位）。AI数据中心装机容量升至29.6GW，相当于纽约州峰值需求，仅GPT-4o年度推理用水量就可能超过1,200万人饮用需求。

8.开源AI蓬勃发展：GitHub上AI相关项目已达560万，Hugging Face上传量自2023年以来翻了三倍。美国项目仍吸引最多关注，累计GitHub星标达3,000万。

9.AI人才赴美数量骤降89%：降幅正在加速——仅过去一年就下降80%。美国仍拥有最多AI人才，但新增人才吸引率已降至逾十年最低。

10.AI人才版图在变，性别差距深度固化：瑞士和新加坡以人均AI研究者和开发者数量领跑，部分国家女性占比相对较高（沙特32.3%、加拿大29.6%、澳大利亚30.1%），但没有任何国家接近性别平等，且自2010年以来几乎未见进步。

第二章技术与性能

2025年，AI能力持续突破人类表现边界，但进步的呈现方式愈发不均匀——AI在某些任务上表现出色，在另一些看似简单的任务上却惨遭失败。基准测试本身正面临双重危机：一方面被AI系统快速“攻克”而失去区分度，另一方面基准设计质量参差不齐，部分测试甚至含有高达42%的无效题目。

▲AI指数技术性能基准与人类表现对比

1.AI能力正在超越为其设计的评估基准：前沿模型在Humanity's Last Exam（专为AI难、人类专家友好的基准）上，一年内得分提升30个百分点。本打算难住AI数年的评估，几个月内即告饱和。

2.顶尖模型性能快速收敛：截至2026年3月，Anthropic（1503）、xAI（1495）、谷歌（1494）、OpenAI（1481）、阿里巴巴（1449）和DeepSeek（1424）均跻身ArenaElo评分顶层，竞争压力正转向成本、可靠性和垂直领域性能。

3.开放权重与封闭权重模型的性能差距重新扩大：2024年8月，两者差距曾缩小至0.5%；截至2026年3月，差距已扩大至3.3%。Arena排行榜前10名中有6个为封闭权重模型。美中AI性能差距已实质性缩小：2025年初，DeepSeek-R1一度追平顶尖美国模型；截至2026年3月，美国领先幅度仅2.7%，但两者之差全年保持在个位数以内。

4.基准测试可靠性受到广泛质疑：MMLU Math的无效题目率为2%，GSM8K高达42%。另有研究显示，Arena排行榜名次可能部分反映了对平台的适应能力，而非真正的综合实力。

5.视频生成模型开始能够模拟物理规律：谷歌DeepMind的Veo3经过超过18,000个视频的测试，展示出无需专项训练即可模拟浮力、解迷宫等能力。

6.AI能拿数学奥赛金牌，却读不懂时钟：Gemini Deep Think在2025年IMO中获得35分（金牌），但顶尖模型在ClockBench上正确识别模拟时钟的概率仅为50.1%（人类90.1%），完美诠释了“锯齿状智能”现象。

7.AI进军专业领域，表现参差不齐：在税务、抵押贷款、企业金融和法律推理等领域，AI表现在60%至90%之间。顶尖15个模型之间的差距最小仅3个百分点，但高能力和高可靠性要求仍是巨大挑战。

8.AI代理从答题跨越到完成任务：在OSWorld（测试跨操作系统真实计算机任务）上，准确率从约12%跃升至66.3%，距人类水平仅差6个百分点，但结构化基准中每三次仍约失败一次。

9.机器人在可控环境中卓越，在家务任务上惨败：真实家庭任务成功率仅12%，软件仿真中RLBenc h达89.4%，两者差距触目惊心。

10.自动驾驶车辆在2025年实现大规模量产部署：Waymo在美国五城每周完成约45万次行程；在中国，Apollo Go完成1,100万次完全无人驾驶行程，同比增长175%。但现有部署仍限于气候条件较好的区域，且需场外人工备援。

第三章负责任AI

负责任AI（RAI）涵盖确保AI系统安全、公平、有益的一整套实践和治理机制，包括安全性、公平性、透明度和隐私等多个维度。然而，2025年的数据显示，负责任AI的进展远落后于AI能力的快速提升：事故报告数量创历史新高，而主要开发者的透明度却在下降。

▲2012年至2025年报告的人工智能事件数量

1.负责任AI基准落后于AI能力进展：几乎所有前沿模型开发者均报告能力基准（如MMLU、SWE-bench）的结果，但负责任AI基准的报告仍极为稀疏。AI Incident Database记录的事故从2024年的233起升至2025年的362起。

2.模型难以区分“知识”与“信念”：在一个新准确性基准中，26个顶尖模型的幻觉率在22%至94%之间。GPT-4o的准确率从98.2%跌至64.4%，DeepSeekR1从90%以上跌至14.4%——当虚假陈述被呈现为用户信念时，性能崩溃。

3.组织正规化负责任AI工作，但知识和预算差距依然制约推进：AI专项治理岗位2025年增长17%，完全没有负责任AI政策的企业占比从24%降至11%。主要障碍仍是知识缺口（59%）、预算限制（48%）和监管不确定性（41%）。

4.监管格局向AI专项框架和技术标准倾斜：GDPR仍是最常被引用的监管影响因素，但占比从65%降至60%。2025年新进入视野的标准包括ISO/IEC 42001（36%）和NISTAI风险管理框架（33%）。完全未受监管影响的组织占比从17%降至12%。

5.AI最擅长英语，且差距比全球基准揭示得更大：在HELM Arabic上，一个专为阿拉伯语开发的区域模型超越了GPT-5.1和Gemini 2.5Flash。在斯洛文尼亚方言常识推理测试中，多个顶尖模型的准确率相比标准语言下降近一半。

6.AI公司透明度下降：在基础模型透明度指数中，2023年至2024年平均分从37上升至58，但2025年又跌回40。训练数据、计算资源和部署后影响的披露差距依然突出。

7.常规条件下安全表现尚可，但在对抗性攻击下防线脆弱：在AILuminate基准上，多个前沿模型获得“非常好”或“好”的安全评级；而面对越狱提示攻击时，所有被测模型的安全性能均显著下降。

8.安全、公平和隐私等负责任AI维度相互掣肘，权衡机制尚不明确：实证研究发现，旨在提升某一负责任AI维度的训练技术，会持续损害其他维度。

第四章经济

2025年是AI投资的爆发之年：全球企业AI投资翻逾一倍，生成式AI独占近半壁江山，美国以2,859亿美元的私人投资额遥遥领先。与此同时，AI的消费者价值快速积累，但劳动力市场的影响正以不均匀的方式显现——生产力提升与初级岗位流失在相同领域同步出现。

▲2013–2025年按投资活动划分的全球企业人工智能投资总额

1.全球企业AI投资在2025年翻逾一倍：私人投资增长最快（127.5%），现占总量的60%。生成式AI增长逾200%，独占私人AI融资的近半壁江山。新获资助的AI企业增长71%，十亿美元级融资事件近乎翻倍。

2.美国私人AI投资是中国的23倍，但私人投资数字可能低估中国总量：美国生成式AI投资超过中国和欧洲的总和。不过，中国政府引导基金估计在2000年至2023年间已向AI企业投入约1,840亿美元。

3.AI公司收入以历史性速度增长，但算力成本也创历史纪录：顶尖前沿企业正以极短周期实现规模化营收，但算力支出同比大幅增加。谷歌报告2025年资本支出超过1,500亿美元。

4.消费者从生成式AI获得的价值一年增长54%：预计美国消费者的生成式AI年度盈余在2026年初达到1,720亿美元，较上年的1,120亿增长，每用户中位价值在同期翻了三倍，且大多数工具仍免费或近乎免费。

5.企业AI采用率升至88%，但AI代理应用仍处于早期阶段：生成式AI现已在至少一项业务职能中被70%的组织使用，中国和欧洲年同比增幅最大。AI代理在几乎所有业务职能中的部署率仍处于个位数。

6.生成式AI三年内普及率达53%，超越个人电脑和互联网速度：普及率与人均GDP密切相关，新加坡（61%）和阿联酋（54%）等国高于收入水平预期。尽管在AI投资和模型开发上领跑，美国仅以28.3%排名第24。

7.AI劳动力市场冲击不均等，集中于招聘管道和最年轻的工作者：22至25岁软件开发者就业人数从2024年起下滑近20%，而年长开发者人数仍在增长。雇主调查显示，三分之一的受访者预计未来一年将削减用工。

8.三分之一的组织预计AI将在未来一年减少用工，但大规模失业尚未在总体就业数据中出现：预计减少最多的职能依次为服务运营、供应链和软件工程。几乎所有职能的预期减少幅度均超过已观察到的实际下降。

9.AI生产力提升在结构化、可量化的工作中最为显著：研究报告显示，客服领域提升14%至15%，软件开发领域提升26%，营销产出提升50%。但在需要深度推理的任务中提升有限，且有初步证据显示过度依赖AI可能带来长期学习损失。

10.中国工业机器人装机量超过全球其余国家总和，且差距持续扩大：2024年，中国占全球工业机器人装机量的54%（2023年为51.1%）。全球增速持平，美国、德国、意大利均有下滑，台湾以33%的年增速异军突起。

第五章AI与科学

2025年是AI在科学领域角色发生深刻转变的一年——从加速单一研究步骤，到尝试替代整个研究工作流程。AI科学出版物数量大幅增长，小型专用模型在多个领域超越大型通用模型，但在端到端科研任务上，最优AI代理的表现仍仅为博士专家的约一半。

▲2010–2025年自然科学领域人工智能相关出版物数量

1.小模型超越大模型的现象在分子生物学中尤为突出：参数量1.11亿的蛋白质语言模型MSAPairfor mer在ProteinGym基准上超越了此前最优方法；参数量2亿的基因组学模型GPN-Star超越了近200倍大的模型。AI相关科学出版物2025年达80,150篇，同比增长26%，在自然科学研究总量中占5.8%至8.8%。

2.前沿模型平均超越人类化学家，但无法复现已发表研究成果：在ChemBench的2,700余道化学题中，最优模型超越人类专家平均水平，但在基础任务上仍存在短板。在ReplicationBench上，前沿模型复现天体物理学论文的得分低于20%。LLM代理在UnivEarth地球观测问题上的准确率仅33%,代码执行失败率高达58%。

3.天文学在2025年发布了首个基础模型、首个可视化基准和100TB训练数据集：AION-1基于来自5个主要巡天项目的逾2亿个天体训练而成，是首个天文学基础模型。AstroVisBench则引入了该领域LLM科学计算与可视化的首个基准。

4.AI首次端到端运行完整天气预报流程：Aardvark Weather以单一ML系统替代传统数值预报流程，多个AI天气模型进入业务化部署。FourCastNet 3在4分钟内生成60天全球预报，比以往方法快8至60倍。

5.端到端科研任务中，最优AI代理约为博士专家的一半：在PaperArena上，最优代理准确率为38.8%，而博士专家基线为83.5%。在BixBench的真实生物信息学分析任务中，前沿模型准确率约17%。

6.首篇完全由AI生成的论文在2025年被同行评审研讨会接受，但经实验证实的AI发现清单依然短暂：Sakana的AI Scientist-v2无需人工编写代码模板，独立完成并在ICLR研讨会上被接收的论文；谷歌AI Co-Scientist在三个生物医学领域得到实验验证。

7.科学领域的AI模型大多源自学术和政府机构，与通用AI的产业主导格局形成对比：地球科学数据集完全来自政府和学术来源，气象和气候领域的基础模型开发则由产业界主导。

第六章AI与医学

2025年，AI在医学领域的部署从试点项目走向更大规模落地，自动生成临床笔记的工具被多个医疗系统大规模采用，医生的文书负担显著减轻。分子生物学领域的人工智能模型涵盖了从基因序列到蛋白质结构再到治疗方案设计的整个研究路径。然而，严格的临床证据基础依然薄弱，FDA获批AI医疗设备中依赖随机对照试验数据的比例仅2.4%。

▲2024年与2025年人工智能驱动的蛋白质研究出版物数量对比

1.分子生物学领域，小模型胜过大模型：参数量1.11亿的MSAPairformer在ProteinGym上超越此前领先方法；参数量2亿的GPN-Star超越400亿参数的模型，再次印证“大而不当”的规律。

2.虚拟细胞模型在2025年成为新前沿：Evo 2（Arc Institute）、STATE和DeepMind的AlphaGenome相继发布，旨在无需湿实验即可预测细胞对药物和基因扰动的响应，但现有系统仍需实验验证。

3.生物学模型开发的瓶颈正从架构转向数据：随着共折叠模型已代表蛋白质数据库中的所有结构类型，2025年研究重心转向AI预测结构的精炼数据集和多源实验数据融合，训练集从数十万条扩展至数千万条。

4.自动生成临床笔记的AI工具在2025年获得广泛采用：多个医院系统的医生报告书写病历时间减少多达83%，职业倦怠显著降低，一家医院系统报告投资回报率达112%。

5.FDA在2025年授权258项AI医疗设备，大多通过无需新临床试验的审批路径：绝大多数设备借助设备修改审批路径入市，仅2.4%的设备的临床研究基于随机对照试验数据。

6.多智能体AI系统在复杂病例研究中得分85.5%，远超未辅助医生的20%：微软AI诊断协调器配合OpenAI o3，在医学文献中具挑战性的病例上测试，大幅领先仅凭自身经验作答的医生。多智能体框架与单智能体基线相比，诊断准确率提升7%至60%以上。

7.AI生成的摘要现已在谷歌搜索健康相关的结果中占比达84%至92%：症状和常见健康问题触发AI Overview的概率达92%，紧随其后的是治疗和病症查询。这些摘要已成为健康信息搜索的常规特征,深刻影响用户对问题的初步解读。

8.医学AI出版物中的伦理讨论在2025年翻逾一倍，但讨论范畴狭窄：治理问题主导讨论，而算法问责、生物安全和全球健康公平等议题依然严重不足。

9.医疗数字孪生研究热度快速攀升，初步严格试验结果令人鼓舞：在一项涉及150名糖尿病患者的随机对照试验中，71%的患者在一年内将血糖维持在健康水平，同时安全减少了用药量。

第七章教育

教育领域正面临一个悖论：AI工具在学生群体中快速普及，但政策和课程体系的响应严重滞后。与此同时,正规教育之外的AI技能学习在全球多个地区快速兴起，弥补了制度层面的空白。

▲2024年美国按种族/民族划分的AI软件相关从业者与所有高等教育毕业生对比

▲2024年美国按种族/民族划分的AI硬件相关从业者与所有高等教育毕业生对比

1.美国四年制大学CS本科入学率下滑11%，但AI研究生项目继续增长：2025年，美国四年制大学CS专业入学人数下降11%。AI软件相关领域的硕士毕业生从2023年到2024年增长17%，表明即便CS入学降温，AI专业化的需求仍旺盛。

2.美国在ICT专业毕业生培养上保持全球领先，但其他国家增速更快：土耳其、巴西和墨西哥近年来ICT毕业生产出增速更高。

3.五分之四的美国高中生和大学生使用AI学习，但学校政策严重滞后：仅约半数中学制定了AI政策，仅6%的教师认为政策内容清晰。学生最常将生成式AI用于研究、论文编辑和头脑风暴。

4.90%以上的国家已向中小学生开设计算机科学课程，但AI教育推进较慢：中国和阿联酋均强制要求从2025-26学年起开展AI教育，标志着国家层面开始AI教学的重要转变。

5.美加两国新增AI博士数量2022年至2024年增长22%，但增量全部流入学术界：这逆转了此前十年新增AI博士主要流向产业界的趋势。

6.人们正在正规教育之外习得AI技能，并将其写入简历：大多数国家AI素养增速快于工程导向AI技能。阿联酋、智利和南非例外——这三个国家的工程技能自2022年以来增速更陡。

第八章政策与治理

2025年是全球AI政策分歧最为凸显的一年：欧盟AI法案第一批禁令生效，美国转向放松监管，日本、韩国和意大利各自出台国家AI法律，超过半数的新国家AI战略来自首次进入政策领域的发展中国家。AI主权作为核心组织原则在全球范围内涌现。

▲拥有国家人工智能战略的国家

2025年全球主要AI政策事件梳理

2025年1月23日，美国发布行政令，撤销此前AI指令，确立新政策框架以增强美国AI主导地位、促进创新、消除监管障碍。

2025年2月1日，EU AI法案第一阶段正式生效，禁止高风险用途（如预测性警务、情感识别），为更严格规则奠定基础。

2025年2月11日，在巴黎AI行动峰会上，美国和英国拒绝签署60国共同认可的包容性AI宣言，治理路径分歧进一步凸显。

2025年3月14日，中国监管机构发布最终规定，要求对AI生成内容和合成媒体进行明确标注，并分阶段实施。

2025年4月3日，基加利举办首届非洲全球AI峰会，探讨非洲大陆如何把握AI发展机遇，同时防范劳动力市场潜在冲击。

1.国家AI战略在此前无正式AI政策的国家中扩张最快：2024年，超过半数的新增战略来自新兴经济体；截至2025年，撒哈拉以南非洲、中亚和中东的更多国家正在积极制定中。

2.AI主权成为国家AI政策的核心原则，但基础设施支撑严重不均：2018年至2025年，欧洲和中亚将国家级AI超算集群从3个扩展至44个；而南亚、拉丁美洲及中东和北非地区仅分别达到2、3和8个。

3.各地区对数据主权的处理方式分化：2024年以前，东亚和太平洋地区采纳了77项数据本地化措施,其次是撒哈拉以南非洲（71项）和欧洲与中亚（66项）。北美仅记录到3项，反映了跨境数据流的不同处理方式。

4.AI相关证人在美国国会听证会上的数量自2017年以来增长二十倍：从2017年的5人增至2025年的102人。产业界占比从13%增至37%（成为最大证人群体），而学术界占比降至15%。

5.欧洲AI公共合同承诺在2013年至2024年间约达37亿美元：英国贡献16亿美元，德国5.05亿，法国3.2亿。近期支出在加速：仅2024年，英国就承诺了4.544亿美元（占其十年总量的28%），德国承诺了2.066亿美元（占其总量的40%）。

6.美国公共AI投资与私人支出相比规模相当有限：2013年至2024年间，美国共投入约204亿美元用于AI相关合同和补助，而仅2025年一年的美国私人AI投资就达2,859亿美元。

第九章公众舆论

2025年Ipsos AI Monitor调查覆盖30个国家、23,216名成年人。结果显示：全球AI乐观情绪与焦虑情绪同步上升，AI专家与公众之间的观点鸿沟之宽令人震惊，而各国民众对本国政府监管AI的信任度呈现出巨大分化。

▲2022-2025年使用Al的产品和服务带来的益处多于弊端，按国家（占总量的百分比）划分

1.AI乐观情绪在上升，焦虑情绪亦然：全球认为AI产品和服务利大于弊的受访者比例从2024年的55%升至2025年的59%，同期表示对AI感到紧张的比例也升至52%。

2.东南亚国家依然是全球最乐观的AI受众：在中国、马来西亚、泰国、印度尼西亚和新加坡，超过80%的受访者认为AI将在未来3至5年内深刻改变自己的生活，马来西亚的提升幅度最大。

3.印度AI紧张情绪的上升幅度在所有受访国中最大：在2024年至2025年间，印度对AI使用的担忧上升14个百分点，而兴奋情绪仅小幅上升2个百分点。

4.多个新兴经济体的工作场所AI使用率高于许多发达国家：2025年，全球58%的员工报告在工作中半定期或定期使用AI，但在印度、中国、尼日利亚、阿联酋和沙特阿拉伯，这一比例超过80%。

5.AI专家与美国公众在AI未来几乎所有议题上意见相左，除认为它会损害选举和人际关系之外：仅在就业一项，差距就达50个百分点（73%的专家持积极态度，公众仅23%）。经济（69%vs 21%）和医疗（84%vs 44%）的差距类似。

6.近三分之二的美国人（64%）预期AI将在未来20年减少就业岗位，仅5%预期会增加：专家相对乐观（39%认为减少，19%认为增加），但预测AI普及速度更快——预计到2030年生成式AI将辅助80%的美国工时，而公众的预估仅为10%。

7.AI伴侣目前仍属小众，但专家预测它可能成为日常行为：专家预测，到2027年将有10%的美国成年人每天使用AI伴侣，到2040年这一比例将升至30%。公众的预期更低，2040年预测为20%。

8.美国是所有受访国中对本国政府监管AI最不信任的，仅31%：全球平均值为54%，东南亚国家最高（新加坡81%，印度尼西亚76%）。

9.在美国全部50个州，担忧AI监管力度不足的声音均压过担忧过度监管：全国41%的受访者认为联邦AI监管力度不够，27%认为力度过大，超过三分之一的人尚未表态。

10.在全球范围内，欧盟比美国或中国更受信任，被认为能有效监管AI：在皮尤研究中心2025年调查的25个国家中，中位53%的受访者表示信任欧盟，相比之下信任美国的为37%，信任中国的为270%。

结语

《2026年人工智能指数报告》的核心主题是：AI的能力增长已超出围绕它建立的各类系统的跟进速度。基准饱和、安全事故增多、劳动力影响开始显现、治理框架仍在探索中、公众信心碎片化——这一系列现象共同描绘了一个技术先行、制度滞后的时代图景。

与此同时，报告也记录了若干积极趋势：开源发展正在推动AI参与的全球化；AI在科学发现和医疗诊断上的潜力已初见曙光；消费者正在从工具中获取前所未有的价值。如何填平能力与准备度之间的鸿沟，将是未来数年AI发展的核心命题。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP