2026-05-06 08:31

普通人用AI攻克数学猜想的时代，要来了？

返朴

本文来自微信公众号：返朴，作者：嘉伟

过度炒作会导致倦怠和冷漠。如果一切都被描绘成某种奇迹般的突破，真正重要的进步就不会被认可。

AI自主解决有严肃学术背景的数学问题，这是今年第一季度最重要，至少是最引人注目的数学大事件。

AI大潮一日千里，许多技术还未流行就已过时。有人曾半开玩笑地总结现代AI工具的学习经验：“你越不学，就越不用学。”

2025年夏天，AI模型在国际数学奥林匹克（IMO）上解出6道试题中的5道（相当于获得了金牌），震惊了数学界。此后若干团队开始深入研究，在当年年末，已经训练出可以完美解答USAMO（美国数学奥林匹克竞赛）试题，乃至著名的普特南数学竞赛试题的AI模型[1,2]。然而，为他们献上的只有寥寥掌声。因为就在同一时期，已经有AI能完全自主解决传奇数学家保罗·埃尔德什（Paul Erdős）遗留的数学问题。相较之下，仅仅是在有标准答案的考试中拿到满分，这个水平就有些尴尬了。

AI模型自主解决开放的数学问题（以及AI辅助人类解决数学问题），堪称是今年上半年最重要的数学事件。它从一开始就经历了一连串的乌龙、炒作和反转。

2025年10月18日，OpenAI旗下研究员Mark Sellke在社交平台X上高调宣布：他们借助GPT-5成功解答了10个著名的埃尔德什问题（Erdős problems）。

“经过对GPT-5的数千次查询，我们发现了10个原本还处于开放状态的问题的解答，分别是#223、#339、#494、#515、#621、#822、#883（第二部分）、#903、#1043、#1079。此外，还有11个难题取得了重要的部分进展，已更新到官网。甚至在第827题上，我们还发现埃尔德什本人原始论文里存在错误，这个错误由Martínez和Roldán-Pensado两位学者后来进行了修正。看来，未来的科学研究要变得有趣了！”

OpenAI高管Kevin Weil和OpenAI另一知名研究员Sebastien Bubeck也兴奋地应和：“由AI驱动的科学加速时代正式开启了！两位研究员仅一个周末就借助GPT-5成功解决了10个埃尔德什问题……”

不过GoogleDeepMind的CEO Demis Hassabis则在Mark Sellke的推文下意味深长地评论道：“太尴尬了（this is embarrassing）！”

原来OpenAI的宣传夸大其词，GPT-5只是通过网络搜索，找到了早已存在的论文，这些论文解答了那些问题。只不过论文本身并不广为人知。

几个月后，还有位数学教授以这个乌龙事件为例，断言现阶段AI无法独立攻克有真实学术背景的数学难题。未曾想话音未落，就有不止一个团队站出来表示，他们已经让AI独立解决了某些埃尔德什问题。

经过一番甄别与审校，最终认定第一个做到此事的，是一位来自剑桥的21岁数学系本科生与他的合作伙伴。

不过在开始他们的故事之前，还是要解释一下什么是埃尔德什问题，以及那些#号数字又代表什么。

先把问题放到一起

“埃尔德什问题”通常并不是指某一个特定的数学难题，而是指由20世纪最具传奇色彩的匈牙利数学家保罗·埃尔德什生前提出的一大批数学猜想。

埃尔德什是一位“游侠数学家”，没有固定住所，也没有全职工作。他总是提着行李箱在世界各地的大学和研究所之间穿梭，常常不请自来地突然出现在数学家的家门口，嚷嚷“我的大脑随时开放！”他被认为是数学史上最多产的合作者，一生中与超过500名数学家联合发表过1500多篇论文。

许多著名的埃尔德什问题并非独出机杼，而是他在别人客厅里、在咖啡馆的餐巾纸上，与当地数学家热烈讨论时共同构思出来的。埃尔德什有一个非常著名的习惯——为未解问题开出悬赏。奖金金额从25美元（代表难度较低但仍需巧思）到10000美元（代表难度极高）不等。

如果在旅途中，他听到别的数学家提出了一个非常优美、重要但尚未解决的问题，即使这个问题不是自己想出来的，他也会自掏腰包为它悬赏，并在各种国际会议上宣扬。

可以说，埃尔德什问题是埃尔德什以独特的个人魅力、敏锐的直觉和慷慨的悬赏，在整个数学界建立起的一个问题宝库。涉及的领域从加性组合、解析数论、极值图论，到一般的集合论、数论、组合学和概率论。

近几年非常有建树的数学家Thomas Bloom（曼彻斯特大学的皇家学会大学研究员，解析数论和加性组合领域的专家）决定建立一个网站[3]，用于收录埃尔德什未解决的开放性难题。

这个网站最初创建于2023年3月底，问题以“#+数字”编号。一开始Bloom只私下分享链接，后来于2023年5月28日正式上线。笔者当时在微博上介绍过这个网站。当时它仅收录了200多道问题，网站本身仅能浏览和查找。

因为这些问题来源不一，所以有些问题或许早已得到解决，只不过相关论文被埋没在历史之中。如下面著名的问题#707，是埃尔德什悬赏1000美元求解的难题。但后来发现，甚至早在埃尔德什提出这个问题的30年前，就有人想过这个问题并解决了它。这揭示了文献检索的困难——即使是顶级数学家也可能忽略已有的成果。

有赏格的数学问题。|图源：T.F.Bloom,Erdős Problem#707

追求完美的Thomas Bloom每每想到自己会遗漏多少重要的资料，都会浑身难受。但没有办法，他只能默念伏尔泰的名言“完美是善的敌人”来劝慰自己。先把网站开起来，尽可能把问题收录在册；先统一标记为开放问题，再随缘或借助网络的力量，为已有答案的问题补上解答。这也是前面OpenAI搞了个大乌龙的原因。

因为网站全依赖他一人维护，每天光是手动录入各种文献就要耗费大量宝贵的时间。2025年8月，Bloom才为这个网站添加了评论功能，结果当天菲尔兹奖得主陶哲轩和Stijn Cambie、VjekoKovac在评论区讨论一番，就为#379找到了一个简短的解决方案。那些对话还保留了数学家的思考痕迹。

交流是有价值的。仅仅是添加了一个评论区供人们讨论，一个猜想就从open变成了solved。Erdős Problem#379的证明已通过Lean语言校验得到确认。|图源：T.F.Bloom,Erdős Problem#379

截至目前，erdosproblems.com网站上有超过1200个问题（只有约100个问题设有奖金），其中约44%已得到解决。

需要澄清的是，埃尔德什问题的难度跨度极大，有些极其困难，有些则“唾手可得”。有媒体动辄冠以“AI破解N年难题”，暗示这个问题非常困难，在N年间抵挡住了人类所有的破解尝试。然而实际情况可能只是问题十分冷门，在数学界N年无人问津。

把问题放到一起，让故纸堆中的问题被更多数学家看见，这大大加速了这些“遗留问题”的破解进程。有人开始意识到，这个网站恰好可以作为一块试金石，来检验AI在真实学术活动中的潜力。

第一个吃螃蟹的AI

早在2024年，诸如GoogleDeepMind开发的强大AI模型已经可以辅助人类证明新的数学定理。但AI，或者说现在的大语言模型（LLM），能否在不需要人类提示的情况下独立解答一个至今未解的埃尔德什问题？

名为Axiom Math的初创公司正试图将数学中的“解谜”环节自动化。它在去年9月份宣布获得6400万美元的种子轮融资。

今年年初，这家公司表示他们的AI模型AxiomProver解决了两个困扰数学界数十年的埃尔德什问题——#124和#481。

然而，这似乎是为了向投资人展示企业业务能力的一次炒作。

真正解决#124的AI是另一家公司Harmonic名为Aristotle（亚里士多德）的模型。不过Aristotle也投机取巧了：问题#124表述有歧义，其中一种理解方式会让问题变得非常简单。现在网站上收录的#124是消除了歧义的版本，至今未有解答。

AxiomProver解决的#481，实际上早在1982年就已由David Klarner给出了证明。

所以上述两例的记录难以服众（不过AxiomProver和Aristotle非常善于将数学证明转为Lean语言），但他们启发了更多的研究者。

Kevin Barreto，网名Acer，线上是亚文化社区里的“furry控”，线下是剑桥大学数学系21岁的本科生。他自13岁起就喜欢解析数论这门学科，早就翻过埃尔德什问题网站上所有未解题目。但他从未想过由自己来证明其中的某个猜想。

2025年11月，他看到Harmonic的Aristotle解决了简化版的#124，就有些坐不住了。因为他当时对人工智能系统的能力还不太信服，觉得如果这些系统能在这些问题上取得进展，那么自己也有机会摘下一枚“低垂的果实”。

低垂的果实，low-hanging fruit。用于形容那些容易实现、成本低、风险小的目标或任务。陶哲轩在去年用这个短语来描述那些可被AI解决的数学问题，它也就成为数学界和AI领域的热词。

除了扎实的数学功底，Barreto还是Aristotle最早的测试用户之一。

在连续两次为早有解答的问题提交证明后，Kevin Barreto与合作伙伴Liam Price借助OpenAI当时新推出的GPT-5.2Pro解决了#728。

2026年1月7日，Barreto使用Aristotle把证明过程自动转为Lean语言并完成校验，这一成果被陶哲轩称为里程碑式的成就。这是第一个AI自主完成的，有严肃学术背景的埃尔德什问题的证明！

实际上，确认这个证明也是经过了一番波折。|图源：T.F.Bloom,Erdős Problem#728

来势汹汹

这两人的成功，激发了大家的热情。好奇的人们涌向了Bloom的网站。高峰时期，每天总计有15万不同的访客访问这个网站。要知道，这可是一个纯数学平台。

很多人递交了自己用AI生成的证明，可惜大部分网络用户缺少必要的数学知识，难以辨别AI的证明是胡言乱语还是真材实料。

陶哲轩建立了资源库[4]，用于记录那些真正的证明。

从1月初到2月10日前后的一个多月里，他收到了大量针对这些问题的新解答，其中既有纯AI生成的证明，也有人机协作的产物。有些被证明是错误的，还有一些被发现与已有方案相似，但尽管如此，还是有很多新解法被验证——在此期间，网站上又有近50个问题被标记为已解决。AI工具对埃尔德什问题的真正成功率实际上只有一两个百分点；但由于有600多个悬而未决的开放问题，这仍然带来了令人印象深刻的实际贡献，尽管这些贡献绝大多数集中在难度天平里“容易”的那一端。

这里展示几个有趣的结果。

Boris Alexeev、Mehtaab Sawhney等人使用OpenAI的内部模型一次解决了5个埃尔德什问题[5]。

#1091：如果一个图的色数为4，而每个小子图的色数至多为3，那么它是否必须包含一个带有许多对角线的奇圈？内部模型给出了一个非常启发性的反例。|图源：Short proofs in combinatorics,probability and number theory II

美国17岁的高中生Enrique Barschkis在埃尔德什问题网站的评论区正确解答了一个开放问题#347。两个月后，他又用AI自主解决了#1197。这个少年经常和数学家通信，向其请教诸如椭圆曲线等问题。因此很多美国数学家都知道他，还给予过指导和鼓励。

这个问题，提交者没有使用AI。|图源：T.F.Bloom,Erdős Problem#347

同样17岁的Sky Yang未用AI，证明了#369。

这个问题，提交者同样17岁，没有使用AI。|图源：T.F.Bloom,Erdős Problem#369

Ulam.ai是一家专注于前沿AI推理数据与评估的平台，主要服务对象是AI实验室和开发者。Ulam.ai研究员Przemek Chojecki先解决了#258，又解决了#1148。

后一个问题问，对于所有足够大的正整数n，是否存在整数三元组(x,y,z)，满足max(x²,y²,z²)≤n且n=x²+y²-z²？（答案是肯定的）

这种高中生也能充分理解题意的成果真的令我喜欢。顺便一提，证明方法则完全相反，是非初等的。

Przemek Chojecki还公布了他使用AI研究数学的方法。这与Kevin Barreto和Liam Price的方法论大体相同，不过后者要更加细节化。我整理后分享如下。

使用AI做数学的方法论

1.你必须具备一种能力或素养，大致能看出哪些问题是足够简单的。

2.使用当下最前沿的AI。其实就是最贵的AI。如果是GPT系列，推荐订阅月费200美元那一款。

3.在把开放问题丢给AI时，要明令禁止它检索。强迫它进入“思考”而不是搜索模式。避免模型识别出问题是开放的，因“胆怯”而拒绝尝试。

4.明确任务指令，告诉模型这是一个复杂的数学问题，每一步都需要严谨证明或反驳。

5.用一个模型实例进行“研究问题陈述+头脑风暴思路”。输出简短的提示（例如用LaTeX表达核心思路），供后续实例使用。

6.用另一个模型实例根据提示尝试写出完整证明。

7.交叉检查，再用一个模型审查证明，指出潜在错误或缺口。通过迭代修正，逐步逼近正确解。

8.避免幻觉的策略是鼓励诚实，让模型在遇到困难时说明“未能证明某个引理”，而不是编造。

9.分步验证，每个阶段都要求模型解释逻辑，而不是直接给最终答案。

10.形式化与排版，将最终证明转为LaTeX，保证表达清晰、规范。如果条件允许，可以进一步用Lean或其他证明助手进行形式化验证。

11.人类监督。即使不是专业数学家，也要检查证明是否“看起来合理”，避免明显的胡说八道。

最终迭代改进，人类反馈+模型修正，形成闭环。有志于数学研究的朋友都应尝试一下，尤其是数学专业的学弟学妹。

价值几何

那么现代AI工具到底能力如何？

陶哲轩在去年的时候曾表示，现在的AI大体上相当于聪明的博士研究生。这句话到今天仍未过时。

Kevin Barreto本人在前段时间也忍不住感叹，AI给出的证明没有真正让他眼前一亮的新颖东西。但也不应该低估AI的潜力。

他们令AI提交的证明，与美国数学家Carl Bernard Pomerance在2014年的一篇论文所使用的方法非常相似。事实上，Pomerance现在已发布了一份简短的说明[6]，展示了该论文中的方法如何可用于#728的证明。不过，AI生成的方案确实是第一次把该技术用于这一问题。有关情况的完整概述，请参见NatSothanaphan（曾是泰国IMO国家队成员，并在2012年代表泰国参赛获得银牌）的完整报告[7]。

AI的贡献，性质相当微妙；无论从单个案例看，还是考察整体趋势，它们都不符合人工智能自主解决重大数学开放性问题这一被夸大的目标，但它们也不能都被视为无关紧要的小把戏。AI有一个显而易见的价值，就是降低了数学爱好者进入前沿领域的门槛。

Kevin Barreto和Liam Price不同，是一位非常外向，乐于交流的青年。因此本文对前者着墨较多，在他还没有出名之前，笔者就和他在线短暂交流过。他平时喜欢解复杂的积分作为娱乐，他特别喜欢陈景润关于哥德巴赫猜想“1+2”的证明，找到“1+1”的证明是他的数学理想之一。

但实际上，Liam Price是技术力非常强的极客，只不过不愿透露个人的信息。他在团队的贡献，并不在Kevin Barreto之下。

他们两人连续解决几个埃尔德什问题后，又在专门为评估AI高阶数学推理能力而设计的基准测试数据集FrontierMath项目里拔得头筹。一次可以说是运气，两次那就是实力。

Kevin Barreto又加入GoogleDeepMind的团队，在Gemini上也第一次实现了AI自主证明埃尔德什问题。

随后他本想安心学业，但OpenAI抛来了橄榄枝。他果断休学一年，进入当前AI领域的旗舰企业实习。

分享在OpenAI的工作生活。|图源：Kevin Barreto

OpenAI的高管邀请Kevin Barreto正式入职，但剑桥不允许无故连续休学2年。Barreto想留在企业，就只能选择退学。

纠结不已的他在4月18日前后，甚至向网友求助，询问如果现在退学，以后是否有办法能继续读研。没想到正应了本文最开头的话：AI时代，瞬息万变。就在Barreto犹豫的时候，向他发出邀请的OpenAI高管Kevin Weil在19日左右宣布离职（此君也是前面乌龙事件里的出场人物）。

与此同时，继续独立研究埃尔德什问题的Liam Price用AI自主解决了#1196。

一个有严肃学术背景的问题。|图源：T.F.Bloom,Erdős Problem#1196

AI在证明过程中，出乎所有人意料地使用到了马尔可夫链与通常不会用在此类问题的数论函数冯·曼戈尔特函数。这令人耳目一新、印象深刻，是数学家以前未曾设想过的思路。

菲尔兹奖得主、当今解析数论领域新一代领军人物James Maynard的学生Jared Duker Lichtman对这个证明赞不绝口，甚至认为这相当于AI在数学领域里的Move 37时刻。

Move 37是指在2016年3月AlphaGo与李世石对决的第二局中，由AlphaGo（执白）下出的一步。这步棋被公认为是围棋AI发展史上人工智能的棋力超越人类经验的里程碑时刻。这是一手罕见的“肩冲”（shoulder hit），被视为出乎意料且具有高创造力的行棋。

不过，或许因为Lichtman曾长时间思考过这个问题未果，所以他对这个问题的价值是高估的。很多人并不太认可Move 37的看法，尤其是陶哲轩在简化证明的时候发现，可以给出表面上不用马尔可夫链的证明。

不过就在本文即将完稿的时候，前文提过的OpenAI研究员Sebastien Bubeck用当天刚上线的ChatGPT Images 2.0为#1196绘制了证明路线图。称之为AI第一个非平凡的数学成果。

#1196证明路线图。|图源：Sebastien Bubeck

最后，有读者可能会误以为埃尔德什问题#728是第一个被AI自主解决的开放性数学问题。但据笔者考证，它并不是。

#728很可能是第二个。

苏黎世联邦理工学院的数学家Johannes Schmitt的团队，他们更早（宣称）实现了AI首次在没有人类提示、没有辅助框架的情况下，独立给出一个开放数学问题的完整有效证明。

题目涉及曲线模空间上的交数，属于枚举几何的研究方向。他们称AI做出了“小但新颖的贡献”。

不过因为这个问题没有大数学家埃尔德什带来的光环，所以并未引起大量关注。

枚举几何|图源：Johannes Schmitt

后记

就在本文编辑的过程中，自GPT-5.5的发布不到48小时，就有20个埃尔德什问题的新答案提交。

前文提到的美国17岁的高中生Enrique Barschkis，把一个开放问题提交给GPT-5.5，自己出去散步80分钟。回来之后，AI就为一个此前未知结果的数学问题找到了答案。甚至只需人手执行简单的复制粘贴操作，AI提供的证明就能转为编辑好的LaTeX格式并经过Lean语言校验。

从5月1日到2日，24小时里就有5个问题的状态从“开放”转为“已解决”。实际上，Thomas Bloom的网站因AI提交答案太多（很多是毫无意义的），已经濒临瘫痪。他说：“我希望，在近期AI解决埃尔德什问题的大量宣传中，至少能有几个人真正阅读了其中的数学内容，并学习了一些背后的理论，例如primitive sets。AI新闻头条是次要的，它们背后蕴含的优美数学才是真正的主角！”

另外，关于#1196——可能是第一个被AI用独创方法解决的问题，它的方法可以推广，过几天会有更多报告和论文[8]。但并非某些自媒体报道的那么夸张。

虽然中奖率还不高，但现在确实已经进入到大众都可以研究前沿数学的时代。

这场AI盛宴，国内团队普遍缺席。或许目前唯一大放异彩的参与者，是来自西安交通大学、今年刚刚大四的本科生汤泉宇。那就是另外一个精彩的故事了。

参考文献

[1]From Seeing Why to Checking Everything|Axiom，https://axiommath.ai/territory/from-seeing-why-to-checking-everything

[2]Olympiad-level formal mathematical reasoning with reinforcement learning|Nature

[3]https://www.erdosproblems.com/

[4]https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erd%C5%91s-problems

[5]Short proofs in combinatorics,probability and number theory II，https://arxiv.org/abs/2604.06609

[6]https://math.dartmouth.edu/~carlp/binom.pdf

[7]https://arxiv.org/abs/2601.07421

[8][2605.00301]Primitive sets and von Mangoldt chains:Erdős Problem#1196 and beyond，https://arxiv.org/abs/2605.00301

AI原生产品日报频道: 前沿科技

返朴

科学新媒体，科普中国子品牌

认证作者

已在虎嗅发表 896 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定