AI给包括材料科学在内的各领域带来效率革命,刘淼提出数据将成为AI时代材料科学唯一的核心壁垒,分享了落地实践与行业判断。 ## 1. AI推动材料科学革命,全球布局方向明确 AI+机器人将成为所有领域效率革命的核心方式,材料科学是AI for Science的核心落地领域。 中美战略方向一致,但策略不同:中国偏政府政策主导,美国偏市场化主导,美国科技公司进展突出,DeepMind、微软、贝索斯等均布局该赛道。 ## 2. 数据是AI材料科学的核心,技术路线已清晰 当前全球AI布局材料科学均从数据切入,核心路线是通过密度泛函理论批量计算材料性质,属于科学发展的第四范式。 中国科研团队已完成多个落地验证:仅用3个月就筛选合成出新型超导体,筛选出潜在性能超越磷酸铁锂的氟化物钠电池正极材料,相关模拟结果与实验值高度吻合。 ## 3. 数据是AI材料领域唯一的行业壁垒 模型的差异极小,不会成为行业壁垒,未来只有数据会成为AI材料领域的核心壁垒,没有数据先机就无法做成该领域业务。 DeepMind等机构仅公开模型参数,不开放核心训练数据,这已经成为行业普遍趋势。 ## 4. AI for Science领域具备长期发展潜力 该领域核心参与者多为科学出身,单纯AI出身难以做深,目前处于类似早期大语言模型的蓬勃发展阶段,吸引关注创造价值的从业者进入。 参考生物医药AI化发展路径,材料科学是下一个有望实现数据突破的领域,10年内发展存在大量机遇与不确定性。
刘淼:数据是AI 时代材料科学唯一的壁垒
2026-05-29 14:57

刘淼:数据是AI 时代材料科学唯一的壁垒

本文来自微信公众号: 未来光锥 ,作者:刘淼,原文标题:《刘淼:数据是 AI 时代材料科学唯一的壁垒 | AI for Science沙龙》


为什么AI时代要讲数据?


这是AI领域大家特别关注的一件事。AI的到来给了我们一个特别好的工具——在这个时代我们其实有了“infinite mind”(无限心智),用机器去帮我们或者代替我们思考,从而让各个领域都获得非常高效的进步。


如果我们看Gartner 2025年(高德纳)的新兴技术成熟度曲线,标出来的这些技术基本上都是AI和机器人。也就是说,几乎所有领域被效率革命的方式都是“AI加机器人”。在这种情况下,科学领域也会面临很大的挑战和变革。


从国际上看,大家都在做这件事:


美国:特朗普政府提出的AI行动计划,把芯片、数据中心、模型都放在了非常重要的位置。其中和科学相关的内容,可以归纳为三件事:自动化实验室、高质量数据集、计算基础设施。在科学领域落实这件事,是通过美国能源部(DOE)的Genesis Mission(创世纪任务)——用科学去变革研发方式,加速材料科学的发现。


中美对比:在战略上中美其实是一致的,但策略不同。我们偏政府主导、政策主导,美国偏市场化主导。


在这个背景下,美国科技公司的进步非常大:


DeepMind在2023年底发布了GNoME数据集和模型,号称通过高通量计算的方式发现了38万种热力学稳定的材料,相当于人类800年知识积累的总和。


Microsoft也做了很多事,比如MatterGen和MatterSim,对这个领域有很大的推动。MatterGen用生成式的方法,给出材料性质,就可以推测和推理出该材料可能的组分构型。


学术界:英国Andy Cooper团队、美国Gerbrand Ceder团队,都用机器人的方式自主化地去发现新材料、改革制备工艺,效率有特别大的提升。


新兴公司:DeepMind、Microsoft和Meta的一些人合作成立了一个新实验室叫Periodic Labs,这是由Google的各种X-Labs出来的团队,估值非常高,要用AI和机器人变革材料科学。最近Jeff Bezos也有动作,号称要投资62亿美元,这是他卸任Amazon CEO之后唯一一次在一家公司担任管理角色去推动的事——他做的叫Physical AI,材料科学可能是其中的一个板块。



在行业进步的带领下,我们现在面临的是AI在材料领域的应用,仔细看你会发现,大家都是从数据开始做的。


我列出来一些材料科学数据领域的进步。过去两个诺贝尔奖(化学奖和物理奖)多多少少都是AI方向的,但本质都是数据的进步。所以近期Google DeepMind、Meta、Microsoft都开始做这样的数据集。在国际范围内,这条技术路线已经勾画得非常清楚了。



如何去做?


这些大公司都在做的一件事是:用密度泛函理论(DFT)去做计算。计算一个材料已经非常容易,于是可以批量计算材料的性质——根源是解密度泛函理论,也就是解电子的薛定谔方程;知道电子的行为之后,就可以推测出材料的各种性质。这已经是非常稀松平常的事了。


这就是科学发展的“第四范式”:在数据基础之上,做各种各样的AI工具。回头看,数据计算的奠基人和先驱者是Materials Project,之后各国科研机构都开始做。近期Google、Microsoft、Meta也都加入。我们是在中科院物理研究所和松山湖材料实验室下面做这件事,现在这个实验室一部分也被独立为东莞材料科学与技术研究所。



ICSD(无机晶体结构数据库)里人类已发现的已知材料很快会被算尽,所以我们通过元素替代的方式不断扩增化学空间。



举几个具体例子:


超导体发现:已知一个化合物之后,我们替换元素做高通量计算,找到这个空间里哪些化合物是稳定的,发表出来指导实验。我们从数据库里筛选出和MgB₂(二硼化镁)结构类似的一个超导体——从筛选到实验合成,只用了3个月时间就把新材料发现出来。


全固态电池:现在做电池有一个困难是,电极材料和电解质材料会发生副反应——界面处的副反应会让电池的效率和循环性能变低。解决方案是找一层中间层把电极和电解质隔开。我们有这样一个工作流,可以从5万多个化合物中筛选出几十个比较好的镀层材料。我们还筛选了电池的正极材料,找到了一个氟化物的钠电池材料,如果合成出来,其性能超过现在的磷酸铁锂。这些已经被我们申请成了专利。


-预测材料稳定性:给定一个原子在空间摆开的构型,力场可以快速把它带到平衡态的位置。


-微调(Fine-tune):在预训练力场的基础上,用少量数据就可以微调到更合理的情况,比如可以分辨钛金属体系从HCP到FCC的相变,这在传统经验势能(empirical potential)里一直是难点。


-离子晶体分子动力学:我们对一个流行的全固态电解质做了离子扩散率的模拟,结果和实验值非常接近。


如何选择科学问题?


传统上大家做这些AI的事情时,都以数据为起点或判据。如果数据是合适的,你就可以拿这些数据做合适的科学问题。


DeepMind其实是挑选问题的高手。他们选AlphaGo的原因是因为围棋的数据质量非常高,不存在主观偏见、模糊的问题,预测指标也非常清晰。


所以选择科学问题永远是人工智能领域最重要的一步。怎么选择?拿数据来做一个非常重要的判据。


-2023年:用Llama 2做了一些训练,发现有迹象,但难度和资源需求都非常大。


-2024年:发现可以用RAG(检索增强生成)模式去做。



互动提问


提问1:10年后的材料实验室会是什么样子?


刘淼:这是个开放性的问题,我没有答案。因为这个领域发展太快了,顶多能看个两三年。


但总的来说,我们可以看一下生物医药的发展,他们比材料科学发展早一点点。几乎所有材料科学里经历的事情,生物医药里其实已经做过了一遍——他们至少早20年就知道用AI计算找药,他们有各种各样的人工智能方案做新药发现,或者类似的软件/硬件产品。除了生物医药,材料科学可能是第二个在数据上具备类似发现或突破的领域。我觉得还是很有希望——既有很多未知,又有很多希望。


提问2:DeepMind、Microsoft发Nature都不再公布数据和模型了。你们把GPT-FF和材料数据库都免费开放,对国内免费是出于什么考虑?


刘淼:其实他们没有公布数据,但还是公布模型的。开源的意思不是“模型+数据+训练方式”全部开源,而是只公开参数。这又回到我报告的主题:数据很重要。所以各个领域的大模型公司,包括图像、世界模型、大语言模型,都不公开数据。材料科学也在朝这个方向发展。


这也是未来的趋势:数据将会成为这个行业的壁垒,其他的都不会是壁垒。模型已经不重要了,因为模型的壁垒已经非常小——你的模型比我的模型在同样数据底下效率高一点点,这种差异已经小到看不出来了。接下来无非就是怎么做数据,这会成为这个行业唯一的壁垒。在这种数据高价值的情况下,大家是不会把数据放出来的。我们的数据有些开放给大家浏览,但作为供机器学习使用的数据,没有人会放出来。


如果你要做这个行业或者任何AI相关的行业,如果没有在数据上占到先机,you will never make it(永远做不成)。每个企业都是这样。所以学生、投资人、每个行业的人都可以看一下:你要去的这家公司,在数据上是不是有先机——如果没有数据先机,there is no way you can go。


提问3:你们80万篇论文的数据是怎么清洗的?


刘淼:首先,我们在一个学术机构里面,有一些资源和条件可以获得论文全文。拿到论文全文之后,把PDF变成可用的数据,这里我们用到了浦江实验室的MinerU这一类的智能文档解析工具。这种行业先进的工具用起来,可以让某一个细节变得更好。


我想今天在座的我们几位都是在做科学的工程化。在这个行业里,科学已经做到一定程度的时候,可以通过工程化的方式让它变成生产力工具,把它做成产品、做成大家可以使用的工具的过程中,其实是工程思维——每个细节都到位,最后产品才能比较好。任何一个细节不考虑,最后产品就会因为那一个细节显示出不好的地方。


提问4:做AI的人很多都被业界高薪吸引过去了。AI for Science如何长期有系统地做下去?高校研究所有竞争力吗?


刘淼:我的感受是,这个领域做AI+科学的人,更多是从科学出身的。如果你单纯是AI出身,在这个领域很难往下做深入发展。做AI的人虽然工资很高,但那些做“生化环材”四大“火坑”专业的人出来,在AI+科学领域做事,对他们来说可能是一个让自己往更前沿方向走的机会。


人类社会人很多,每个人做的事情不一样,如果大家都做一样的事就没意思了。我们也希望吸引进来的人不是看钱,而是在思考“怎么样去创造价值”。这中间有一些有意思的、自己感兴趣的、好玩的事情。我相信这个领域还会不停地吸引人进来,至少我看到我们新进来的研究生干劲十足,所以我丝毫不担心这个问题。


最近我看了Yann LeCun(杨立昆)的一个播客访谈,他提出一个观点:如果你现在去一个大厂或者企业做大语言模型,或者在研究生阶段学LLM,其实非常无聊。我回头思考一下我们团队在做什么——有做基础设施的、有做产品的、有做数据的、有做模型的,这其实和一个大语言模型公司做的事非常相似,相当于他们的早期阶段。所以这个领域其实就像大语言模型的早期阶段,映射到我们这个行业中,因此这个领域是蓬勃发展的。


在这个阶段,与其去一个成熟企业、成熟方向里做一只小蚂蚁,不如来我们这个行业,做一个行业成长期、早期进来的独角兽。这就是我们在这件事上的取舍。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定