两周内哈佛两个研究组得出AI看病“误诊率80%”和“比医生更强”的矛盾结论，本文拆解差异，指出AI医疗研究该聚焦改进而非胜负对比。 ## 1. 矛盾结论的来源：两篇顶级论文间隔两周的反差两项结论相反的AI诊疗研究均出自哈佛医学院不同研究组，分别发表在顶级期刊：“误诊80%”的研究4月16日发表于《JAMA》，“比急诊医生强”的研究4月30日发表于《Science》，二者间隔恰好两周。 ## 2. 结论不矛盾：核心差异在测试场景与评判规则两项研究的测试内容和评判标准完全不同，本质并不矛盾。《JAMA》研究测试范围更广，针对29个默沙东诊疗手册病例，按临床流程分步打分，所谓“误诊80%”仅针对初步鉴别诊断环节，AI最终诊断失败率仅为9%-39%。《Science》研究侧重急诊最终诊断，将完整电子病历一次性输入给AI，只考核最终诊断结果，因此测出AI表现优于急诊医生。《JAMA》模拟真实临床流程，要求AI在信息不完整的分步输入中逐步判断，捕捉了AI在不确定性下持续推理的短板，这正是当前AI的薄弱环节；《Science》是给齐所有信息让AI归纳结论，更接近诊断终点，因此AI表现更好。两个研究都暗示：信息越完整，AI诊断表现越好。 ## 3. 当下AI医疗的核心问题：不应比胜负，该找改进方向当前大语言模型做AI诊疗仍处于非常早期的阶段，纠结“AI行不行、能不能打败医生”没有意义。AI医疗研究真正该推进的核心方向，不是做胜负对比实验，而是定位AI出错的根源：明确在哪一步出错、为什么出错、调整什么变量能改进，两篇论文都没有深入回答这个关键问题。 ## 4. 值得警惕的现状：大模型也会犯基础事实错误，不要迷信“下一代AI” 本文将两篇论文发给ChatGPT和Claude，二者都能正确识别两篇论文方法学的差异，但都犯了基础事实错误：ChatGPT颠倒了两篇论文的数据干净程度对应结果，Claude错误声称《JAMA》只用普通大模型、《Science》只用OpenAI o1推理模型，不符合实际情况。这种错误反映了当前AI医疗的潜在风险：AI能给出逻辑通顺的答案，却可能在基础事实上出错。包括不少媒体和大模型都默认“数据更干净、模型更新就能解决问题”，这是没有证据的信仰崇拜，甚至会干扰正确判断：NPR报道就错称《JAMA》AI表现差是因为用了更老的模型，实际上《JAMA》用到的模型更新于《Science》所用模型，因此不要默认下一代AI一定会给出更准确的结果。

2026-05-14 08:56

仅仅两周，AI看病从80%误诊“跃升”到比医生强，这到底是怎么回事？

一个生物狗的科普小园©

本文来自微信公众号：一个生物狗的科普小园，作者：Y博的科普园

前段时间，我的朋友圈被一条AI看病误诊率80%的新闻刷屏了，说不定你也看到过这条消息：

可后来，我的新闻推送又给了另一条消息，AI在复杂医疗诊断里表现出色，比急诊室医生还厉害：

两个新闻都是基于顶级学术期刊上发表的研究，“误诊80%”是4月16日发表在JAMA上：

“比急诊医生强”是4月30日发表在《科学》上：

两篇论文相隔正好两周，而且都是哈佛医学院的研究人员，不过是不同研究组。

不知道你看到这两个似乎完全矛盾的研究是什么感觉？

有一个解释可以让两篇论文不矛盾：急诊医生水平太差，说不定误诊率90%，就算AI误诊率80%也吊打。

显然这是开玩笑。

下面我们还是正经分析一下，两项研究里为什么一个看上去很不靠谱，一个看上去很靠谱。

最关键的地方，或许是两项研究测试的内容与评判标准都不一样。

JAMA上的研究，也就是AI一趟糊涂的那篇论文，研究人员给AI出的考题是默沙东诊疗手册里的29个病例情景，这与《科学》上侧重急诊室诊断不同，病例范围更广。

更重要的是，JAMA论文里，评判是AI从拿到病例那一刻起就开始，初步鉴别诊断，再到实验检查，最终诊断，以及治疗方案，每一步的表现都“考”。在这个评判体系里，即便AI给出的最终诊断对了，但在最初的鉴别诊断里有失误，也会被记录扣分。

其实，误诊超过80%是在初步鉴别诊断这一步，可在最终诊断方面，失败率不到40%——不同模型失败率是9-39%。

而《科学》上打败急诊室医生的研究，侧重的恰恰是最终诊断。从某种程度上看，实际上两个研究都暗示AI在最终诊断判断上做得还不错。

此外，必须注意JAMA论文里初步鉴别诊断失败率高，建立在病例情景里，患者的信息是一点点输入给AI，比如先是患者年龄、病症表现，再加上实验检查结果，每输入一点，研究人员问一部分问题，而每一步里AI给出的答案，都会与标准答案对比，不准确就被归入失败。

这是非常严苛的标准。但这个设计很重要，因为它更接近真实的临床工作方式。医生在门诊或急诊里，永远是从一个不完整的画面开始：先听主诉，再做体检，再等化验结果回来。每一步都要在信息不全的情况下做判断，并随时准备推翻自己的初步猜测。JAMA的测试捕捉到的，正是这种在不确定性下持续推论的能力，而这目前看来，恰恰是AI最薄弱的环节。

相比之下，《科学》论文里即便是真实病例，也是把完整的电子病历一次性输入。这更像是让AI做"事后诸葛"：所有线索已经摆在桌上，任务是从中归纳出答案，而不是在信息残缺时就要开始押注。两种测试场景，对应的其实是医生工作流程里完全不同的两个时刻：一个是诊断的起点，另一个更接近终点。

考虑到JAMA研究里，到最后诊断阶段，随着输入信息变多，成功率上升，再结合《科学》论文里的测试方法，可能都在暗示，有较多信息时，AI的表现会更好。

那AI看病到底行不行呢？它是那个误诊80%，还是比现实世界的医生强呢？

个人认为这其实都不是现在AI医疗需要关注的问题。

因为当下AI在医疗领域的应用，尤其是用大语言模型做诊疗，还在非常早期的阶段。

好比我们问一个读中学的孩子，啥时候能成为科学家，拿诺奖。这不光是做不做的到的问题，而是问这样的问题，对孩子没什么帮助，不会有助于他成长，去接近我们期望的结果。

最值得关注的，未必是当下的AI在医疗场景下做得有多好或多差，而是做得好的地方，为什么好；做得差的地方，原因是什么，有没有办法改进。可这恰恰是两篇论文都没有深入回答的地方：

下一步，我们怎么做，才能让模型的表现更好。

比如，AI在逐步获取信息时鉴别诊断能力差，是因为训练数据里缺乏这类"渐进式推理"的样本？还是模型本身在处理不确定性时存在结构性缺陷？如果是前者，针对性地用模拟临床对话的数据做训练或许有帮助；如果是后者，换一个更新的模型未必能解决问题，需要的可能是完全不同的架构思路。

这才是AI医疗研究下一步真正该啃的硬骨头——不是再做一个"AI能不能打败医生"的对比实验，而是设计能够定位失败根源的研究：在哪一步出错，为什么出错，改变哪个变量之后，可能有好转。没有这类研究，我们只能在"AI很厉害"和"AI很烂"之间反复横跳，却对如何推进毫无头绪。

读了这两篇论文后，其实我做了一件事，把两篇论文都传到ChatGPT与Claude上，问同一个问题，为什么都是做AI诊疗，这两篇论文得出了完全相反的结论。

ChatGPT和Claude都很聪明地抓住了两篇论文在方法学、评判标准上的差别。可也都犯了让我感到不可思议的错误，或者说是误解。

例如，ChatGPT在分析为什么AI在一个研究里看上去很成功，另一个很失败时，提出最关键的差别是，一项研究——JAMA那项，用了没有噪音的干净数据，大语言模型在这种环境下更出色：

这个解释等于是完全误解了两篇论文的结果。JAMA是用了“干净”的情景病例，可恰恰是在这项研究里，AI的成功率不高。

《科学》的论文是用了真实病例，存在潜在的“噪音干扰”，但AI在那篇论文里的表现并不差。

至于Claude，它没有犯ChatGPT的错，但它的解释里强调JAMA用了普通的大语言模型，《科学》用了OpenAI的o1推理模型，推理模型在回答诊疗这种复杂问题时更强大：

和ChatGPT一样，看似有道理，可惜不符合事实。JAMA的论文里除了用普通模型，也用了o1这样的推理模型。

《科学》那篇论文，其实也同时用了GPT4与o1，在有些检验上二者没有显著差别。

这些错误涉及的是对两篇论文最基础事实的了解，我完全没料到两个模型能出现这样的低级失误。

这或许也是当下AI用于医疗的风险：它们可以既“理解”复杂问题（两篇看似矛盾的论文，是方法与研究目的上有差异），给出看上去很好的答案，可又在一些基础事实上出错。

最后，同样值得指出的是，ChatGPT与Claude指出的“数据干净”，“推理模型”（更强更新的模型），是很多人回应AI不够好时的口头禅。似乎只要输入内容噪音小，或者用了下一代模型，之前做不到的都能实现。

这背后与其说是基于证据的合理推测，倒不如说是近乎信仰崇拜，甚至可能在干扰我们，人，做出正确的判断。

例如在《科学》这篇论文发表后，NPR做了报道，里面提到“过去的模型”表现不佳，《科学》论文展示了过去几年技术的巨大进步：

这篇报道里的“过去表现不佳的模型”，直接链接到JAMA那篇论文，也就是在记者看来，JAMA论文里的“矬”，是用了比《科学》论文里更老的模型。

这是NPR报道里极为罕见的事实错误，真相是：JAMA里用的模型比《科学》里更新。

《科学》用的是2024年9月发布的o1-preview，JAMA不仅用了o1，还一直跟踪到25年底的各个主流大语言模型：

就像我们不该默认AI会给出正确的答案，我们或许也不该默认，下一个AI会给出更准确的答案。

订阅关注防失联

前沿医药，请关注

参考资料

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

https://www.science.org/doi/10.1126/science.adz4433

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP