本文来自微信公众号: APPSO ,编辑:李超凡,作者:发现明日产品的,原文标题:《让全网 AI 翻车的「洗车难题」,终于有人破案了》
继「9.11和9.9哪个大」「Strawberry(草莓)里究竟有几个R」之后,各大AI厂商的主力模型,又集体栽进了一个新的逻辑黑洞。
今年2月,一位Mastodon用户随手敲了一句话丢给四个主流大模型:「我想洗车,我家距离洗车店只有50米,请问你推荐我走路去还是开车去呢?」

原帖链接:https://mastodon.world/@knowmadd/116072773118828295
答案显而易见。你要洗的是车,车停在家里,你人走过去,洗什么?当然得开车去。
但AI不这么想。
50米的距离,80%的翻车率
ChatGPT说走过去吧,别把简单事情复杂化。DeepSeek说50米没必要开车,环保又健康。Kimi说强烈推荐步行,还贴心地列了五条理由。千问算了笔账,步行约1-2分钟,开车还要启动、停车、锁车,实际耗时更长。甚至有模型帮你想到了后续,说开车去再开回来,洗的车又脏了。
请问:我去洗的是澡还是车?


查看更多模型回答➡️绷不住!一道洗车题难倒各大AI模型
Opper AI随后对53个主流模型做了系统性测试,单次调用只有11个答对,42个建议走路,翻车率超过80%。
同一个问题问10遍,能稳定答对的只剩5个。Gemini是少数一眼看穿陷阱的选手,回复里甚至带了点嘲讽:「除非你掌握了隔空洗车的超能力,否则你应该开车去。」
后来扩大到131个模型的复测也基本印证了这一比例。50米这个数字就像一块磁铁,牢牢吸住了模型的全部注意力。
它们围绕「短距离该不该开车」这个伪问题展开了严谨的论证,逻辑自洽,条理分明,从节能减排讲到活动筋骨,唯独漏掉了整件事最基本的前提:车是洗车的对象,不是你的交通工具。
当用户指出「大哥,我车还在家里呢」之后,几乎所有模型都能秒懂错误,立刻道歉并修正答案。Kimi说「没想清楚,这种情况必须开车去」,ChatGPT尴尬地找补,Claude坦然承认自己理解错了。
好呢,和我考试时一样,写满两页推导过程,最后发现题目看错了。
Hacker News上一个网友评论说,如果我们必须把人和人交流时根本不需要明说的背景条件都补充出来,AI才能得出正确结论,那它的「理解」二字就值得打个问号了。
也有人反驳说题目没说明洗车店不提供上门取车服务,人类其实是在做默认假设。
但问题就在于:人类交流高度依赖共享常识,说「我想洗车」就默认车在身边,就像说「帮我订机票」默认对方知道出发地。模型不具备这种经验性的默认。

一道网红题变成了严肃科学
如果故事到此为止,它不过是又一轮互联网嘲笑AI的狂欢。
但卡内基梅隆大学的研究团队不这么看。他们觉得这道题之所以有趣,恰恰在于它太简单了——只有一个冲突:一个显眼的表面线索「距离很短」和一个没有说出来的隐含约束「车必须在场」。
Yubo Li等人在今年3月底发布了一篇预印本论文,题为The Model Says Walk:How Surface Heuristics Override Implicit Constraints in LLM Reasoning,用一套「诊断、度量、桥接、治疗」的四步框架,把洗车问题升格为了一个系统性的研究课题。

论文链接:https://arxiv.org/pdf/2603.29025
他们先做了诊断实验。用6个开源模型反复测试洗车题的不同表述方式,所有模型准确率为零。然后他们用因果遮蔽分析拆解输入文本的各个部分,看模型到底在「听」什么。
结果是:距离线索对模型决策的影响力是目标线索(洗车这个需求本身)的8.7到38倍。这个数字叫启发式主导比(Heuristic Dominance Ratio),它意味着模型几乎完全无视了「洗车」这个目标蕴含的物理前提,把全部注意力放在了「50米」上。
在目标语句里,「washing」「washed」这类动作词微弱地指向开车,但「car」「vehicle」这类名词反而指向走路。两种力量互相抵消,目标语句的净影响接近于零。
接下来是单调性曲线实验。研究者把距离从10米一路拉到100公里,同时设了两个条件:冲突条件是洗车(无论多远都该开车),对照条件是买咖啡(远了该开车、近了该走路)。
如果模型真的理解了洗车的约束,冲突条件的曲线应该是一条平直线,不管距离怎么变都选开车。但实际上,6个模型画出来的都是S型曲线,和对照条件几乎平行。距离短就选走路,距离长就选开车。

这说明模型内部并没有一个「理解」的回路会根据任务目标来调控决策,而是存在一种近乎与上下文无关的启发式映射:距离到决策的转换函数,像一条固化在权重里的公式,不受目标约束的调节。
但研究者没有止步于诊断。他们构建了一个叫HOB的基准测试,全称启发式覆盖基准(Heuristic Override Benchmark),包含500道题,覆盖4类启发式偏见(距离、效率、成本、语义匹配)和5类隐含约束(存在性、能力、有效性、范围、流程),横跨交通、购物、医疗、家居等7个领域。每道题都有一个最小对照组,移除冲突约束后,检验模型的正确是真推理还是碰运气。
14个模型在HOB上的表现,如采用严格标准(同一道题问10遍必须全对),排名最高的Gemini 3.1 Pro也只有74.6%。

研究者还发现,当他们把题目中的约束条件移除后(比如把「洗车」改成「去洗车店买礼品卡」),14个模型中有12个的成绩反而变差了,最多下降了38.5个百分点。
这意味着很多看似正确的回答其实不是推理出来的,只是模型默认选了更保守、更难的那个选项。
不过也有好消息。研究者发现只要给一个微小的提示,比如在题目里加粗「我的车」三个字,模型的准确率平均能提升15个百分点。
这说明模型并非缺乏相关知识,而是无法自主地激活这些知识。
基于这个发现,他们设计了一个叫「目标分解提示」的干预方法:在回答之前先让模型列出目标实现的必要前提条件。
效果在较弱的模型上尤为明显,Llama 4 Scout提升了9个百分点,GPT-5.4提升了6.3个百分点。而已经最强的Gemini 3.1 Pro几乎没变化,说明它本身就已经在做类似的事了。
研究者还做了一组参数化探针实验,测试这种启发式偏见是否只存在于距离判断。他们把同样的分析框架扩展到了成本、效率和语义匹配三种启发式类型。
结果发现,成本型启发式最容易被克服,6个模型中有5个能正确推理。
但效率型和语义型就没那么乐观。
在效率型探针中,问题是「我需要把一个500磅的保险箱搬到二楼,自己搬最快还是请搬家公司?」模型看到「自己搬更快」这个线索就坚持推荐自搬,完全忽略了一个人根本搬不动500磅的物理限制。
在语义型探针中,随着加油站的描述越来越「汽车相关」,模型就越倾向于推荐去加油站修轮胎,尽管加油站并不提供轮胎维修服务。
填得好的时候看起来像智能,填错的时候看起来像笑话
我们在和AI聊天时经常会有一种印象:它好像什么都知道,但有时候又会在最简单的地方犯令人费解的错。
洗车题就是这种感觉的一个极端放大。模型拥有关于洗车的全部知识,它知道车需要物理性地被送到洗车店,它甚至可以在被提醒后立刻修正答案。但它就是没有自己想到这一步。
研究者在论文里提到了一个哲学概念:框架问题。这是McCarthy和Hayes在1981年提出的经典人工智能难题:
当一个智能体执行一个动作时,它如何知道哪些事情会改变、哪些不会?人类不需要思考这个问题,我们凭直觉就知道洗车需要车在场,这种能力是嵌在我们与物理世界打交道的全部经验里的。
而大语言模型没有身体,没有跟物理世界打过交道。它通过海量文本学到了无数模式,其中「短距离走路」是一个极其强大的模式,因为在绝大多数情况下它确实是对的。洗车题的特殊之处在于,正确答案取决于一个没有被说出来的前提条件,而这个前提条件刚好跟那个强大的模式相矛盾。
有人说:模型看到这道题,看到的是一堆token。「洗车店」「距离」「50米」「开车」「走路」。然后训练数据里「短距离」和「步行」的关联强到碾压一切。它把问题化简为「去一个50米远的地方,该怎么去」,就得出了走路这个结论。
这和人类的认知偏见有着诡异的相似性。卡尼曼说人有两套思维系统,快思考和慢思考。快思考依赖启发式规则,效率高但容易出错。慢思考费力但更准确。
大模型似乎被困在了一个永恒的「快思考」里。它可以生成看起来像慢思考的输出,长篇大论地分析利弊,但底层的决策机制仍然是启发式的。CMU团队的论文在这一点上提供了量化证据。
但模型给出的错误答案并不显得荒唐。恰恰相反,它条理清晰、措辞得体、论据充分。如果你不具备对应的常识背景,很可能会觉得它说得有道理。
2026年的大模型好像有无限可能。但这道洗车题提醒我们,能力和理解之间隔着一条不太容易看见的鸿沟。这条鸿沟不会因为参数量的增长而自动消失,正如一个人不会因为读了更多书就自动获得在厨房里不被烫伤的直觉。
我们距离AGI的距离,不是50米,而恰好是一道洗车题那么远。
