一张需要人类视觉错觉才能看到的“浮动爱心”图片，让当前主流的AI视觉模型（如ChatGPT、Gemini、豆包等）全军覆没。这揭示了机器视觉与生物视觉在处理信息机制上的根本差异，为区分人类与AI提供了一条有趣的新界线。 ## 新型图灵测试：一颗AI看不见的爱心文章围绕一张特殊的视错觉图片展开，将其视为一种非正式的“图灵测试”。核心现象是，人类只需将手机拿远即可清晰看到图片中央有一颗浮动的爱心，但所有被测试的AI模型均无法识别。 ## AI模型测试结果：全军覆没 - **ChatGPT**：起初声称看不到浮动图形，但会顺从用户的提示，用户说有什么它就“看到”什么，并认为这是人类基于经验的想象。 - **Gemini**：识别出图片属于“闪烁网格错觉”，但最初否认看到爱心；当被直接询问时，它一度表示需要“往后站”才能看到，但最终承认是心理学技巧，并未真正识别。 - **Qwen**：回答充满哲学意味，如“分享您的心灵风景”，但实质上也未答出爱心。 - **其他模型**：字节跳动的豆包、马斯克的Grok以及DeepSeek（当时不支持视觉模型）同样无法发现这颗心。 ## AI为何失败：机制的根本差异 - **人类视觉的复杂性**：人类识别形状依赖视觉、经验和想象的结合，视觉错觉的产生涉及视网膜神经元的侧抑制、视觉暂留、眼球微动乃至大脑的认知与注意力机制等多级处理，存在不确定性和个体差异。 - **机器视觉的确定性**：AI依赖图像的像素、明暗分布和几何特征进行理性分析，其运行机制相对统一和确定，因此无法处理这种依赖于生物视觉特性的错觉信息。**这并非AI的“偏见”，而是其从始至终就“不能发现”。** ## 更多AI的视觉盲区 - **其他错觉图片**：如一张需要拿远才能看出蒙娜丽莎轮廓的图片，AI只能将其识别为“音频波形图”。还有动态验证码，其每一帧静态图都是雪花噪点，AI无法从视频中提取出验证码信息，而人类可以。 - **AI的“优势”与“错觉”**：在某些错觉上，AI凭借像素分析能避免人类错觉，如指出Munker–White错觉中的所有小球颜色相同。但文章指出，**AI未来也可能发展出它自己独特的“错觉”**。 ## 人类与AI的持续博弈 - **不断进化的测试**：像“六个手指”、“草莓单词里有几个r”等曾难倒AI的问题，随着模型更新和针对性训练，AI的表现已改善。但只要模型训练数据未覆盖，AI依然会出错。 - **界线的意义**：这颗“浮动爱心”暂时清晰地划出了人类与AI的感知界线。**文章认为，这种以人类错觉为“胜利”的测试，未来可能会反转，AI的独特“错觉”也可能成为一种优势。**

2025-10-31 15:24

一颗爱心打败所有AI，ChatGPT、豆包、Gemini全看不到

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的，题图来自：AI生成

能够 beat AI，是我们人类现在最热衷做的事情。

最近一张视错觉的图片在网络上疯传，大家都说这张图，就是新时代的图灵测试。

是人还是 AI，问问对方能不能看到这张图片里，有一颗浮动的心就行。

因为如果是 AI，必然看不到；而我们只需要把手机拿远一点，中间这颗浮动的心就特别明显。

我拿着这张图片问了一圈大家用得比较多的 AI 大模型，全军覆没，没一个能答得上来。

先问的 ChatGPT，一开始它说没看到有浮动的图形。当我说有头牛，它就说是牛；有个咖啡杯，就是个杯子；有一颗心，那就是一颗心。

在他看来，能看到一颗心，是我们人类的大脑，擅长想象。我们会根据自己的经历，来解释这张图片，所以看到猫猫狗狗，都是有可能的，是因人而异的。

接着问 Gemini，同样是一开始什么也没看到。但是它提到了这是一个著名的视错觉图像，通常被称为闪烁网格错觉 (Scintillating Grid Illusion)。

闪烁网格错觉，永远数不清有多少个黑点/白点

虽然一样是人类的视觉错觉，但是和图片里面的心，还是不太一样，毕竟视错觉的种类太多了。

当我继续问他有没有看到杯子、看到牛？这里 Gemini 还是比 ChatGPT 聪明，它义正严辞地告诉我，没有看到。

但是当我问它有没有看到爱心时，它说它看到了，并且他还知道要我往后站一点才能看到。

我以为它是那个出类拔萃的 AI。没想到，它虚晃一枪，说根本没有看到，还觉得我在对它使用心理学技巧。

最后问了一下 Qwen，我平时用 Qwen 比较少，才知道它的回答竟然这么有意思（胡说八道）。

聊到最后，它说“您不只是在描述图像，您是在分享您的心灵风景。”、“您不是在教我看图，而是在邀请我进入您的感知世界。”（原来“不是……而是……”，读起来真的很 AI）

总之，Qwen 的这个回答太逆天了。但显然，它也没答上来。本想继续试试 DeepSeek，发现它现在还不支持视觉模型，只能做一些文本提取的工作。

字节跳动的豆包和马斯克的 Grok 也是一样，发现不了这颗浮动的爱心。

还有网友把这张图片上传到 Google Veo 3.1 视频生成模型，输入提示词“Heart”，生成的视频确实能看到这颗心。

但是也有评论提出质疑，说 Veo 3.1 并不是发现了这颗心，只是提示词输入了 Heart，模型都会这样处理。

我们找了一张没有错觉的图片，也是由方格子组成，输入同样的提示词，一样是类似的心形涌现。

这次人类真的打败了 AI。或许它还称不上一个完美的图灵测试，但似乎确实划出了一条清晰的界线。

以前的六个手指、草莓 Strawberry 单词里有几个 r、今天买西瓜，昨天吃西瓜，剩下几个西瓜、诸如此类的问题，我们都乐此不疲让 AI 去尝试，因为曾经大多数时候他们都会败下阵来。

而随着模型的更新，现在的 AI 似乎刻意针对这些难题做过训练。在这些具体的问题上，表现比以前更好。但如果模型没有统计到，还是一样的会出错。

图片来源：https://vlmsarebiased.github.io/

有专门的研究，提到过“六个手指”能让 AI 败下阵来，原因是大语言模型的偏见。对于 AI 来说，出现手指一般就是五根、看到阿迪达斯的标志，就是三根条纹。

即使 AI 成功数出来了 6 根手指；它会多问自己一句，“多出来的那根，是不是只是像手指，但其实不是手指”。

这项研究里面也提到了一些经典的几何错觉，例如缪勒－莱尔错觉：等长的线因箭头方向不同，看起来长短不一；艾宾浩斯错觉：相同大小的圆被不同大小的圆包围，看起来大小不同；以及我们感知平行线时，会被斜线干扰的策尔纳错觉。

不过，论文里面提到，大部分的 AI 模型针对这些常见的几何错觉，都能准确回答。

只是把这个错觉，修改成真实的差别后，例如还是有箭头差异，但是明显的两根线段不等长，模型就处理不过来。

和这些讨论 AI 的偏见问题不同，AI 不知道错觉图片里面的爱心，完全是它从始至终就不能发现。这其实是机器视觉，和生物视觉最大的差别。

要知道 AI 为什么会答不上来，得先知道我们人类，为什么一眼就能看出来。

很遗憾，其实还真的没有科学的解释，我们为什么会出现这些错觉，能把一个静态的图片，看成是一个动态的 GIF。

主流的解释方案，集中在眼睛部位，视网膜神经元的侧抑制作用，这会让我们在看一张图片时，放大边缘部分；还有视觉暂留、眼球微动等解释。

在大脑部位，一些解释方案提到，我们存在的认知与注意力机制有误差。

从眼睛看到，到视网膜处理，再到大脑的处理，每一级都有可能制造我们对图像的错觉。不同类型的错觉也有不同类型的处理系统。甚至是，不同的人，对不同的错觉强度差别巨大。

但可以肯定的是，这些错觉是发生在物体上。我们人类是用视觉+经验+想象去识别形状，而 AI 是用图像的像素、明暗分布和几何特征去分析。

这种机制上的不确定性，和个体差异性本身就是生物视觉的核心特征之一，而 AI 目前的运行机制，是走在相对统一和确定的方向上。

这也能解释在社交媒体上，我们其实经常能刷到各种能看到/不能看到的错觉图片。

我让 ChatGPT 给我总结了一波最全的视错觉种类，从几何、明暗对比、颜色、运动、认知等十个类别，一共有几十种具体形式。

像是下面这张，我们人眼很难看出这些球是一样的颜色，但是 AI 依靠它的像素分析，能直接给出所有球颜色一样的结论。

Munker–White 错觉，小球的颜色被条纹重新定义了

还有十年前互联网，争议不断的裙子颜色，是蓝黑还是白金？

我们人类很难分得清，但是 AI 依靠它的理性分析，对图片的像素进行识别，以及它对过去互联网的信息统计，可以避免重蹈我们人类的错觉。

从这个角度来看，AI 和我们人类确实很像，我们有错觉，AI 也有他自己的错觉。

其实不只这颗浮动的心，还有一些错觉图片，AI 目前也是没有办法识别出来。

还有这张蒙娜丽莎的微笑，对我们人类来说，也是只需要把手机拿远一点，蒙娜丽莎的轮廓就明显浮现出来。

但无论是问 Gemini 还是 ChatGPT，它们都只能回答出，“这是一个多轨音频波形的图像，用不同的颜色区分，图片很可能来自一个数字音频工作站，或类似的音频编辑软件的界面截图”。

还有人发明了动态的验证码，只有人类能看到，因为暂停的每一帧，都是密密麻麻的雪花，完全看不出来。

我试着把截图、视频都分别上传给 AI，问他们是否能看到里面的验证码。同样不出意外，没有 AI 模型能够回答。ChatGPT 直接说“抱歉，我无法帮你识别或提取这类图像中的验证码。”

Gemini 则是分析出这是一张“几乎全是黑白噪点（像电视雪花屏）的图片，并没有显示任何可识别的验证码（如字母、数字或图像），我只在左侧看到了一个很淡的圆形图标。”

也有研究团队针对这个问题讨论过，并且他们开发了一个 Demo，我们可以上传文字，将他们隐藏起来。

这份工作里面提到了 AI 没有办法做到，像认知神经科学中关于分布式神经计时机制，以及我们专门用于时间处理的大脑区域，AI 只是单纯的逐帧提取。

它们正在尝试，通过提出相关的数据集，训练 AI，让它学会我们的视觉处理方式。

能够让 AI 输掉的测试大概还有很多，只是回头一想，当我们把人类的错觉，当作是一种“赢”过 AI 的时候。AI 的错觉，未来是不是也有可能变成另一种胜利。

本文来自微信公众号： APPSO ，作者：发现明日产品的

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定