一张需要人类视觉错觉才能看到的“浮动爱心”图片,让当前主流的AI视觉模型(如ChatGPT、Gemini、豆包等)全军覆没。这揭示了机器视觉与生物视觉在处理信息机制上的根本差异,为区分人类与AI提供了一条有趣的新界线。 ## 新型图灵测试:一颗AI看不见的爱心 文章围绕一张特殊的视错觉图片展开,将其视为一种非正式的“图灵测试”。核心现象是,人类只需将手机拿远即可清晰看到图片中央有一颗浮动的爱心,但所有被测试的AI模型均无法识别。 ## AI模型测试结果:全军覆没 - **ChatGPT**:起初声称看不到浮动图形,但会顺从用户的提示,用户说有什么它就“看到”什么,并认为这是人类基于经验的想象。 - **Gemini**:识别出图片属于“闪烁网格错觉”,但最初否认看到爱心;当被直接询问时,它一度表示需要“往后站”才能看到,但最终承认是心理学技巧,并未真正识别。 - **Qwen**:回答充满哲学意味,如“分享您的心灵风景”,但实质上也未答出爱心。 - **其他模型**:字节跳动的豆包、马斯克的Grok以及DeepSeek(当时不支持视觉模型)同样无法发现这颗心。 ## AI为何失败:机制的根本差异 - **人类视觉的复杂性**:人类识别形状依赖视觉、经验和想象的结合,视觉错觉的产生涉及视网膜神经元的侧抑制、视觉暂留、眼球微动乃至大脑的认知与注意力机制等多级处理,存在不确定性和个体差异。 - **机器视觉的确定性**:AI依赖图像的像素、明暗分布和几何特征进行理性分析,其运行机制相对统一和确定,因此无法处理这种依赖于生物视觉特性的错觉信息。**这并非AI的“偏见”,而是其从始至终就“不能发现”。** ## 更多AI的视觉盲区 - **其他错觉图片**:如一张需要拿远才能看出蒙娜丽莎轮廓的图片,AI只能将其识别为“音频波形图”。还有动态验证码,其每一帧静态图都是雪花噪点,AI无法从视频中提取出验证码信息,而人类可以。 - **AI的“优势”与“错觉”**:在某些错觉上,AI凭借像素分析能避免人类错觉,如指出Munker–White错觉中的所有小球颜色相同。但文章指出,**AI未来也可能发展出它自己独特的“错觉”**。 ## 人类与AI的持续博弈 - **不断进化的测试**:像“六个手指”、“草莓单词里有几个r”等曾难倒AI的问题,随着模型更新和针对性训练,AI的表现已改善。但只要模型训练数据未覆盖,AI依然会出错。 - **界线的意义**:这颗“浮动爱心”暂时清晰地划出了人类与AI的感知界线。**文章认为,这种以人类错觉为“胜利”的测试,未来可能会反转,AI的独特“错觉”也可能成为一种优势。**
一颗爱心打败所有AI,ChatGPT、豆包、Gemini全看不到
2025-10-31 15:24

一颗爱心打败所有AI,ChatGPT、豆包、Gemini全看不到

本文来自微信公众号: APPSO ,作者:发现明日产品的,题图来自:AI生成


能够 beat AI,是我们人类现在最热衷做的事情。


最近一张视错觉的图片在网络上疯传,大家都说这张图,就是新时代的图灵测试。



是人还是 AI,问问对方能不能看到这张图片里,有一颗浮动的心就行。


因为如果是 AI,必然看不到;而我们只需要把手机拿远一点,中间这颗浮动的心就特别明显。


我拿着这张图片问了一圈大家用得比较多的 AI 大模型,全军覆没,没一个能答得上来。


先问的 ChatGPT,一开始它说没看到有浮动的图形。当我说有头牛,它就说是牛;有个咖啡杯,就是个杯子;有一颗心,那就是一颗心。


在他看来,能看到一颗心,是我们人类的大脑,擅长想象。我们会根据自己的经历,来解释这张图片,所以看到猫猫狗狗,都是有可能的,是因人而异的。



接着问 Gemini,同样是一开始什么也没看到。但是它提到了这是一个著名的视错觉图像,通常被称为闪烁网格错觉 (Scintillating Grid Illusion)


闪烁网格错觉,永远数不清有多少个黑点/白点


虽然一样是人类的视觉错觉,但是和图片里面的心,还是不太一样,毕竟视错觉的种类太多了。


当我继续问他有没有看到杯子、看到牛?这里 Gemini 还是比 ChatGPT 聪明,它义正严辞地告诉我,没有看到。



但是当我问它有没有看到爱心时,它说它看到了,并且他还知道要我往后站一点才能看到。


我以为它是那个出类拔萃的 AI。没想到,它虚晃一枪,说根本没有看到,还觉得我在对它使用心理学技巧。



最后问了一下 Qwen,我平时用 Qwen 比较少,才知道它的回答竟然这么有意思(胡说八道)


聊到最后,它说“您不只是在描述图像,您是在分享您的心灵风景。”、“您不是在教我看图,而是在邀请我进入您的感知世界。”(原来“不是……而是……”,读起来真的很 AI)




总之,Qwen 的这个回答太逆天了。但显然,它也没答上来。本想继续试试 DeepSeek,发现它现在还不支持视觉模型,只能做一些文本提取的工作。


字节跳动的豆包和马斯克的 Grok 也是一样,发现不了这颗浮动的爱心。




还有网友把这张图片上传到 Google Veo 3.1 视频生成模型,输入提示词“Heart”,生成的视频确实能看到这颗心。



但是也有评论提出质疑,说 Veo 3.1 并不是发现了这颗心,只是提示词输入了 Heart,模型都会这样处理。


我们找了一张没有错觉的图片,也是由方格子组成,输入同样的提示词,一样是类似的心形涌现。



这次人类真的打败了 AI。或许它还称不上一个完美的图灵测试,但似乎确实划出了一条清晰的界线。


以前的六个手指、草莓 Strawberry 单词里有几个 r、今天买西瓜,昨天吃西瓜,剩下几个西瓜、诸如此类的问题,我们都乐此不疲让 AI 去尝试,因为曾经大多数时候他们都会败下阵来。


而随着模型的更新,现在的 AI 似乎刻意针对这些难题做过训练。在这些具体的问题上,表现比以前更好。但如果模型没有统计到,还是一样的会出错。


图片来源:https://vlmsarebiased.github.io/


有专门的研究,提到过“六个手指”能让 AI 败下阵来,原因是大语言模型的偏见。对于 AI 来说,出现手指一般就是五根、看到阿迪达斯的标志,就是三根条纹。


即使 AI 成功数出来了 6 根手指;它会多问自己一句,“多出来的那根,是不是只是像手指,但其实不是手指”。


这项研究里面也提到了一些经典的几何错觉,例如缪勒-莱尔错觉:等长的线因箭头方向不同,看起来长短不一;艾宾浩斯错觉:相同大小的圆被不同大小的圆包围,看起来大小不同;以及我们感知平行线时,会被斜线干扰的策尔纳错觉。


不过,论文里面提到,大部分的 AI 模型针对这些常见的几何错觉,都能准确回答。



只是把这个错觉,修改成真实的差别后,例如还是有箭头差异,但是明显的两根线段不等长,模型就处理不过来。


和这些讨论 AI 的偏见问题不同,AI 不知道错觉图片里面的爱心,完全是它从始至终就不能发现。这其实是机器视觉,和生物视觉最大的差别。


要知道 AI 为什么会答不上来,得先知道我们人类,为什么一眼就能看出来。


很遗憾,其实还真的没有科学的解释,我们为什么会出现这些错觉,能把一个静态的图片,看成是一个动态的 GIF。


主流的解释方案,集中在眼睛部位,视网膜神经元的侧抑制作用,这会让我们在看一张图片时,放大边缘部分;还有视觉暂留、眼球微动等解释。


在大脑部位,一些解释方案提到,我们存在的认知与注意力机制有误差。



从眼睛看到,到视网膜处理,再到大脑的处理,每一级都有可能制造我们对图像的错觉。不同类型的错觉也有不同类型的处理系统。甚至是,不同的人,对不同的错觉强度差别巨大。


但可以肯定的是,这些错觉是发生在物体上。我们人类是用视觉+经验+想象去识别形状,而 AI 是用图像的像素、明暗分布和几何特征去分析。


这种机制上的不确定性,和个体差异性本身就是生物视觉的核心特征之一,而 AI 目前的运行机制,是走在相对统一和确定的方向上。


这也能解释在社交媒体上,我们其实经常能刷到各种能看到/不能看到的错觉图片。


我让 ChatGPT 给我总结了一波最全的视错觉种类,从几何、明暗对比、颜色、运动、认知等十个类别,一共有几十种具体形式。


像是下面这张,我们人眼很难看出这些球是一样的颜色,但是 AI 依靠它的像素分析,能直接给出所有球颜色一样的结论。



Munker–White 错觉,小球的颜色被条纹重新定义了


还有十年前互联网,争议不断的裙子颜色,是蓝黑还是白金?



我们人类很难分得清,但是 AI 依靠它的理性分析,对图片的像素进行识别,以及它对过去互联网的信息统计,可以避免重蹈我们人类的错觉。


从这个角度来看,AI 和我们人类确实很像,我们有错觉,AI 也有他自己的错觉。


其实不只这颗浮动的心,还有一些错觉图片,AI 目前也是没有办法识别出来。



还有这张蒙娜丽莎的微笑,对我们人类来说,也是只需要把手机拿远一点,蒙娜丽莎的轮廓就明显浮现出来。


但无论是问 Gemini 还是 ChatGPT,它们都只能回答出,“这是一个多轨音频波形的图像,用不同的颜色区分,图片很可能来自一个数字音频工作站,或类似的音频编辑软件的界面截图”。


还有人发明了动态的验证码,只有人类能看到,因为暂停的每一帧,都是密密麻麻的雪花,完全看不出来。


我试着把截图、视频都分别上传给 AI,问他们是否能看到里面的验证码。同样不出意外,没有 AI 模型能够回答。ChatGPT 直接说“抱歉,我无法帮你识别或提取这类图像中的验证码。”


Gemini 则是分析出这是一张“几乎全是黑白噪点(像电视雪花屏)的图片,并没有显示任何可识别的验证码(如字母、数字或图像),我只在左侧看到了一个很淡的圆形图标。”


也有研究团队针对这个问题讨论过,并且他们开发了一个 Demo,我们可以上传文字,将他们隐藏起来。


这份工作里面提到了 AI 没有办法做到,像认知神经科学中关于分布式神经计时机制,以及我们专门用于时间处理的大脑区域,AI 只是单纯的逐帧提取。


它们正在尝试,通过提出相关的数据集,训练 AI,让它学会我们的视觉处理方式。



能够让 AI 输掉的测试大概还有很多,只是回头一想,当我们把人类的错觉,当作是一种“赢”过 AI 的时候。AI 的错觉,未来是不是也有可能变成另一种胜利。


本文来自微信公众号: APPSO ,作者:发现明日产品的

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定