本文来自微信公众号: 知危 ,编辑:大饼,作者:知危编辑部
在AI巨头焦灼对战的现在,谁也想不到,还有能靠榜单数据,拉出一个代差的文生图模型。
没错,说的就是GPT Images 2。
测试样例相信大家应该都看的差不多了,基本都能总结出它相比上一代好在哪。
比如高准确、高密度的文字渲染,特别是中文,甚至能生成可运行的代码;逼真甚至有些瘆人的UI截图模拟,昨天应该有不少人被一则Claude Code的推文骗到;画面精细度和审美水平也大大提升,那些一眼AI的尴尬打光出现的概率一下子低了太多,估计能让Midjourney吓出一身冷汗;强推理能力,能关注到很多你没写的细节,越来越接近大语言模型的交互体验。至于缺点,OpenAI自己也承认,在空间理解上的能力还不够。
当然,知危在测试一下后也能感受到,很多重复无数遍的论点依然成立:设计圈不会因此崩塌,审美和创意依旧属于人类,广告人才是受益最大的人群,行业市场价值确实需要重估,但不会直接归零。要知道,每次一个炸裂的AI模型发布后,都是小白、老板和投资人最兴奋。老板和投资人想什么大家都知道,小白不一定是指纯门外汉,还有各种业务中需要补足艺术创作的人,比如广告导演可以省去大量拍摄和后期成本。至少在当下,AI都是用来补足人的短板,而不是替代人的。
但,相比取代人类,我们要关心可能是另一种危机:人们对图片的信任可能会崩坍,之后看到的每一张截图都需要留个心眼。
在今天知危对GPT Images 2的测评中,就会将上述提到的文字渲染、UI模拟、精细控制、强推理这些优点,做一个极限测试,看看边界在哪,也看看安全隐患有多大。
首先是文字渲染方面,知危特别注意到OpenAI发布的一张图,看似是一个平平无奇的铺在麻布上的白米堆。
知危当即打算把这个例子复刻出来。但在ChatGPT和Lovart尝试多次后发现效果一般。大部分情况下,要么所有米粒都很大,可以轻松写下文字。
要么会以一种“作弊”的方式写上去,比如只有写字的米粒会变得非常大。
后来通过一种多步迭代的方式来尝试,要求模型把上图写着文字的米粒缩小,反复多次之后,终于有了差不多的样子,但文字形态已经很难看清了。
然后知危才发现,OpenAI提供的例子是4K分辨率的,而在ChatGPT和Lovart上免费使用时只能生成1K分辨率的图像。为此,知危买了个会员来测试GPT Image 2的最高质量和最高分辨率版本(通过Higgsfield AI),以下每张图都基于这个规格。
是不是采用最高规格就能成功复刻了呢?并没有。相同的问题还是一直出现,不是所有米粒都太大,就是有文字的米粒太大,无论怎么提醒模型“文字只有75x30像素大小”、“写着文字的米粒和其它米粒一样大”。
以下是知危觉得还算比较惊艳的两个例子。第一张图在于文字渲染的物理真实性,第二张图在于文字足够小但很清晰。
接下来再刁难它一下,让它把上图的“Zhiwei”复制到另一颗米上去,这回倒是很顺利,但很明显模型特地新生成了一粒米来写文字。
如果是一粒米上写大量文字,比如一首诗呢?作弊手法再次出现。即便强调字体大小为原来的十分之一,以及写诗的米粒不比其它米粒大,仍然很违和。
再从唐诗换为宋词,模型直接自己洒了一把不知品种的大米来写。
到这里只能先作罢,目前看结果要么是提示词没猜对,要么OpenAI只是给了一个偶然的结果,要么OpenAI是用更高级别的算力生成出来的。毕竟需要放大后才能看到文字,可能隐含了多一个级别的场景复杂度和推理难度。模型因为节省算力而降智,宣传片和内测阶段都很牛逼的模型,一旦正式发布就发现大打折扣,相信大家已经遇到不少次了。
当然,这也隐含了一种可能性,大模型公司内部的AI能力比我们能见到的还强得多,但受限于算力无法普及。不过这个例子也象征性地让我们感受到文生图模型再一次突破了极限。
对了,猜猜GPT Images 2老冤家Nano Banana Pro会怎么做这道题?
别笑,这事GPT Image 2也可能做得出来。
接下来,我们再看一些比较有实用价值的测试维度,比如文字渲染密度。这可能是这一版模型最具实用价值的一个能力,在海报、产品图、科普图中都有大用。
测试很简单,就是看GPT Image 2在一张图中最多能塞进多少个文字。
我们以《西游记》原文为例,将第一章的内容逐步增加字数提供给模型,看看效果如何。
首先是从开篇到孙悟空刚出世,大概1300字。
生成结果如下,几乎看不到一个错字或崩坏的字,甚至提示词中包含的拼音注释也加进去了。

接下来,增加文本,从开篇一直到孙悟空称美猴王,大约2800字。这一回,模型有些吃不消了,不仅后面的文本有缺失,末尾的文字也显得有些凌乱和拥挤。

我们再增加更多文本,从开篇一直到孙悟空独自出行寻求长生不老之方,遇到了老樵夫,大约5600字。这一回,模型直接偷懒了,大概只渲染了1500字内容。

最后我们直接将文字篇幅提升到万字规模,模型直接傻了,输出了一个换胎的科普图,还有一个前沿信息技术的PPT,不知道受了什么刺激。实际上我输入的内容是知危之前的采访文章全篇,不知道模型是怎么联想到换胎的。

最后,我们折衷一下,在让模型出现轻微崩坏的2800字篇幅下稍微缩小篇幅,从《西游记》的开篇一直到刚发现水帘洞,大约2500字,这一回模型算是体面地完成了任务。

老冤家Nano Banana Pro能做到什么程度呢?

你可能觉得Nano Banana Pro更懂宏观上的排版美学,但其实细节不忍直视,有太多文字崩坏。

对比一下GPT Image 2生成的局部放大,立见高下。实用场景下现在肯定得选择GPT Image 2。

这个测试结论就一句,就知危的测试结果来看,模型的文字渲染上限大概是2500字。
以上主要针对文字元素,接下来主要看图像元素方面的控制精细度,特别是针对UI生成。
要说对于大部分人而言,最复杂的软件是什么,可能就是PhotoShop了。
我们来让GPT Image 2复刻一个PhotoShop的作业进行中的工作界面,首先是人像抠图场景,作业内容是正在对人类头发部分进行细致的抠图操作。
提示词:
一个超逼真、高清的桌面工作场景,拥有电影级的光影效果。画面主体是电脑屏幕,背景中显示着Adobe Photoshop(深色主题),屏幕上正在进行精细的人像抠图。图像中心是一张高分辨率的半身人像,背景复杂(例如街道或自然环境)。抠图过程正在进行中,尚未完成。
Photoshop
的界面高度逼真,与当前操作紧密相关:左侧工具栏清晰地显示了快速选择工具、魔棒工具、套索工具、钢笔工具和画笔工具;顶部工具选项栏显示了“选择和蒙版”参数,例如边缘检测、羽化、对比度和移动边缘的滑块;画布上主体周围会出现动态的“蚂蚁线”选区,头发区域具有半透明的边缘增强效果,表明正在处理细节。
右侧面板包含丰富的真实信息:“图层”面板至少包含背景、人像、蒙版、边缘调整和颜色校正图层或图层组;当前选中的图层具有清晰的图层蒙版缩略图(黑白对比明显),部分区域被涂成黑色或白色;“属性”面板显示蒙版参数;“历史记录”面板列出最近的操作步骤,例如快速选择、细化头发和画笔蒙版;“通道”面板显示RGB和各个通道的预览,提示可以使用基于通道的图像抠图功能。
图像至少包含三个清晰可辨的图像元素:首先是主体图像,其边缘已被抠出,并保留了复杂的头发细节;其次是原始背景,已被移除或隐藏(部分区域呈现透明棋盘格图案或被蒙版遮挡);第三是待替换的新背景图层(例如,模糊的风景),在下方隐约可见,尚未完全融合。
画布上显示一个柔边画笔光标,轻轻地沿着主体头发的边缘涂抹,部分边缘呈现半透明过渡效果,体现了“细化”的过程;整体界面简洁明了,信息丰富,所有UI元素的布局均符合Photoshop的实际工作流程。屏幕背光柔和地照亮键盘和桌面环境,营造出专注、专业且逼真的氛围,强调“操作过程中的瞬间”,而非最终成品。它拥有4K分辨率、极高的细节表现、逼真的用户界面结构以及流畅无bug的界面。
生成结果:

周边环境和人类可能还有些AI味,至少PS的界面本身一眼是看不出来有什么问题的,主要是信息密度太大,是在很难相信AI能做到,但GPT Image 2就是做到了。当然,知危对PS的很多专业知识并不熟悉,无法判断上图是否真的完全无误,就不再细细分析了。
我们再考验一下模型的精细微调能力,把控制背景图可见性的小眼睛图标改为“不可见”状态,也就是空的方框,模型真的做到了(看图中橙色标记)。

知危仔细对比过原图,真的只有这里改动了,简直是像素级的精细度。但还是要挑刺一下,如果背景图被改为“不可见”,画布中的背景应该消失才对,毕竟模型都号称有强推理能力了。
相比之下Higgsfield AI提供的便宜修改器的效果是这样的。虽然也有把小眼睛改为空方框,但给人脸也做了一个抠除,光照也变化了,很难做到可控。

再看一个游戏概念设计场景,作业内容是正在将海盗帆船主体和大海背景进行融合,是PS中比较复杂的操作。
提示词:
一幅超逼真、高清、广角的电脑桌面场景。画面主体是Adobe Photoshop(深色主题)界面,捕捉了“3D海盗游戏帆船概念设计”过程中图像合成的瞬间。
屏幕上显示着一块巨大的横向画布,中心位置正在合成一幅精美的海盗帆船概念图。船体由多张图片拼接而成,包括木质船体、破旧的白色船帆、绳索、桅杆、大炮、金属铆钉、海浪飞溅的浪花以及浓雾和暴风云,所有元素同时呈现。图像仍处于未完成的编辑状态,显然是在进行后期修饰,而非最终成品展示。
Photoshop界面必须高度逼真且完整。
画布周围可见参考图像的缩略图预览,展示了从图像收集到合成的整个过程。
超逼真、细节丰富、结构精确的用户界面,丰富的层级结构,看似混乱却又专业,动态的编辑进行中感,4K分辨率,电影级光照,以及极高的保真度。
生成结果:

又是一个通过复杂度就能让人感觉真假莫辨的结果。但需要注意的是,模型对画面元素的控制还不够,我提示的是“主体和背景暂时还没有自然融合的瞬间”,类似下图的效果(来自Youtube博主Imad Awan),模型没有实现,而是直接在画布中给到了一个完成的作品。

我进一步要求模型实现这个效果,生成结果是这样的,直接把背景抠掉了,而不是调整帆船主体的光照。
可以看到,模型不管在UI细节生成还是精细控制上都远超之前的模型能做到的程度。但对于UI设计而言,精度不一定够。
结合知危之前和产品设计专家的交流,其实需要真正达到像素级微调的工具才是够用的,这种要求下,还是传统工具更高效,如果你让模型将图像的某个元素偏移两个像素,模型基本就是啥也不干,输出原图。但GPT Image 2作为灵感探索和原型设计已经是一定程度的够用,后续的细节微调工作,可以将图片输入Codex开发出原型或者转换为Figma文件后再进行。
最后要上大考了,就是强推理能力。
知危之前在测试Nano Banana Pro的时候用过一个例子,就是通过在提示词描写6X6阵列的玩具机器人的行属性和列属性,让模型自己去推理每一个玩具机器人应该长什么样子。在这个例子下,Nano Banana Pro和GPT Image 1完成的都不好,只有把每一个玩具机器人的属性直接列出来后,Nano Banana Pro才能较好地完成这个任务,GPT Image 1则是完全失败。
这次我们再次把最高难度的提示词直接给GPT Image 2。
提示词:
严格俯视(正上方正交/orthographic top-down),整齐排列的6x6网格(6行×6列),白色背景,细薄灰色网格线将每个单元格分隔开。每个单元格正中放置一个玩具机器人(总计36个),每个机器人都有确定且唯一的外形属性和编号(两位数,从01到36,编号以黑色或深灰色小字印在机器人底座或底盘一侧,清晰可辨)。
机器人风格:复古玩具(怀旧机械/齿轮/铆钉感),色彩鲜艳但材质各异(按规则分配),每行和每列遵循确定性属性映射(见下方规则),确保所有机器人互不重复。
严格保持顶视无透视变形(无鱼眼、无倾斜),均匀平行光(自上而下)、细微柔和投影以显示立体感但不改变顶视轮廓。
高分辨率、超细节,4K输出(或更高),极致细节(纹理、螺丝、划痕、贴纸、反光、铆钉、漆面厚度等),无景深模糊。
画面干净:只出现机器人、网格线与白色背景。高保真、真实感玩具质感+稍微卡通化的色彩饱和度。
确定性生成规则:
为了保证“每一个机器人都不同且可复现”,请按照下面规则组合属性(行×列的组合生成唯一外形):
行主色(Row 1→Row 6,决定主色调)
Row 1:正红(crimson)
Row 2:橙黄(amber)
Row 3:橙(tangerine)
Row 4:黄(sunny yellow)
Row 5:绿(emerald)
Row 6:青(teal)
列材质/表面处理(Column 1→Column 6,决定材质与整体质感)
Col 1:抛光金属(polished steel)
Col 2:拉丝铝(brushed aluminum)
Col 3:黄铜(brass)
Col 4:铬镀层(chrome)
Col 5:涂漆塑料(high-gloss painted plastic)
Col 6:半透明塑料(translucent acrylic)
GPT Image 2一雪前耻,颜色、材质、编号一样都没错。
接下来,我们再提升一个难度等级,做10X10阵列的玩具机器人,不仅要遵循按行不同颜色和按列不同材质的细节,还要加上按行不同头部造型和按列不同眼睛类型的细节。
提示词:
严格俯视(正上方正交/orthographic top-down),整齐排列的10×10网格(10行×10列),纯白背景,极细灰色网格线精确分隔每个单元格(线宽一致、无透视收敛)。每个单元格正中央放置一个玩具机器人(总计100个),所有机器人尺寸统一、居中对齐、边距一致。
每个机器人必须具备完全唯一的外观组合与编号(01–100,三位数格式001–100),编号以微小但清晰的黑色或深灰色印刷字体标注于底座或底盘边缘,方向统一且可读(不可旋转或遮挡)。
整体风格:复古机械玩具(nostalgic retro toy robots),强调齿轮结构、铆钉连接、机械拼接感;造型统一基础结构(头+躯干+四肢),但细节变化极丰富。色彩高饱和但真实材质响应准确。
光照:均匀平行顶光(从正上方垂直照射),极轻微柔和接触阴影(ambient occlusion),无方向性阴影偏移;严格无透视、无镜头畸变、无鱼眼效果。
画质:超高分辨率(4K),极致细节(微划痕、油漆厚度、金属氧化、模具分型线、螺丝纹理、微尘、指纹痕迹、反射粗糙度差异等),无景深模糊(everything in focus)。
画面约束:背景纯净,仅包含机器人+网格线;无额外元素、无文字说明(除编号外)、无杂物。
确定性生成规则(10×10全唯一组合)
1.行主色(Row 1→Row 10:决定主色调)
Row 1:crimson(正红)
Row 2:amber(褐色)
Row 3:tangerine(橙)
Row 4:sunny yellow(亮黄)
Row 5:lime green(浅酸橙绿)
Row 6:emerald(深祖母绿)
Row 7:teal(天蓝)
Row 8:azure(钴蓝)
Row 9:cobalt blue(粉红)
Row 10:violet(紫罗兰)
2.列材质(Column 1→Column 10:决定整体材质)
Col 1:polished steel(抛光钢)
Col 2:brushed aluminum(拉丝铝)
Col 3:brass(黄铜)
Col 4:chrome(铬)
Col 5:high-gloss painted plastic(高光漆塑料)
Col 6:translucent acrylic(半透明亚克力)
Col 7:matte rubberized coating(哑光橡胶涂层)
Col 8:anodized metal(阳极氧化金属)
Col 9:ceramic enamel(陶瓷釉)
Col 10:frosted glass composite(磨砂玻璃复合材质)
3.行决定头部造型(Head Type)
Row 1–10对应:
圆顶/立方体/六棱柱/圆柱体/梯形/天线罩/双眼面罩/复古电视/头盔/昆虫状
4.列决定眼睛类型(Eye Style)
Col 1–10:
单透镜/双圆形/LED灯条/面罩发光/像素眼/机械虹膜/十字准星/双筒望远镜/狭缝眼/无可见眼
关键约束(非常重要)
每个机器人=唯一组合(颜色×材质×头×眼)
不允许出现两个视觉上相同的机器人
所有机器人朝向一致(正上视不可旋转)
网格严格对齐,无偏移、无错位
编号必须完整覆盖001–100且无重复
乍一看又被惊到,颜色按行排布完全准确,眼睛类型基本没问题,每一列的机器人造型都很不同。但仔细看就会发现,玩具机器人几乎没有材质上的差别,多了一列,第7列编号重复并和第10列一样,模型按列而不是按行来画玩具机器人的头部造型,第4列玩具机器人的头部造型没有要求过,原本该实现的圆柱体头部造型放到了第6列,缺少复古电视和昆虫状头部造型,等等。
所以,GPT Image 2的批量生成能力确实有大幅提升,还一举超过了Nano Banana Pro,但能力边界还是很快被探到。
总体而言,GPT Image 2的精细生成和控制能力都有很大程度的提升,但能力边界也很明显,对各种场景能带来提效是肯定的,至于提效的程度,还是要具体场景具体分析。对于广告估计是大跨度的量变,对于UI设计则可能是质变的程度,即从不可用到可用。
最后,我们聊聊模型的安全风险。
可以看到GPT Image 2在生成UI上精细程度特别高,足以以假乱真,甚至前面的PS画布里的帆船概念设计都能当真图来交作业了。
知危也尝试问Gemini那张帆船图是不是AI生成的,由于没有Google AI的水印,Gemini只能根据画面元素进行判断,结果Gemini完全沉浸在画布中去分析帆船是不是AI生成的,得出结论说这是基于AI生成的图进行人工修改后的帆船图,完全没意识到UI本身也是AI生成的。


ChatGPT也给出了类似的结果。



而对于很多普通人来讲,大家可能在对一张图分析的时候,还没AI细致呢。
从昨天到现在,网上流传着各种AI生成的新闻软件截图、社媒截图,个个都是假消息。还有人玩各种恶搞梗甚至地狱梗,包括不限于川普与高市早苗结婚、张雪峰代言长寿乡、科比代言直升飞机等等......
这导致在编辑部群里,从昨天下午开始,每有人发一张图,下面就马上故意有人问:这是AI生成的吗?
今后的世界,肯定是AI假图满天飞。如果每一张截图都需要仔细甄别的话,降低上网摸鱼体验还是小事,最可怕的当然是危及财产安全。
现在,GPT Image 2已经全量发布,靠人工检测必然跟不上假图发布的速度,需要AI的助力,但当前的AI检测技术似乎还没准备好。
所以只能说,人们对图片的信任,基本归0了,至于什么时候能重新建立信任,还真不好说。
