OpenAI发布GPT-Image-2,以99%文字准确率和4096×4096分辨率颠覆图像生成领域,其精确渲染能力同时带来虚假信息风险,引发技术伦理担忧。 ## 1. 技术突破:全维度碾压的行业标杆 - **榜单统治力**:以史上最大分差登顶Image Arena排行榜,Elo评分呈现"clean sweep"全榜第一态势 - **核心参数**:最高4096×4096分辨率,文字渲染准确率从90-95%跃至99%,生成速度提升100%,单张成本仅$0.006-$0.211 - **模式创新**:Thinking模式集成推理/网页搜索,可生成8张风格一致图片,角色一致性达商用标准 ## 2. 应用场景:从创意玩具到生产基础设施 - **文字革命**:精准生成历史地图图例、餐厅菜单等需文字严谨的场景,VentureBeat评价"seemingly flawlessly" - **商业落地**:美妆博主单条prompt生成完整品牌kit(logo/配色/多页应用),TechCrunch验证菜单"可直接投入餐厅使用" - **效率跃迁**:YouTube缩略图生成被评价为"endgame",UI截图、信息图表等场景实现端到端自动化 ## 3. 架构革新:三层能力构建技术护城河 - **单次推理架构**:摒弃传统两阶段生成,实现语言理解与图像生成的同步处理("边理解边画") - **自检机制**:Thinking模式具备构图规划、输出检查、迭代修正能力,@damianplayer解析为"reasoning mid-generation" - **知识升级**:训练数据侧重真实世界素材(UI/招牌/界面),输出摆脱关键词拼贴,呈现可信视觉表达 ## 4. 伦理危机:精确渲染成为双刃剑 - **虚假信息风险**:Jake Handy警告模型最核心能力(文字+可信视觉)正是制造假法庭文件/Bloomberg终端的完美工具 - **防伪失效**:传统AI图的"文字错误"防伪标记消失,C2PA元数据水印被官方承认非"silver bullet"(易被截图/压缩破坏) - **行业定性**:StartupFortune指出模型从"creative novelty"转变为"production infrastructure",同时强调实验室数据与真实场景的潜在差距
GPT-Image-2 :随意做出可作为“证据”的图片,强到让人恐慌
2026-04-22 08:56

GPT-Image-2 :随意做出可作为“证据”的图片,强到让人恐慌

本文来自微信公众号: 硅星GenAI ,作者:猫猫头


这是4月21日GPT-Image-2在Image Arena Text-to-Image排行榜上领先第二名的Elo分差。Arena官方用了一个词:clean sweep——全榜第一,没有例外。



OpenAI在这天正式发布了GPT-Image-2。面向所有ChatGPT用户,API预计5月初跟进。核心参数:最高4096×4096分辨率,生成速度比前代快一倍,文字渲染准确率从前代的90-95%跳到约99%。定价每百万token$8-$30,折合单张图片$0.006-$0.211。


模型分两种模式。Instant是快出图,所有人可用;Thinking模式集成推理和网页搜索,单次最多生成8张风格一致的图片——但锁在Plus及以上付费层级。


只看参数,这像一次常规迭代。但Arena创始人@ml_angelopoulos看完Arena榜单后说了一句话:"literally broke the chart——有史以来最大的差距。"



差距背后是一个积攒了三年的问题终于被正面回应了。AI图像生成最大的笑话,一直是文字。


DALL-E 3拼不对复杂单词,Midjourney把招牌写成乱码,Stable Diffusion在海报上输出鬼画符。文字渲染是生图模型的"手指问题"——不是不重要,而是一做就露馅。99%的准确率如果成立,AI生成的海报、菜单、UI截图、品牌物料第一次可以跳过人工修正,直接交付。


生图模型的能力边界,正在从"视觉"扩展到"信息"。


1


案例:它到底能做什么


发布当天,社区反应几乎是即时的。


文字渲染是发布当天被验证最多的能力。VentureBeat的Carl Franzen让模型生成阿兹特克、玛雅和印加三大帝国版图的历史地图,附完整图例。地图准确、图例完全可读,他用的词是"seemingly flawlessly"。



TechCrunch的Amanda Silberling让模型生成一份墨西哥餐厅菜单——两年前DALL-E 3拼不对"enchilada",这次的输出"可以直接放进餐厅使用,客人不会察觉任何异样"。



Thumio创始人@corbin_braun连发几串thread,做了更直觉的对比:把Google Pro 3和GPT Image 2的缩略图生成结果并排放出来。他的结论一个词:"insane。"同一天他还连发数条帖,称这是"YouTube thumbnail endgame"。



文字之外,角色一致性是另一个被反复提到的点。OpenAI演示了从一张自拍生成三页漫画的工作流,角色在多页间保持一致。美妆博主@jameygannon把这个能力拉进了商业场景:一条prompt生成一整套品牌kit——logo、配色、排版、多页应用。




值得注意的是,这些测试全部发生在发布后几小时内,来自不同人、不同场景、不同诉求。没有人在精心挑选最佳输出。


2


技术拆解:为什么这次不一样


架构重写。GPT-Image-2不再基于GPT-4o的图像pipeline。研究负责人Boyuan Chen将其定义为"GPT for images"——一个从头设计的独立系统。社区测试者在4月初Arena泄露阶段(模型以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三个代号出现)就注意到变化:从两阶段生成转向单次推理。


用一个类比:过去的模型是"先听懂你说什么,再动手画",中间有一次信息压缩;GPT-Image-2是"边理解边画",语言理解和图像生成在同一过程中完成。所以文字渲染终于准了——生成每个像素时,模型仍然"知道"自己在写什么字。


Thinking模式。开启后,模型在落笔前先规划构图,生成后检查输出,发现错误还会迭代修正。anti gamble创始人@damianplayer的拆解:"reasoning mid-generation——plans the composition,checks its own output。"推理集成还让模型可以在生成过程中调用网页搜索、将文档转化为视觉图表、在8张图片间维持角色一致性。


世界知识的飞跃。训练数据明显偏向真实世界的视觉素材:UI截图、店面招牌、界面布局。当你要求生成"普通工程师的屏幕",它输出的是可信的显示器画面,不是关键词拼贴。@Yuchenj_UW试用后的判断很直接:"It is really good.OpenAI is finally leading the image gen again。"


架构决定了它能"读懂"文字,Thinking让它能"检查"文字,世界知识让它知道文字应该"长什么样"。三层能力叠在一起,文字渲染从短板变成了长板。


3


人类必须严肃对待这样的以假乱真能力


StartupFortune在发布日给了一个定位:从"creative novelty"到"production infrastructure"。品牌mockup、广告设计、信息图表,过去因为文字不可靠而必须人工介入的场景,开始变成一条prompt可以交付的工作流。


不过StartupFortune自己也加了一句谨慎的提醒:"benchmark performance and production performance often diverge。"99%是实验室数字,真实世界的多语言、多字体、多排版场景能不能hold住,5月API开放后才会有答案。


我们更关心的是另一个问题。



Jake Handy在发布日的Substack技术拆解中写了当天最尖锐的一段:让GPT-Image-2成为最好生产力工具的那组能力——精确的文字渲染、可信的UI布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。


假UI截图、假Bloomberg终端、假法庭文件、假Slack对话,"every one of those is dense text laid over a known visual vocabulary,which is the exact workload OpenAI optimized for。"("这些中的每一个都是在已知视觉词汇之上叠加的密集文本,而这正是OpenAI所优化的工作负载。)


这个观察之所以刺眼,是因为它不是在说模型有什么"副作用",它在说模型最被赞美的那个能力——把文字精确地嵌入可信的视觉场景——本身就是双刃的。


过去的生图模型因为文字太烂,反而天然带有一层"防伪标记":一眼就能看出是AI做的。GPT-Image-2把这层天然屏障拆掉了。


OpenAI的应对是C2PA元数据水印和溯源分类器。image-2 lauch的直播中,产品负责人Adele Li在发布会上自己承认,元数据"is not a silver bullet"——截图、裁剪、平台压缩,任何一步都让水印失效。



Jake Handy给出的定性我们认为是准确的:"The model is an excellent problem。"


AI图像生成确实进入了"文字时代"。但文字可信这件事,在人类的媒介史上,从来就不只是一个技术问题。


这也许才是那个“强到不应该公开发布”的模型,今天之后,每个人都有了随意生成曾经都会被认作事实证据的图片,信息的判断变得前所未有的难,这个强到离谱的模型会在未来很长一段时间给人们带来恐慌,我们会看到因此而产生的各种冲突和讨论,人类必须一起严肃应对这种以假乱真的能力了。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定