本文来自微信公众号: 智东西 ,作者:陈骏达,编辑:漠影,原文标题:《X平台疯传!这个国产开源模型,把信息图生成整明白了 | 附实测》
今年4月底,GPT-Image 2发布,带动了一波信息图(Infographic)生成热潮。从书籍摘要到商业报告,过去需要设计师才能完成的复杂版面,开始被AI批量生成。“AI信息图”成为近期内容创作领域讨论热度最高的话题之一。
但热潮背后,一个问题随之浮现:GPT-Image 2是闭源的,按Token计费,每百万输出Token高达30美元,对于有本地部署和二次开发需求的团队来说,它并不是一个可以长期依赖的选项。
Hugging Face中国开发者社区工作人员Adina Yakup评价道:“这一模型实现了纯粹的端到端像素-文字建模。”



实际效果究竟如何?我们通过一轮实测,看看这款开源模型能交出怎样的答卷。
01.
七大硬核任务实测:
梳理老黄行程、直出海报与论文
高密度文字渲染已无明显破绽
开发者在X平台讨论SenseNova U1时,反复提到两个核心问题:文字渲染能不能稳?复杂版面能不能控?这也是信息图生成最本质的难点所在。我们把这两个问题放在实测的最前面,先验证基础能力,再延伸到海报、学术文档等更多场景,最后与GPT-Image 2进行横向对比,看两款模型的设计取向究竟有何不同。
(1)还原老黄“特种兵式”访华细节,梳理大模型演进时间线
第一个案例是最近很火的黄仁勋同款行程,老黄先到访了人民大会堂,在北京南锣鼓巷开启特种兵般的行程,吃炸酱面、喝豆汁儿、买蜜雪冰城,还尝了稻香村,随后开启台北之旅。

看完这个轻松的案例,我们又让SenseNova U1信息图增强版打造了一张“LLM Architectures大语言模型架构演进”的横向知识图解。这个案例的难点在于包含大量数据,如何在柱状图中调整110M到1.8T的悬殊比例、让表格内的中英双语参数精准对齐,都是不小的挑战。

(2)生成音乐节与诗歌节海报,审美和准确度都在线
信息图还有一个十分常见的用法,就是海报生成。相比知识图解对数据精度的严苛要求,海报更考验模型对视觉冲击力、排版美学的理解能力。

在诗歌节海报任务中,我们在提示词中强调了“中间留白约占画面40%”以及“呼吸感极强”。模型准确地理解了这些要求,没有因为追求视觉效果而塞入多余装饰,而是严格遵循了克制的原则。

(3)结构化文档生成,直出一页学术论文
最后,我们还考验了SenseNova U1信息图增强版在办公场景的应用。这类场景要求模型能精准理解文档的常见格式要求,并准确渲染所有文字。

第二个案例是生成高密度的论文页面。生成高密度学术论文页面的核心难度在于对复杂视觉元素与严谨逻辑关系的精确控制。提示词中的要求按照arXiv风格进行页面渲染,且需要符合严格的学术排版规范(如斜体、加粗及专有名词标注)。


02.
与GPT-Image 2横向对比
两种不同的设计取向
X平台上有不少网友把SenseNova U1信息图增强版与GPT-Image 2放在一起讨论。我们也做了对照的测试,看看这两个模型在实际任务中有何异同。
我们的首个案例聚焦于当前火爆的分镜生成玩法,要求两个模型分别生成一段跑酷动作序列:在未完工的灰色混凝土建筑内,一名运动员以动作捕捉剪影的形式,完成精准跳跃、墙跑和落地翻滚等一系列连贯动作。
GPT-Image 2先交出了生成结果:

SenseNova U1信息图增强版随后完成了生成:

从视觉质感与逼真度的维度来看,GPT-Image 2生成的光影、材质、环境氛围比较逼真,富有视觉冲击力。SenseNova U1信息图增强版则偏向概念化,强调动作路径和图形化表达。
GPT-Image 2的生成结果在实用性上稍逊一筹。它看起来很酷、很科幻,但缺乏具体的制作指令。
在另一个信息图生成测试中,我们为两个模型输入了同一份复古航海图风格的提示词:要求生成一张横版信息图,以做旧纸张为基底,用虚线航线串联起从“创意萌芽”到“产品上市”的六个阶段岛屿,并标注风险暗礁、资源漩涡等危险标记。GPT-Image 2与SenseNova U1信息图增强版再次展现出不同的设计取向。
GPT-Image 2在航海图任务中延续了艺术化取向,较好地还原了做旧纸张纹理、手绘风格地标与古典装饰元素,整体沉浸感强;但细节繁复,字号较小,阅读效率不高。


综合以上两个实测案例,我们可以清晰看到两款模型在信息图生成领域呈现出的分化。
GPT-Image 2是“视觉派”,擅长通过光影、材质,打造具有冲击力和情绪的视觉作品。但在需要精确拆解逻辑、清晰传递密集信息的场景中,它的生成结果往往过于重视觉而轻信息,导致可读性下降。
03.
回到开发者的问题
架构、部署与真实价值
实测结果回应了X平台上那些讨论的核心判断,但也带来了一些新的问题值得深挖:这款模型为什么能用8B参数做到这些?开发者真正部署时会遇到什么成本?它在哪些场景下是可靠的生产工具,在哪些场景下还需要谨慎?
作为一款仅有8B参数的大模型,尺寸并不是SenseNova U1系列模型唯一的特点。过去,多模态大模型长期受困于“理解”与“生成”的二分——通过视觉编码器(VE)看懂图像,再经由变分自编码器(VAE)生成图像,中间依靠适配器连接。
这种拼接式架构如同一个“讲不同语言的工作组”,信息在模块间来回传递,不仅损耗大,更让模型不得不依赖堆参来弥补性能损失。

这让SenseNova-U1系列模型具有较强的性价比。以GPT-Image 2为代表的主流闭源模型采用按Token计费的模式,每百万输出Token价格高达30美元,生成一张高分辨率信息图的估算成本在0.005美元至0.4美元不等。单张调用似乎不贵,但对于日均生成上千张图像的团队来说,成本压力迅速累积。
04.
结语:统一架构的想象力
远不止信息图
当然,极高密度文字场景下偶发的乱码、视觉质感与GPT-Image 2之间的差距,都是它还在打磨的空间。但一个8B的开源模型,能把这场对话推进到这里,本身已经说明了一件事:统一架构的想象力,远不止信息图。
