蚂蚁悄悄上线阿里版“ 即梦”,完全基于千问底座,5秒生成4张2k大图,专治AI生图的不可控
2026-01-12 20:24

蚂蚁悄悄上线阿里版“ 即梦”,完全基于千问底座,5秒生成4张2k大图,专治AI生图的不可控

本文来自微信公众号: Z Finance ,作者:ZF编辑部,原文标题:《ZPedia丨蚂蚁悄悄上线阿里版「 即梦」,完全基于千问底座,5秒生成4张2k大图,专治AI生图的不可控》


沉寂许久的蚂蚁,正迎来一场爆发式的深水回归。


2025年底,蚂蚁刚刚在AI领域连落两子。首先是灵光上线,6天斩获200万用户,展露爆款潜质。紧接着,蚂蚁阿福开始了地推模式,从单一医疗问答跨向全场景健康陪伴,正式切入健康陪伴大赛道,并迅速杀入国内AI应用前五。


数据的高光背后,是蚂蚁战略重心的位移。回看四年前,那是蚂蚁最晦暗的时刻。蚂蚁集团资深副总裁陈亮曾将那段日子形容为站在灯光照射不到的角”。但场外的蛰伏并非离场,而是在为这一轮AI周期积蓄势能。蚂蚁的这股猛劲,更像是一场蓄谋已久的反攻。


就在外界还在消化这些密集动作之际,蚂蚁又低调推出了下一张牌:呜哩。多方信息显示,这款产品出自蚂蚁内部新近整合的AGI组织Inclusion AI,目前处于测试阶段。



阿里呜哩是什么?


呜哩将自己定义为AIGC创意生产力平台,核心面向内容创作者/设计师/营销人员/普通创意用户,主打输入描述—快速生成—多场景落地。它覆盖的功能包括图片生成、视频生成、图像编辑,以及配套的灵感联想助手、翻译、资源库等辅助能力。


与通义万相这类偏模型能力展示/体验中心的产品不同,呜哩更强调把生成变成可用素材,也就是把用户最常见的诉求(海报、电商图、3D字体、特效图等)包装成更接近交付的模板化路径。


呜哩背后直接调用了通义千问团队的多款图像和视频相关模型,包含Qwen Image 25.12(图像生成)、Qwen Image Turbo(极速生成)、Qwen Image 25.11(图像编辑)等分工明确的模型组合。


它的产品思路不是单一大模型包打天下,而是更像一套创意流水线:同一个任务在不同阶段用不同模型接力,优先把体验做顺。


功能拆解:以速度与可控性为核心的AI工具组合


1)生成:图片与视频的场景化入口


从生成这一层本身来看,呜哩的产品形态并没有明显跳出当前AIGC产品的主流范式。空白输入框、图片与视频生成、场景模板、提示词辅助,这些功能在同类产品中已较为常见,无论是模型厂商自带的生成工具,还是第三方创意平台,基本都提供了相似的能力组合。就“生成”这一层的功能堆叠而言,呜哩并不存在显著的、肉眼可见的差异化突破。


即便是在模板和联想助手的设计上,呜哩采取的也是相对稳妥的产品路线。通过预置结构和自动补全来降低使用门槛,而不是引入全新的交互范式。这种做法的优势在于学习成本低、上手快,但同时也意味着用户很难仅凭生成体验本身,明确区分呜哩与其他同类产品的差异。对于已经熟悉文生图或文生视频工具的用户来说,呜哩在操作逻辑上的迁移成本接近于零,但惊喜感也相对有限。


然而,真正属于呜哩的暴力美学隐藏在看不见的技术底层,即对极致速度的近乎偏执的押注。Hugging Face上发布的Qwen-Image-2512-Turbo-LoRA揭开了谜底:这套方案宣称在匹配原模型输出质量的同时,实现了20倍以上的生成加速。


这种速度带来的产品变量是革命性的。在呜哩,系统可以做到5秒内生成4张2K分辨率大图。这意味着生成体验从等待开盲盒变成了高频盲选。它允许用户在同一个时间窗口内进行多轮尝试。在功能高度同质化的赛道上,这种极致的吞吐量本身就是一种核心竞争力。


当然,这种加速路径也有代价,为了换取稳定与可用,输出风格会表现得相对保守,更趋向于写实审美。这对于电商图、海报、封面等强调“交付率”的商业场景是巨大的加持,但对于追求强个人风格表达的创作者,这种默认路径未必是第一选择。


实测下来,整体效果还可以。


生成文字的部分,会有一部分错误,整体ok。


在视频生成上,呜哩将时长严格限制在智能生成5秒。从底层文档来看,无论是极速版的万相2.2-flash还是专业版,都整齐划一地指向了5秒这个规格。这种“Flash/Plus”的分层逻辑非常典型:一个版本为速度与成本服务,一个版本为稳定与成功率服务。对于呜哩这种强调快速出素材的入口来说,5秒限制反而是工程上最容易做到稳定的边界条件。


提示词:生成一段5秒的视频,全程单一连续镜头,不剪切。第0–2秒:一台银色笔记本电脑静置在桌面上,冷色灯光,环境安静;第2–4秒:屏幕亮起,代码开始缓慢滚动,光线从冷色过渡到中性;第4–5秒:画面整体变得略微温暖,但构图和镜头保持不变。


提示词:生成一段5秒的视频。第0–3秒:只展示产品本体,不出现任何文字;第3–5秒:在画面右下角淡入中文文字‘全天候健康监测’,字体简洁、白色、小号,不遮挡主体。文字只能在最后2秒出现。


提示词:生成一段5秒的视频,一位工程师在夜晚办公室敲代码。屏幕发出冷色光,环境安静,镜头轻微左右平移,写实风格,整体克制。主体人物比例自然,动作连贯,画面稳定,不夸张、不戏剧化。


2)编辑:把生成从一次性抽奖,推向可控迭代


在设计工具里,编辑往往比生成更能决定长期留存。生成能力在行业内已经趋于同质化,用户换一个入口通常也能得到差不多能看的结果。但一旦进入真实工作流,需求会迅速变成“能不能改得准、改得稳、改完还像原来的那张图”。电商图换背景、海报改文案、人物修手、Logo保持一致,这些任务的共同点是:需要在保留主体的前提下做局部修改,单靠反复重生成很难稳定交付。


呜哩的编辑并不是简单套用文生图能力,而是有专门面向编辑场景的模型底座。Qwen的Qwen-Image-Edit-2511模型卡明确强调其在进行想象式编辑时尽量保持主体身份与视觉特征,并展示了角色一致性增强的方向。多家科技媒体在报道中也将它定义为专门针对图像编辑场景优化,目标是在保持原图主体结构不变的前提下对特定区域做精准修改,并强调指令遵循能力与一致性保持。


实测下来,整体效果处于可用水平。例如在将白色精华产品的背景调整为暖色调时,修改过程较为顺畅,结果也能较好地符合预期。


在添加文字的基本功能上,整体表现较为准确,但在个别情况下仍会出现文字重复或冗余的问题。


在多次文字调整过程中,修改结果整体仍能按指令正确呈现(虽然还是有一些火星字)。但值得注意的是,原本乳白色的背景在反复编辑后出现了材质变化,逐渐呈现出类似大理石的纹理效果。


在当前设计下,图片编辑需要先进入专门的修改模式再进行操作。相比即梦依托上下文直接理解并完成修改的方式,这一流程在操作上略显繁琐。


3)其他功能:灵感和知识库


目前,灵感与知识库相关功能尚未对外开放。基于现有产品定位,可以推断其价值并不应停留在“模板集合”层面。如果呜哩希望向“生产力平台”演进,资源库的核心意义在于资产沉淀与复用能力:将用户生成过的素材、常用风格、品牌色、字体规范以及产品图参考等内容,转化为可持续调用的生产资产,用于后续创作与编辑。


竞品分析:呜哩真正的对手是产品范式


竞品对比上,呜哩同时面临两类压力:一类来自即梦这样的内容生产平台化路线,另一类来自Lovart这样的设计任务Agent化路线。两者的共同点是,竞争焦点都不在单点生成效果,而在工作流与交付形态。


即梦,长在流量航道上的一站式AI片场


即梦最危险的地方在于,它已经完成了从工具到场景的闭环。就在2025年12月,即梦网页版完成了一次降维打击式的升级,正式将定位从生成入口推向了“AI片场”。这次升级的核心是搭载了基于字节自研Seedance 1.5 Pro模型的视频3.5 Pro。物口型、乐器演奏甚至是环境音效都能一次性成型,彻底告别了“AI视频无声、后期配音对不上”的尴尬。


对呜哩而言,即梦的压力是全方位的。首先是心智占领,作为较早规模化推广的工具,即梦在创作者认知中已经与“短视频生产”深度绑定。更关键的是场景优势,即梦背后依托的是字节系生态,抖音和TikTok本身就是内容生产与分发的“第一现场”。创作者对快速出素材、试版本、直接投放的需求高度集中,即梦将生成、编辑、画布、Agent和素材管理无缝嵌入这条生产线,本质上是在增强既有的创作行为,而非重新教育用户。


Lovart不是工具对比,而是交付方式的变化


如果说即梦是靠生态赢,那么Lovart走的就是“设计Agent”的路线。


Lovart并不试图在生成入口上硬碰硬,它核心叙事不是帮你生图,而是帮你完成一次设计任务。在这种逻辑下,生成只是手段,交付才是目标。用户给出的不再是琐碎的Prompt,而是一个抽象的需求描述,比如品牌调性或应用场景,系统则围绕概念、风格、排版和元素进行自动化的方案迭代。


这种Agent化路径的本质是在弱化“素材中转”的存在感。传统的AIGC工具往往需要用户生成素材、人工筛选、再倒腾到第三方软件编辑组合,而Lovart试图把这条链路内化为一个连续的自动化流程。对用户而言,评价标准变了,不再是这张图好不好看,而是这个需求是否已基本完成,是否可以直接拿去用。这一变化抬高了行业预期,让单纯提供生成和基础编辑的工具容易被重新定位为“价值链的中间环节”,而非终点方案。


呜哩可能是在替阿里补上“从模型到交付”的最后一公里


我对呜哩的阶段性判断是:它不是一个孤立的创意工具,而是蚂蚁在组织与战略调整之后,持续把模型能力做成可消费产品的外显信号。


2025年春节后,蚂蚁重新集结资源,成立相对独立的AGI组织Inclusion AI,并被外界描述为Research、Engineering、Product三位一体的组织架构。


这种组织形态在大厂并不常见:研究部门往往负责拓展能力边界,工程部门关注可用性与稳定性,产品部门负责路径设计与增长。当三者被强绑定在同一组织内,最直接的结果是模型能力更容易被快速产品化,而不是停留在论文、榜单或内部demo。Inclusion AI在Hugging Face的组织介绍中也明确表述其为蚂蚁集团的AGI initiative,产出覆盖LLM、强化学习及相关系统。


在战略取舍上,蚂蚁表现得异常清醒:暂时放弃争夺高度拥挤的“通用AI助手”入口,优先抢占更细分、强交付的效率工具赛道。


这背后的逻辑并不复杂:通用助手的入口战已是红海,头部玩家依托底座模型的先发优势,足以把后来者拖入同质化竞争。而效率工具的护城河在于“交付密度”——用户未必需要一个AI每天陪聊,但绝对需要一个工具能帮他节省下半小时的作图或剪辑时间。


这一路径已在“灵光”和“阿福”上得到了验证。它们并不急于讲万能的故事,而是死磕具体能力。比如“灵光”主打30秒生成一个小应用。


在这样的组织与战略背景下,“呜哩”就不再只是“又一个AIGC产品”,而更像Inclusion AI在全模态效率工具这条主线上的自然延伸。它把多模态能力从此前偏重对话与应用生成的形态,进一步推进到视觉创意与设计生产这一更贴近营销、电商与内容生产的场景中。通过生成、编辑与资源化能力的组合,呜哩试图解决的是“普通用户能否更快、更稳定地完成一次可交付的视觉生产任务”。


从这个角度看,呜哩的意义不在于单点功能是否领先,而在于它是否真的把阿里系在视觉模型上的积累,推进到了用户可以反复使用、持续依赖的工作流层面。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP