2025-9-27

苹果研发多模态AI模型Manzano,具理解与生成能力,媲美GPT-4o和Nano Banana

新闻图片

苹果公司正秘密研发名为Manzano的自研多模态AI大模型,该模型创新性地融合了图像理解与图像生成双重能力,性能测试显示不弱于OpenAI GPT-4o和谷歌的Gemini 2.5 Flash Image Generation(原代号Nano Banana)。据9月27日曝光的预印本论文显示,Manzano采用混合图像分词器技术解决行业长期存在的任务冲突难题,但苹果仍计划在iOS 26中引入OpenAI GPT-5,表明其基础模型整体仍落后于顶尖商业系统。

3 来源
技术突破:破解多模态模型理解与生成的固有矛盾

苹果Manzano模型的核心突破在于解决了多模态AI领域长期存在的根本性挑战——图像理解与图像生成任务间的性能冲突。传统模型通常需在二者间取舍:理解任务需提取连续语义特征,而生成任务依赖离散标记序列,导致多数开源模型难以兼顾。苹果指出,这一问题在涉及大量文本的场景(如文档阅读、图表解读)尤为突出,使得现有模型综合表现落后于商业系统[1][2]

Manzano的解决方案是采用混合视觉标记器(Hybrid Vision Tokenizer)技术,通过共享编码器同时输出两类标记:

  • 连续标记(Continuous Tokens):以浮点数形式表达,专为图像理解任务优化
  • 离散标记(Discrete Tokens):按固定类别划分,适用于图像生成任务[2]

这种设计使两类表示源自同一语义空间,大幅减少任务冲突。苹果团队在预印本论文中解释:“由于二者共享同一视觉编码器,模型在处理复杂提示时能保持一致性,显著提升了文字密集型任务的表现能力。”[1][2]

架构设计与训练规模

Manzano的整体架构采用模块化设计,包含三个核心组件:混合分词器、统一语言模型和独立图像解码器。苹果特别为解码器开发了三个参数规模版本,分别为9亿、17.5亿和35.2亿参数,支持从256像素到2048像素的分辨率范围,展现出良好的可扩展性[1][2]

在训练方法上,Manzano采用三阶段训练策略,处理总量达1.6万亿标记的数据:

  • 初级训练:使用23亿对公开及内部图像-文本样本打基础
  • 进阶训练:补充10亿对文本-图像样本强化双向能力
  • 合成数据增强:整合DALL-E3和ShareGPT-4o生成的合成数据[1][3]

混合分词器中的离散标记生成采用有限标量量化(FSQ)技术,支持64K级大码本,使模型能精细捕捉图像细节。而连续特征则通过空间到通道层(STC)压缩空间维度后,经MLP投影到LLM嵌入空间,确保理解任务的高质量输入[3]

性能表现与行业对比

内部测试显示,Manzano在多项专业基准测试中表现优异,尤其在文字密集型任务上建立优势。在ScienceQA、MMMU和MathVista等评估中,300亿参数版本的Manzano在图表分析和文档理解任务上显著领先,模型性能随参数规模提升而持续改善——30亿参数版本在部分任务中比最小模型高出10分以上[1][2]

与行业领先者对比结果表明:

  • 在图像理解方面,Manzano与OpenAI GPT-4o和谷歌Gemini 2.5 Flash的差距缩小至个位数分值,30亿参数版本差距甚至不到1分
  • 在图像生成测试中,Manzano能执行复杂指令、风格迁移、图像叠加与深度估计等高级任务,接近行业前列水平[1]

苹果特别强调,Manzano在处理"带有数学公式的科学图表"和"多语言文档解析"等复杂场景时展现出独特优势,这得益于其统一架构对文本密集内容的更好处理能力[1][2]

战略意义与市场影响

Manzano的出现标志着苹果在减少对外部AI依赖方面取得实质性进展,但技术文档也揭示了当前局限。尽管模型表现接近顶尖商业系统,苹果仍计划在iOS 26的Apple Intelligence中引入OpenAI GPT-5,表明其自研基础模型整体尚未完全达到行业领先水平[1]

该模型的模块化设计为未来迭代预留空间:各组件可独立更新,允许苹果整合不同研究领域的最佳训练方法。行业分析师认为,Manzano的混合分词器技术可能推动多模态AI发展新方向,尤其为端侧AI应用提供新思路——通过缩小参数规模版本(9亿参数)适配移动设备,同时保留高性能版本用于云端复杂任务[1][2]

长期来看,若Manzano后续版本能持续缩小与GPT-5等顶级模型的差距,将极大增强苹果在AI领域的自主权。但目前预印本论文仅展示低分辨率图像样例,缺乏公开演示,其实际用户体验仍需等待正式发布验证[1][3]

本内容由AI生成