苹果研发多模态AI模型Manzano，具理解与生成能力，媲美GPT-4o和Nano Banana

苹果公司正秘密研发名为Manzano的自研多模态AI大模型，该模型创新性地融合了图像理解与图像生成双重能力，性能测试显示不弱于OpenAI GPT-4o和谷歌的Gemini 2.5 Flash Image Generation（原代号Nano Banana）。据9月27日曝光的预印本论文显示，Manzano采用混合图像分词器技术解决行业长期存在的任务冲突难题，但苹果仍计划在iOS 26中引入OpenAI GPT-5，表明其基础模型整体仍落后于顶尖商业系统。

3 来源

技术突破：破解多模态模型理解与生成的固有矛盾

苹果Manzano模型的核心突破在于解决了多模态AI领域长期存在的根本性挑战——图像理解与图像生成任务间的性能冲突。传统模型通常需在二者间取舍：理解任务需提取连续语义特征，而生成任务依赖离散标记序列，导致多数开源模型难以兼顾。苹果指出，这一问题在涉及大量文本的场景（如文档阅读、图表解读）尤为突出，使得现有模型综合表现落后于商业系统[1][2]。

Manzano的解决方案是采用混合视觉标记器（Hybrid Vision Tokenizer）技术，通过共享编码器同时输出两类标记：

连续标记（Continuous Tokens）：以浮点数形式表达，专为图像理解任务优化
离散标记（Discrete Tokens）：按固定类别划分，适用于图像生成任务[2]

这种设计使两类表示源自同一语义空间，大幅减少任务冲突。苹果团队在预印本论文中解释：“由于二者共享同一视觉编码器，模型在处理复杂提示时能保持一致性，显著提升了文字密集型任务的表现能力。”[1][2]

2 来源

架构设计与训练规模

Manzano的整体架构采用模块化设计，包含三个核心组件：混合分词器、统一语言模型和独立图像解码器。苹果特别为解码器开发了三个参数规模版本，分别为9亿、17.5亿和35.2亿参数，支持从256像素到2048像素的分辨率范围，展现出良好的可扩展性[1][2]。

在训练方法上，Manzano采用三阶段训练策略，处理总量达1.6万亿标记的数据：

初级训练：使用23亿对公开及内部图像-文本样本打基础
进阶训练：补充10亿对文本-图像样本强化双向能力
合成数据增强：整合DALL-E3和ShareGPT-4o生成的合成数据[1][3]

混合分词器中的离散标记生成采用有限标量量化（FSQ）技术，支持64K级大码本，使模型能精细捕捉图像细节。而连续特征则通过空间到通道层（STC）压缩空间维度后，经MLP投影到LLM嵌入空间，确保理解任务的高质量输入[3]。

3 来源

性能表现与行业对比

内部测试显示，Manzano在多项专业基准测试中表现优异，尤其在文字密集型任务上建立优势。在ScienceQA、MMMU和MathVista等评估中，300亿参数版本的Manzano在图表分析和文档理解任务上显著领先，模型性能随参数规模提升而持续改善——30亿参数版本在部分任务中比最小模型高出10分以上[1][2]。

与行业领先者对比结果表明：

在图像理解方面，Manzano与OpenAI GPT-4o和谷歌Gemini 2.5 Flash的差距缩小至个位数分值，30亿参数版本差距甚至不到1分
在图像生成测试中，Manzano能执行复杂指令、风格迁移、图像叠加与深度估计等高级任务，接近行业前列水平[1]

苹果特别强调，Manzano在处理"带有数学公式的科学图表"和"多语言文档解析"等复杂场景时展现出独特优势，这得益于其统一架构对文本密集内容的更好处理能力[1][2]。

2 来源

战略意义与市场影响

Manzano的出现标志着苹果在减少对外部AI依赖方面取得实质性进展，但技术文档也揭示了当前局限。尽管模型表现接近顶尖商业系统，苹果仍计划在iOS 26的Apple Intelligence中引入OpenAI GPT-5，表明其自研基础模型整体尚未完全达到行业领先水平[1]。

该模型的模块化设计为未来迭代预留空间：各组件可独立更新，允许苹果整合不同研究领域的最佳训练方法。行业分析师认为，Manzano的混合分词器技术可能推动多模态AI发展新方向，尤其为端侧AI应用提供新思路——通过缩小参数规模版本（9亿参数）适配移动设备，同时保留高性能版本用于云端复杂任务[1][2]。

长期来看，若Manzano后续版本能持续缩小与GPT-5等顶级模型的差距，将极大增强苹果在AI领域的自主权。但目前预印本论文仅展示低分辨率图像样例，缺乏公开演示，其实际用户体验仍需等待正式发布验证[1][3]。

3 来源

本内容由AI生成