苹果Manzano模型的核心突破在于解决了多模态AI领域长期存在的根本性挑战——图像理解与图像生成任务间的性能冲突。传统模型通常需在二者间取舍:理解任务需提取连续语义特征,而生成任务依赖离散标记序列,导致多数开源模型难以兼顾。苹果指出,这一问题在涉及大量文本的场景(如文档阅读、图表解读)尤为突出,使得现有模型综合表现落后于商业系统[1][2]。
Manzano的解决方案是采用混合视觉标记器(Hybrid Vision Tokenizer)技术,通过共享编码器同时输出两类标记:
- 连续标记(Continuous Tokens):以浮点数形式表达,专为图像理解任务优化
- 离散标记(Discrete Tokens):按固定类别划分,适用于图像生成任务[2]
这种设计使两类表示源自同一语义空间,大幅减少任务冲突。苹果团队在预印本论文中解释:“由于二者共享同一视觉编码器,模型在处理复杂提示时能保持一致性,显著提升了文字密集型任务的表现能力。”[1][2]