2026-06-22 13:08

MOSS 全模态技术体系全解析：统一离散化建模、推理优化与情境数据构建路径

本文来自微信公众号： InfoQ ，作者：Jun

1情境智能是大模型发展的必然方向

极客时间：作为"情境智能"这一技术路线的早期提出者，您对"情境智能"是如何定义的？

邱锡鹏：大模型的发展主要有三个可扩展的方向：第一是预训练的规模化，第二是思考时长和推理路径的优化，第三就是输入维度的扩展。我在2025年初的时候提出未来的智能取决于更复杂的"情境（Context）"输入的扩展，由此提出了"情境智能（Context Intelligence）"的概念。这一判断与行业发展趋势高度契合，最近DeepSeek V4论文的题目叫做《Towards Highly Efficient Million-Token Context Intelligence》。也印证了，情境扩展（Context Scaling）是大模型未来的核心演进路径。

无论是OpenAI持续强化多模态能力，还是Anthropic不断提升长上下文理解，本质上都是在向情境智能演进。行业最终都会走向这个方向，这是大模型发展的必然规律。

世界模型也是情境智能体系的核心组成部分。它能搭建和模拟各类泛情境——也就是人类日常生活、工作中与人、事、物相关，深度绑定现实物理世界与人际关系的所有泛在场景。这既为模型提供了可自主探索的环境，也是构建高质量情境数据集的重要途径。

极客时间：一个真正具备情境智能的系统，需要感知和处理哪些维度的信息？

邱锡鹏：从信息种类来看，具备情境智能的系统需要覆盖文本、语音、图像、视频等所有模态，以及用户长期偏好、物理场景、社会语境等多维度外部信息。但更核心的是构建完整的情境处理机制，主要包括五个环节：

感知层：能够接收各类多模态、多来源的原始信息；
表示层：将感知到的信息进行统一编码，转化为模型可处理的格式；
交付层：将编码后的信息高效传递到模型的有效上下文窗口中；
持久化层：通过记忆机制实现信息跨时间周期的存储与调用；
反馈闭环：建立情境评价体系，持续优化模型的情境理解能力。

2全模态统一离散化建模打破多模态割裂瓶颈

邱锡鹏：现实中大量复杂情境无法被语言精准、完整地表达，将非文本信息强行转化为文本的过程中，必然会丢失关键信息，这是"文本优先"架构的天然天花板。以语音交互为例，传统ASR+TTS中转模式的核心瓶颈就是言语化损失：语音中蕴含的情绪、语气、语义关联等丰富信息，在转化为文本的过程中会大量丢失。

"情境智能"与主流"文本优先"技术路径的核心区别体现在两个层面：一是模态维度的扩展，不再局限于文本，而是覆盖语音、图像、视频等全模态信息；二是情境扩展的实现方式，并非单纯拉长输入窗口长度，而是通过"脚手架"式的基础设施，将外部各类信息高效整合进模型的有效上下文窗口，实现真正的情境扩展。

邱锡鹏：Context Scaling带来的算力压力是真实存在的，我们从表示、架构、系统三个层面来消化，而不是做单点优化。

邱锡鹏：主流的多模态方案本质是"桥接式"架构：以大语言模型为核心，分别对接不同模态的编码器和解码器，将各模态的连续向量拼接到文本输入中进行处理。这种方案下模态之间是割裂的，训练和推理效率都会随着模态数量的增加显著降低。

全模态统一架构的核心是"表示统一性"：通过离散化技术，将语音、图像、视频等连续信号转化为类似文本的离散符号。这些离散符号可以像文本词元（Token）一样，既作为输入也作为输出，完全复用大语言模型的Next-Token Prediction训练范式，大幅提升了模型的可扩展性和训练效率。

极客时间：有观点认为不同模态有不同的信息结构，强行统一反而会损失效率，您如何回应这一质疑？

3合成管线与世界模型是情境数据的核心来源

先用文本大模型设计多样化的复杂交互场景
将场景转化为对应的图像、语音等多模态数据
对合成的多模态情境进行精细化标注，用于模型训练

极客时间：在情境智能时代，数据的核心价值发生了怎样的变化？行业应该如何构建高质量的情境数据集？

邱锡鹏：数据始终是不同模型之间最核心的差异化来源，对于情境智能而言更是如此。随着模型向复杂情境理解演进，长轨迹、多模态、高复杂度的上下文数据的重要性会愈发关键。各家模型的差距，本质上更多体现在完整的数据加工管线和高质量情境数据的积累上。

构建高质量情境数据集，除了前面提到的数据合成管线，更前沿的方向是构建模拟沙箱和世界模型。通过搭建能够模拟现实物理规律和社会规则的虚拟环境，让模型在其中自主探索和交互，可以高效生成海量、多样化的情境数据，这也是我们未来重点投入的方向。

邱锡鹏：我想可以从三个层面来总结。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定