本文来自微信公众号: InfoQ ,作者:Jun
1情境智能是大模型发展的必然方向
极客时间:作为"情境智能"这一技术路线的早期提出者,您对"情境智能"是如何定义的?
邱锡鹏:大模型的发展主要有三个可扩展的方向:第一是预训练的规模化,第二是思考时长和推理路径的优化,第三就是输入维度的扩展。我在2025年初的时候提出未来的智能取决于更复杂的"情境(Context)"输入的扩展,由此提出了"情境智能(Context Intelligence)"的概念。这一判断与行业发展趋势高度契合,最近DeepSeek V4论文的题目叫做《Towards Highly Efficient Million-Token Context Intelligence》。也印证了,情境扩展(Context Scaling)是大模型未来的核心演进路径。
无论是OpenAI持续强化多模态能力,还是Anthropic不断提升长上下文理解,本质上都是在向情境智能演进。行业最终都会走向这个方向,这是大模型发展的必然规律。
世界模型也是情境智能体系的核心组成部分。它能搭建和模拟各类泛情境——也就是人类日常生活、工作中与人、事、物相关,深度绑定现实物理世界与人际关系的所有泛在场景。这既为模型提供了可自主探索的环境,也是构建高质量情境数据集的重要途径。
极客时间:一个真正具备情境智能的系统,需要感知和处理哪些维度的信息?
邱锡鹏:从信息种类来看,具备情境智能的系统需要覆盖文本、语音、图像、视频等所有模态,以及用户长期偏好、物理场景、社会语境等多维度外部信息。但更核心的是构建完整的情境处理机制,主要包括五个环节:
感知层:能够接收各类多模态、多来源的原始信息;
表示层:将感知到的信息进行统一编码,转化为模型可处理的格式;
交付层:将编码后的信息高效传递到模型的有效上下文窗口中;
持久化层:通过记忆机制实现信息跨时间周期的存储与调用;
反馈闭环:建立情境评价体系,持续优化模型的情境理解能力。
2全模态统一离散化建模打破多模态割裂瓶颈
邱锡鹏:现实中大量复杂情境无法被语言精准、完整地表达,将非文本信息强行转化为文本的过程中,必然会丢失关键信息,这是"文本优先"架构的天然天花板。以语音交互为例,传统ASR+TTS中转模式的核心瓶颈就是言语化损失:语音中蕴含的情绪、语气、语义关联等丰富信息,在转化为文本的过程中会大量丢失。
"情境智能"与主流"文本优先"技术路径的核心区别体现在两个层面:一是模态维度的扩展,不再局限于文本,而是覆盖语音、图像、视频等全模态信息;二是情境扩展的实现方式,并非单纯拉长输入窗口长度,而是通过"脚手架"式的基础设施,将外部各类信息高效整合进模型的有效上下文窗口,实现真正的情境扩展。
邱锡鹏:Context Scaling带来的算力压力是真实存在的,我们从表示、架构、系统三个层面来消化,而不是做单点优化。
邱锡鹏:主流的多模态方案本质是"桥接式"架构:以大语言模型为核心,分别对接不同模态的编码器和解码器,将各模态的连续向量拼接到文本输入中进行处理。这种方案下模态之间是割裂的,训练和推理效率都会随着模态数量的增加显著降低。
全模态统一架构的核心是"表示统一性":通过离散化技术,将语音、图像、视频等连续信号转化为类似文本的离散符号。这些离散符号可以像文本词元(Token)一样,既作为输入也作为输出,完全复用大语言模型的Next-Token Prediction训练范式,大幅提升了模型的可扩展性和训练效率。
极客时间:有观点认为不同模态有不同的信息结构,强行统一反而会损失效率,您如何回应这一质疑?
3合成管线与世界模型是情境数据的核心来源
先用文本大模型设计多样化的复杂交互场景
将场景转化为对应的图像、语音等多模态数据
对合成的多模态情境进行精细化标注,用于模型训练
极客时间:在情境智能时代,数据的核心价值发生了怎样的变化?行业应该如何构建高质量的情境数据集?
邱锡鹏:数据始终是不同模型之间最核心的差异化来源,对于情境智能而言更是如此。随着模型向复杂情境理解演进,长轨迹、多模态、高复杂度的上下文数据的重要性会愈发关键。各家模型的差距,本质上更多体现在完整的数据加工管线和高质量情境数据的积累上。
构建高质量情境数据集,除了前面提到的数据合成管线,更前沿的方向是构建模拟沙箱和世界模型。通过搭建能够模拟现实物理规律和社会规则的虚拟环境,让模型在其中自主探索和交互,可以高效生成海量、多样化的情境数据,这也是我们未来重点投入的方向。
邱锡鹏:我想可以从三个层面来总结。
