本文来自微信公众号: 复旦管院 ,编辑:徐玉茹,责编:孙睿,作者:张诚,原文标题:《“智能员工”已到岗,企业准备好了吗? | 智能涌见》
从“会聊天”转向“能办事”,多AI智能体协作加速落地
从模型参数规模到能力展示,AI近年来的技术进展令人目不暇接。如果说2025年是AI真正进入各行各业应用的“AI元年”,那么2026年,多智能体(Agent)协作将加速落地,完成以前单智能体做不到的更复杂任务,使得AI赋能管理的范围和深度不断增长。
今年以来,以OpenClaw为代表的一类智能体工具迅速走红,“让AI直接动手做事”成为新的竞争焦点,相关产品与生态持续升温。近期,包括微信在内的平台也开始开放接口,从开发者社区到平台生态,AI智能体正加快走向更具象的现实应用。
生成式AI的突破,让机器具备了理解与表达能力。以ChatGPT为代表的大模型,像一位博学的顾问,能够分析问题、提供建议、生成内容。而Agent的出现,使AI变身超级助手,从“会聊天”转向“能办事”。
在企业应用层面,一个智能体既可以作为被调用的工具存在,也可以作为相对独立的工作单元嵌入流程之中,承担边界清晰的任务职责。在此基础上,Agent正在与结构化的“能力库”结合。
每一个Agent都被清楚地定义:它能做什么、应该做什么、工作逻辑是什么,再把不同Agent的能力模块化、标准化地接入系统,让模型能够自动判断“该由谁来做什么”,而不再依赖专门的人来分配和管理任务。用户只需给出目标,Agent便可在不同应用之间完成流程串联。
许多知识型工作,在流程层面往往体现为一连串有先后顺序的判断、查证、总结与修正。过去这些步骤需要人来驱动,现在可以由多个智能体分工完成,而人只保留关键判断与最终责任。这种变化,将直接影响的是企业中大量白领工作的组织方式。
从企业流程走向日常生活,Agent的执行能力开始在消费端落地。例如近日频登热搜的阿里通义千问AI,就已经将生活服务类Agent嵌入应用体系。用户只需发出一句指令,例如“帮我点一杯奶茶”,系统即可自动完成店铺筛选、订单确认与支付流程,并结合历史偏好进行个性化调整。
02
从堆人力到超级个体,传统专业分工现状将被改变
过去几十年,企业增长往往依赖更细密的岗位拆分与更多的人力投入。复杂任务被拆解为若干环节,由不同角色分别承担,组织通过分工实现效率提升。在AI逐步嵌入业务流程之后,这种以“堆人力”为核心的扩张方式,正在出现新的变量。
大模型的发展,让“以人为中心”的工作方式成为可能。传统创业需要团队协作,以弥补个人在财务、运营等领域的不足;但未来,借助大模型,一个人可能就能扮演多个专业角色。例如,AI可以处理会计、法律文书、市场分析等工作,使创始人能更专注于核心创意与战略、降低创业门槛。
在这样的背景下,分工不会立刻消失,但可能变得不再那样细碎。协调本身,正在成为可以被技术吸收的一部分成本。当个体可以在AI系统的支持下承担更完整的工作单元时,企业结构或许将出现更大的弹性空间。
需要注意的是,一方面,大模型与Agent的发展,让一个人具备了过去需要多个岗位协作才能完成的能力,客观上降低了分工与协同的必要性;但另一方面,历史经验反复表明,新技术并不会自动转化为生产力提升,反而常常因为组织结构等问题而被“浪费”。历史上的蒸汽机、电力、互联网,都是发明之后十年以上,才真正改变企业生产效率。原因在于组织最初往往只是用新技术去替换旧流程,而不是围绕技术特性重构组织方式。
AI同样面临“技术先进、组织滞后”的陷阱。如果它仅被当作写作助手或分析插件使用,带来的只是局部优化;真正的效率红利,来自围绕AI重新设计组织与分工。
03
不止于语言,AI开始尝试“理解世界”
在特定维度,AI早已展现出“超人”般的能力,但从另一个角度看,AI又像“幼童”般存在明显局限:它“思考”本质仅仅是基于数据统计的概率预测,缺乏真正的情感和对世界的深层认知。比如扮演专业人士时进行多轮对话后会偏离原本角色预设;回答问题时会产生“幻觉”,输出看似合理却不符合事实的内容。
这些问题的根源,在于模型主要建立在语言数据之上。语言是对世界的抽象描述,而非世界本身。它天然带有压缩与失真。当模型只通过文本学习世界时,其认知边界也被限制在语言所能表达的范围之内。正因如此,“世界模型”成为近年来人工智能研究的重要方向。与单纯的文本生成不同,世界模型试图让系统通过多模态信息,视觉、听觉、空间动态去刻画环境运行的规律。
从Sora到可灵(Kling),新一代视频生成模型在时间连续性、物体间交互以及对基础物理规律的刻画上不断取得进展,其生成结果开始呈现出更稳定、更连贯的“世界感”。这也促使人们开始重新思考:视频生成是否仍只是内容合成工具,还是有可能进一步演化为可支撑推理、规划与决策的通用世界模拟器。
去年11月,“AI教母”、斯坦福大学教授李飞飞的创业公司World Labs正式推出其首款产品Marble,由多模态世界模型提供支持,该模型能通过单张图片、一段视频或一句文本提示创建高保真、持久的3D世界。在李飞飞看来,世界模型是实现空间智能的关键,是继大语言模型之后,AI下一个十年的核心主线。
在研究和应用层面,这一方向正逐步与具身智能、自动驾驶等领域形成交叉。一方面,这些应用场景对环境理解、长期预测与因果一致性提出了更高要求;另一方面,相关模型在模拟真实世界动态方面的能力,也被视为迈向更通用智能形态的重要基础。也正是在这样的需求推动下,视频生成被越来越多地纳入“世界建模”的讨论框架之中。
从短视频生成到环境模拟,其间仍存在不小距离。但可以看到,围绕视频生成和世界模型的探索,正在从单纯追求视觉效果,转向模型是否真正“理解”了所生成的世界,以及这种理解能在多大程度上支撑后续的推理与决策。这一转向,正在为相关研究与产业应用打开新的想象空间。
*部分图片由AI生成
