AI未来五年将在生成能力、推理技术、Agent应用、数字虚拟人和具身机器人等领域快速发展,重点突破多模态交互与商业落地,但推理能力进展缓慢,需依赖外挂工具提升表现。 ## 1. 生成能力的突破与方向 - **文本与代码生成**:Claude Code等工具已成熟,国产模型在AI写代码领域需提升。 - **视觉与视频生成**:字节的视觉识别和Seedance2.0视频生成技术领先,DeepSeek可能聚焦截图识别等实用场景。 ## 2. 推理技术的瓶颈与优化 - **进展缓慢**:2024年OpenAI的CoT技术推动推理发展,但能力提升依赖外挂工具(如Lean定理器)。 - **Agent辅助突破**:通过意图理解、任务分工和记忆模块,组合外挂能力提升最终表现。 ## 3. Agent的任务协作与扩展能力 - **核心功能**:任务分解/编排、个性化记忆、Skill调用,2025年闭源Manus和2026年开源OpenClaw引发关注。 - **外延能力**:联网搜索、本地软件控制等,但国内缺乏深度研究需求,需优化多轮会话的意图修正。 ## 4. 数字虚拟人的多模态整合 - **技术基础**:视觉生成(如罗永浩形象)、语音合成、Agent技术赋予个性化交互能力。 - **应用场景**:从AI影视扩展到游戏,需强化连贯对话与复杂问题应答。 ## 5. 具身机器人与脑机接口的刚需 - **双脑架构**:DeepSeek-Omni负责决策,宇树机器人小脑优化运动控制,无人机/无人狗或更快落地。 - **脑机接口**:连通生物信号与机械躯干,优先服务聋哑人/残疾人,技术难度极高但需求迫切。
AI未来五年发展路径
2026-04-02 17:02

AI未来五年发展路径

本文来自微信公众号: 阿朱说 ,作者:吕建伟


(1)生成


现在生成都已经渐入佳境:


文本:文本报告生成、代码生成,如Claude Code


语音:语音生成


视频:视频生成,如seedance2.0


我很看好两个方向:AI写代码(主要现在国产模型不争气不给力)、AI视觉(现在字节的视觉识别和视频生成做的很牛)。


传闻DeepSeek选择了多模态。但愿它不是去做:Nano banana、Seedance,而是只做截图识别:前端网站截图进行Coding生成、股票K线截图进行分析说明。


(2)推理


从2024年10月,OpenAI发布基于思维链CoT技术的深度思考,推理开始迅速发展。


2025年2月,国产开源DeepSeek-R1,也把推理普惠到整个中国社会。


不过,总的来说,推理能力的发展是最慢的。


这三年,推理能力并没有得到大的提升,只是从:理论方法(思维链)成熟,到商业产品落地(GPT-o1),到推理速度提高(DeepSeek做了很多内存和GPU的优化)。


大家感觉好像推理能力在进步,其实是外挂工具起的作用(如Lean定理器),而不是推理能力起的作用。


但是AI行业已经投入了太多年、投入了太多钱,人们急切需要一些结果,否则就很难让人继续持续投入很多钱了。


所以现在大家都在聚焦发展Agent,本质就是把现在AI的能力再加上外挂的能力,赶快能做点啥就做点啥,尽快转换为商业成果。


我个人觉得:虽然大模型的推理能力已经难以突破,但是Coding专有大模型能力提升,再加上Agent辅助基础模型提高:意图理解能力-方案规划能力-多Agent任务分工协作能力,再加上Agent的记忆模块和Skill模块,可以使最终结果表现出来的推理能力再提升提升。


(3)Agent


Agent起源于:深度研究:


第一步:经过深度思考,生成深度研究的方案


第二步:连接各个外部系统,采集数据


第三步:AI生成代码,对数据进行加工


第四步:生成研究报告:WORD/PDF/PPT分析报告、EXCEL数据统计、可视化图表


2025年2月,商业闭源Agent Manus发布,引发大家的热议。


2026年2月,免费开源Agent OpenClaw发布,引发大家的热议。


Agent的核心有三个:


1、分解任务-编排任务-指派任务-整合任务,让多Agent分工协作


2、用户个性化记忆


3、调用高手写的Skill/上下文提示工程,可以正确引导大模型产出期望的结果


但是,Agent也扩展了很多外部能力:


1、接入外部数据:在线联网搜索、在线MCP/API调用、存取本地文件系统


2、控制本地浏览器:爬虫、模拟点击、登录/取数、填写表单数据


3、控制本地软件:在提示工程中直接调用软件功能CLI,无须再生成代码调用API


不过我个人感觉:中国没有太多深度研究的需求。


我倒是觉得:基础大模型现在都能提供1M长上下文理解能力,如何利用这些多轮会话中的长上下文,来不断清晰化需求的意图目的、细化以及修正方案。现在Agent走走走就走歪路了,就是不随着多轮会话的信息,来修正自己的意图和方案。


(4)数字虚拟人


视觉生成技术,让数字人拥有了可视化的形象。比如生成罗永浩的形象。


语音技术,让数字人拥有了开口说话、听人说话的能力。比如用罗永浩的声音来说话。


多轮会话技术,让数字人可以与用户连贯对话。


深度思考技术,可以让数字人回答更复杂的问题。


Agent技术,可以让数字人使用个性化记忆/个性化风格/个性化数据来交流。比如用罗永浩平时的知识、习惯用语、思考风格来交流。


现在数字虚拟人主要用于AI影视,以后可以用于AI游戏。


(5)具身机器人


具身机器人有两个脑:


一个大脑,用于深度思考-规划-决策选择


一个小脑,用于控制机械手脚运动


现在,宇树机器人自己的小脑控制机器人的手脚运动已经比去年有很大进步。


传闻,宇树机器人也采用了DeepSeek-Omni进行思考。


不过,如果把这些技术放到无人机无人狗身上,可能爆发的更快。


(6)脑机接口


脑机接口:


一半是人的生物电、脑电波信号,人体的各种传感/感应器官;


一半是机器手脚运动、视觉采集、语音识别/语音合成。


这两者还需要连通在一起,方便残疾人、聋哑人。


脑机接口聚焦做好:人脑和机器的连通。


聋哑人,可以使用AI大脑的:视觉识别能力、语音识别能力/语音合成能力。


残疾人,可以使用具身机器人的小脑:控制机械手脚运动。


这是真正的刚需,比老年人需要具身机器人还刚需。但是,要把人肉人脑和机器躯干机器脑连在一起协同在一起,显然难度非常大。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP