本文来自微信公众号: 阿朱说 ,作者:吕建伟
(1)生成
现在生成都已经渐入佳境:
文本:文本报告生成、代码生成,如Claude Code
语音:语音生成
视频:视频生成,如seedance2.0
我很看好两个方向:AI写代码(主要现在国产模型不争气不给力)、AI视觉(现在字节的视觉识别和视频生成做的很牛)。
传闻DeepSeek选择了多模态。但愿它不是去做:Nano banana、Seedance,而是只做截图识别:前端网站截图进行Coding生成、股票K线截图进行分析说明。
(2)推理
从2024年10月,OpenAI发布基于思维链CoT技术的深度思考,推理开始迅速发展。
2025年2月,国产开源DeepSeek-R1,也把推理普惠到整个中国社会。
不过,总的来说,推理能力的发展是最慢的。
这三年,推理能力并没有得到大的提升,只是从:理论方法(思维链)成熟,到商业产品落地(GPT-o1),到推理速度提高(DeepSeek做了很多内存和GPU的优化)。
大家感觉好像推理能力在进步,其实是外挂工具起的作用(如Lean定理器),而不是推理能力起的作用。
但是AI行业已经投入了太多年、投入了太多钱,人们急切需要一些结果,否则就很难让人继续持续投入很多钱了。
所以现在大家都在聚焦发展Agent,本质就是把现在AI的能力再加上外挂的能力,赶快能做点啥就做点啥,尽快转换为商业成果。
我个人觉得:虽然大模型的推理能力已经难以突破,但是Coding专有大模型能力提升,再加上Agent辅助基础模型提高:意图理解能力-方案规划能力-多Agent任务分工协作能力,再加上Agent的记忆模块和Skill模块,可以使最终结果表现出来的推理能力再提升提升。
(3)Agent
Agent起源于:深度研究:
第一步:经过深度思考,生成深度研究的方案
第二步:连接各个外部系统,采集数据
第三步:AI生成代码,对数据进行加工
第四步:生成研究报告:WORD/PDF/PPT分析报告、EXCEL数据统计、可视化图表
2025年2月,商业闭源Agent Manus发布,引发大家的热议。
2026年2月,免费开源Agent OpenClaw发布,引发大家的热议。
Agent的核心有三个:
1、分解任务-编排任务-指派任务-整合任务,让多Agent分工协作
2、用户个性化记忆
3、调用高手写的Skill/上下文提示工程,可以正确引导大模型产出期望的结果
但是,Agent也扩展了很多外部能力:
1、接入外部数据:在线联网搜索、在线MCP/API调用、存取本地文件系统
2、控制本地浏览器:爬虫、模拟点击、登录/取数、填写表单数据
3、控制本地软件:在提示工程中直接调用软件功能CLI,无须再生成代码调用API
不过我个人感觉:中国没有太多深度研究的需求。
我倒是觉得:基础大模型现在都能提供1M长上下文理解能力,如何利用这些多轮会话中的长上下文,来不断清晰化需求的意图目的、细化以及修正方案。现在Agent走走走就走歪路了,就是不随着多轮会话的信息,来修正自己的意图和方案。
(4)数字虚拟人
视觉生成技术,让数字人拥有了可视化的形象。比如生成罗永浩的形象。
语音技术,让数字人拥有了开口说话、听人说话的能力。比如用罗永浩的声音来说话。
多轮会话技术,让数字人可以与用户连贯对话。
深度思考技术,可以让数字人回答更复杂的问题。
Agent技术,可以让数字人使用个性化记忆/个性化风格/个性化数据来交流。比如用罗永浩平时的知识、习惯用语、思考风格来交流。
现在数字虚拟人主要用于AI影视,以后可以用于AI游戏。
(5)具身机器人
具身机器人有两个脑:
一个大脑,用于深度思考-规划-决策选择
一个小脑,用于控制机械手脚运动
现在,宇树机器人自己的小脑控制机器人的手脚运动已经比去年有很大进步。
传闻,宇树机器人也采用了DeepSeek-Omni进行思考。
不过,如果把这些技术放到无人机无人狗身上,可能爆发的更快。
(6)脑机接口
脑机接口:
一半是人的生物电、脑电波信号,人体的各种传感/感应器官;
一半是机器手脚运动、视觉采集、语音识别/语音合成。
这两者还需要连通在一起,方便残疾人、聋哑人。
脑机接口聚焦做好:人脑和机器的连通。
聋哑人,可以使用AI大脑的:视觉识别能力、语音识别能力/语音合成能力。
残疾人,可以使用具身机器人的小脑:控制机械手脚运动。
这是真正的刚需,比老年人需要具身机器人还刚需。但是,要把人肉人脑和机器躯干机器脑连在一起协同在一起,显然难度非常大。
