Agent技术通过工具调用和模型规划能力的结合，正在解决传统工作流无法覆盖的长尾需求，尽管存在成本高、稳定性不足的问题，但其泛化能力和演进趋势使其成为AI应用的重要突破方向。 ## 1. Agent技术的演进历程 - **Function Calling奠定基础**：2023年OpenAI正式提出Function Calling，成为工具调用的业界标准，使Agent开发更加顺滑。 - **模型能力提升**：2025年模型推理能力和上下文长度大幅增强，工具调用准确率提升至90%+，解决了早期Agent表现不佳的问题。 - **Skills技术补足**：Claude的Skills技术进一步优化工具识别能力，结合上下文工程显著提升了Agent的实用性。 ## 2. ReAct架构与规划能力 - **多轮调优提升规划**：ReAct框架通过思考-行动-观察循环，模仿六顶思考帽的视角切换，让模型在自问自答中逐步完善解决方案。 - **代价与收益平衡**：虽然多轮循环增加Token消耗，但显著提升了规划的全面性和可复盘性，尤其适用于复杂决策场景。 ## 3. Agent vs. 传统工作流 - **长尾问题解决能力**：传统工作流覆盖80%需求需10个流程，覆盖90%则需1000个，而Agent通过有限Tools+模型规划能以更低成本覆盖更多场景。 - **泛化能力突破**：以Todolist为例，Agent通过文本提取、内容加工等通用工具组合，灵活应对选题、客户需求等多样意图，无需为每个场景单独设计流程。 ## 4. 争议与未来展望 - **两极评价的现实基础**：反对派指出通用Agent缺乏行业深度（如Manus无专业数据/工具链），支持派则强调其工具调用效率代表先进生产力。 - **结构性取舍的必然性**：Agent以时间/成本/稳定性为代价换取长尾覆盖，当前技术条件下尚无更优解，RLI基准测试中Manus的持续领先印证其设计合理性。 - **演进方向明确**：张涛提出Agent将向通用工具平台、伴随式服务演进，2025年成为从"对话奇迹"转向"行动伙伴"的关键节点。

2025-12-16 08:41

ReAct、FC、MCP、Skills 一路演进，Agent 到底是不是垃圾？

叶小钗

本文来自微信公众号：叶小钗，作者：叶小钗

这篇文章源于我近半年关于Agent（去除敏感信息）的生产实践，也源于近一年和各个团队关于Agent的一些交流，包括我对类Manus项目的一些困惑。

就当前来说，存在两个截然相反的声音： Agent就是未来，其他技术都过时了VS Agent（Manus）没有用，不解决实际问题 。

以下几乎是原话摘录：

Agent支持派

AI开发变化太快了，上半年的经验，在下半年已经不适用了

去年Dify、n8n牛逼哄哄的，今年agent模型流行后，新开发的项目都是agent自主规划了，已经没人考虑Dify、n8n这种落后的思路了

事实就是新的Agent比旧的工作流效果好太多了

......

Agent反对派

《几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？》

Manus自始至今，从产品角度而言，思路是完全失败的。

它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成，也没有与高价值业务场景的绑定，也就是任何人都能做。所以，它更偏向工程能力的延伸，而不是在构建场景护城河

用户会发现，当他们遇到真正复杂的问题时，这个通用Agent还是帮不上忙，最终不得不转向专业的垂直产品或人工服务，导致用户留存率不高

...

总结下来就一句话： 有人觉得Agent已经无所不能，代表当前先进生产力了、也有人认为Agent撒也不是，谁都能做，毫无壁垒，费Token还不解决实际问题 。

怎么说呢，过于悲观和过于乐观的认知都是错误的，他直接导致的结果就是各个公司乱投入或者不投入；

而我这边近3年全部在做AI相关工作，前前后后接触了40多家公司，做了25个AI项目（花钱多的过2亿、花钱少的不到10万），在Agent这块有些个人心得，我们今天就来系统性的探讨下：

Agent这东西到底先进到哪，以及他到底能不能解决实际问题 ？

unsetunset为什么25年是Agent元年unsetunset

首先，Agent的核心是外部工具调用，而非严格意义来说， Function Calling是Agent架构的基石 ，因为有了他才有正经的Tools调用。

虽然在官方提出这Function Calling之前，也能够自己训练模型或者让模型输出类似的格式，去模拟Function Calling，但这毕竟不是正道，因为换个模型也许就不好用了。

当前最经典的Agent框架是ReAct，他大约是在2022年提出，论文《ReAct:Synergizing Reasoning and Acting in Language Models》，其中就有伪FC的实现。

最后到23年6月，OpenAI的更新，正式提出了Function Calling，将他作为ChatGPT产品的正式能力，后续逐渐成为事实上的标准，各个基座模型都有对应实现，有了这个基础后，Agent的出现就变得更加顺滑了。

国内概念的火热从年初的Manus开始，但如果真要追溯早期、又出圈的Agent的话可以是2023年3月的开源项目Auto-GPT，只不过就算今年的Manus在早期因为 基座能力不足 都表现不佳，遑论更早期的Auto-GPT了呢？

从Manus发布后， 2025 AI应用元年逐渐转移成2025 AI Agent元年 ，模型也取得了长足的发展，包括整体的推理能力、上下文长度得到了极大的加强，而且 我相信各个基座模型一定在工具调用这块做了大量微调训练 ，其直接的结果是 下半年的工具调用能力有明显的加强 。

虽然模型的稳定性调用能力有不小的加强，但在工具多了后依旧会有找不到、乱调用的问题。于是Claude开始收集了大量Tools调优经验，在25年10月正式提出了Skills技术，可以认为他是在对整体Function Calling进行补足（当然Skills除了提升工具识别能力之外，还做了很多其他工作）。

现阶段使用Skills+Function Calling+上下文工程，已经可以将准确率做得很不错了（比如我们就能折腾到90%+，这在之前是很难的）。

以上，是我从技术层面看到的，近三年Agent发展的情况，也就是说： 在今年之前想要做出个好的Agent几乎不可能；在今年下半年开始，整体难度会小非常多 ；

最后这里的结论就是： 之前对于Agent的很多质疑乃至产品体验差的问题，在2026年应该会得到很大的缓解 。

所以，要说Agent直接依赖于模型能力的变迁，这句话还真的没问题，你怎么优化都可能比不上模型一次能力升级。

接下来我们再来说其核心编排层，这个可以解释为什么Agent会越来越强：

很多同学知道Agent的工作模式一直在模仿人，但多数同学对ReAct这个词并不熟，也不能理解 思考-行动-观察 这套循环到底有什么作用；

毕竟多聊一轮响应速度就会慢很多还会多花不少冤枉钱（耗Token），关于为什么要有这么多循环，我认为主要是 模型能力不足所致 ，需要多轮调优，才能最终做出合理的规划。

他就像一个需要调教的学生，下面这个案例可以很好说明循环调教对于模型做出合理规划的意义：

六顶思考帽是一种经典的“平行思维”框架，旨在将混乱的思考过程结构化。其核心是赋予思考者六种不同的角色“帽子”：

白帽：客观中立，只关注事实与数据。
红帽：感性直觉，表达情绪与预感。
黑帽：谨慎批判，专注风险与缺陷。
黄帽：积极乐观，看到价值与机会。
绿帽：创新创造，探索新想法与可能性。
蓝帽：统筹控制，管理思考流程与总结。

其威力在于强制切换视角，避免人们被单一立场（比如一味批判或盲目乐观）所困，从而实现对问题的全方位审视。举个具体的案例， 要不要在公司上马一个Agent项目 ，跑一轮六顶思考帽，大致会变成这样一套ReAct循环：

白帽：我到底知道哪些事实？现在公司有什么基础？预算多少？有哪些现成数据和系统？
黑帽：最坏的情况是什么？可能踩哪些坑？哪些部门一定会强烈反对？
黄帽：如果成功了，最大的收益是什么？对业务、对团队能力有哪些放大？
绿帽：在现有资源约束下，有没有一些性价比更高的落地路线？比如先从一个小流程改造，而不是一上来做全栈Agent平台。
蓝帽：把前面所有视角收束成一个可执行的行动计划，先做什么，怎么拆阶段，怎么验证，失败后怎么止损，蓝猫开始收尾做输出了。

这一整套六顶思考帽跑下来，模型在不断地对自己刚刚的想法进行追问、纠偏和补充，这就是典型的模型自问自答，这有三个好处：

第一， 强行补全视角 ；第二， 把想清楚从一次性梭哈，变成逐步逼近 ，最终， 让规划从黑盒直觉，变成可复盘的过程 。

六顶思考帽这种玩法，就是设计了一套 学生自己跟自己对话 的训练框架，以达到对模型调教的目的，从Agent的角度看，这就是把 思考-行动-观察 这条ReAct循环，进一步做了角色化化的实现。

这一套的结果是： 模型的规划能力不是凭空长出来的，而是在一次次自问自答中长出来的。

并且随着模型能力的进一步加强，其生成的解法会更加完善，所以从框架层面来说，Agent架构确实会越来越好，只不过费Token暂时没法避免。

在了解Agent进化史后，我们再看看最经典的旅游案例：

首先，大家要理解 模型本身是没有思考能力的，他的每次回答都是一次千锤百炼的文本统计模仿 ，比如DeepSeek是没有办法识别Claude Code 10月发布的Skills技术的：

这东西在他的基础数据里没有，对于模型没有的东西，他一定会胡编乱造，这个可以从论文《OpenAI：Why Language Models Hallucinate》看出来。

为了解决这个问题，模型就一定要引入外部工具调用的能力，Function Calling、MCP等出现后，模型就开始从问答机器人逐渐往解决具体问题的Agent做进化了。

而这也是很多人认为 Agent是先进技术、先进生产力的原因 ，严格来说，他对工具利用的效率会更高：

在之前，我们解决问题的方式是Workflow+AI，模型会在流程中某个节点上贡献自己的一己之力。Workflow虽然稳定、效率也高：

但Workflow不得不面对一个问题，总会有20%的场景是他无法满足的，而这种长尾问题很严重：

也许10个Workflow可以解决80%的问题，但如果想要把80%提升到85%可能需要100个Workflow，提升到90%可能需要1000个...

于是这里核心矛盾也就出现了： Workflow无法满足用户无穷的需求，并且约到后面成本越高 ，那么该怎么办呢？

能这样做的原因是模型基本能力已经很强了， ReAct（思考-行动-观察） 架构能很好的（多数时候能）实现规划工作；

另外由于互联网这些年的发展，很多工具已经很成熟了：

常用的如搜索引擎、地图服务、文件处理等都非常标准；
不太标准的如订票、支付、抖音APP操作等非要做也可以用RPA技术过渡，垂直平台（如携程）早晚会开放接口；
更进一步当前Computer-Use、Browser-Use乃至手机操作等更平台型的技术都在使劲突破；
当然最厉害的大杀器还是AI Coding，理论上这家伙能够把所有的工具生成出来（实际肯定做不到）；

所以， 模型规划+Tools排列组合 理论上是可以解决20%的问题的，就算不能解决但他也会大大降低将80%变为90%的成本。

这里举个我自己的例子：

unsetunsetPlanning+Tools收束意图unsetunset

去年以来，事情就变得特别多、特别杂，我需要 找课题、写文章、开发课件、做拜访、出差咨询、各种售前 ......

最后还需要稍微花点心思管理团队，但事情多了的结果就一个： 很多事情会被漏掉 。

一开始我用的Todolist+提醒：

把要做的事记下来；
设个时间提醒自己别忘；
做完就勾掉；

只不过后面问题变多了，简单的模式就不好用了：

任务来源越来越多：微信聊天、公众号文章、抖音/视频号、小程序消息；
每条todo背后的上下文不一样：有的是选题，有的是客户，有的是灵感片段；
还要和团队共享、分配、跟进；

这时候Workflow排上了用场：

如果是某个微信群，就抄到表A；
如果包含选题两个字，就打某个标签；
如果是抖音链接，就丢给某个脚本处理；

这就跟上面说的类似了，规则不够用：一旦入口多一点、场景多一点，Workflow就会爆炸，刚才说的“10个流程覆盖80%，想做到90%要1000个流程”的问题就出现了。

这里就轮到Agent上场了。对我来说，核心不是再造一个巨复杂的系统，而是：在一个相对稳定的Todolist/项目看板之上，加一个 项目小助理Agent ，让它帮我把事情从“世界”搬运到“列表”。

这个小助理手里只有几类Tools：

文本提取类：从微信消息、抖音、网页链接中抽取正文；
内容加工类：摘要、改写、提炼关键句；
结构化写入类：写入多维表格/看板（字段包括来源、类型、优先级、截止时间等）；
通知提醒类：给我或同事发一条“你该处理了”的消息；

从Tools的视角看，这套能力很“有限”，就是几种固定的操作；但从“意图”的视角看，它可以覆盖非常多种变体：

把这篇公众号发给你，帮我记成一个选题todo；
这个抖音视频不错，帮我提炼成一条学习任务；
客户在微信里说的需求，帮我拆成三个可执行任务分给不同同事；
这篇长论文只要结论，帮我变成一个写作素材条目；

相信从这里大家也看出来Agent的核心价值了： 他会大大增加我Workflow的泛化能力！模型用ReAct式的思考-行动-观察循环，来决定怎么排列组合这些Tools：

对同一个输入，它会先判断这是“选题”“学习任务”还是“客户需求”，再按套路调用：

提取文本→生成摘要→识别类型→写入对应项目表→视情况创建提醒；
如果发现字段不全，就再问一句补信息，继续调用；

这里结果是，我不需要为每种场景写死一个Workflow，只要提供一组通用的能力工具，再把“该怎么组合这些工具”交给模型的规划能力，就能在有限规则下，去承接用户几乎无穷的意图变化。

这就是前面那句话的落地版： 有限的Tools+模型的规划能力，可以在成本可控的前提下，大幅“吃掉”长尾需求。

从这个角度来说，Agent不能说是先进的技术，但我也没想到其他的解法，这本来就是一种： 时间、空间（成本）、稳定性换取兜底的设计 ，如果设计如此的话，就不能去挑Agent的那些毛病。

unsetunset结语unsetunset

当然，一套优秀的Agent必定离不开记忆模块，只不过大家要明白： 记忆体系虽然很复杂，但他在Agent架构中的最最核心的意义是让模型更清晰的理解用户意图，以做更合理的规划、调用更合适的工具组合 ；

所以记忆问题我们在这里就不做展开，因为其实记忆系统衍生出来的上下文工程才是整个工程架构里面最难、最烦、成本最高的部分，这里面涉及了各种 结构设计、状态更新、偏好记录、只是增强等等 ，这里根本没办法放开了聊。

最后我们收一收，关于： Agent是未来的先进生产力，还是一个谁都能做的伪概念？ 我相信大家现在有了一个清晰的判断了。

Agent不仅是一项先进的技术架构，更是当前AI应用演进中极具价值的范式突破

这东西并不是一下子蹦出来的，而是建立在坚实的演进逻辑之上：

从早期的伪工具调用，到2023年OpenAI推出Function Calling成为业界标准，再到Claude Skills等工程优化。

模型在工具调用、规划与执行上的能力已经实现了质的飞跃。这是2025年Agent从“玩具”走向“工具”的核心原因。

从工程实践来看，Agent也不是玄学，而是一种清醒的取舍： 用更多Token、更多循环、更多系统复杂度，去换更高的覆盖率和更强的泛化能力。

本质上，是用「时间+成本+稳定性的一点点牺牲」换「业务长尾的极大收缩」。如果你认同真实世界业务必然是长尾、必然充满变化，那在当前技术条件下，很难找到比Agent更合理的工程解法。

再看Manus这条线，也许现实会更有说服力。一个被无数人嘲讽为 套壳、一个周末就能抄出来 的产品，几个季度过去了既没有被替代，反而在RLI等Benchmark上长期排在第一，这说明什么？

说明它踩中的不是噱头，而是正确的结构性选择：Less structure，more intelligence。

展望未来，正如Manus张涛所言： Agent将向着更通用的工具平台、更持久的伴随式服务、更主动的意图理解 演进。

它或许尚不完美，在成本控制、复杂场景稳定性方面仍需探索，但其路径已经清晰：作为扩展人类智能与效率的新一代中介，Agent正在将AI从“对话的奇迹”转变为“行动的伙伴”。

因此，对于每一位身处这个时代的构建者与使用者而言，理解并善用Agent，已非选择题，而是一道关乎效率与竞争力的必答题。

最后再引用张涛在清华那场分享里说：

现在已经是2025年最后一个月了，如果你还没真正用过Agent，至少要在今年学会和它共处，就像几十年前学会用电脑一样。

几年之后，你大概率不会记得哪一篇Agent概念文章，但你会很清楚：自己是从什么时候开始，把Agent当成日常工作的一部分的。

2025 Agent元年只是序幕...

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定