MiniMax M2.5以10B激活参数实现高效本地推理，成为Agent永续运行的性价比首选，在编程和工具调用领域超越主流模型，成本低至1美元/小时。 ## 1. 高效本地推理与低成本优势 - M2.5仅需10B激活参数（对比GLM-5的40B），在Mac Studio本地运行，实现100 TPS推理速度（主流模型两倍）。 - 成本低至1美元/小时（100 TPS）或0.3美元/小时（50 TPS），支持Agent 7×24永续运行，月成本仅200美元/Agent。 ## 2. 编程能力行业领先 - SWE-Bench Verified达80.2%（行业第一），任务完成时间比M2.1缩短37%（22.8分钟），token消耗减少5.4%。 - 在Droid（79.7）和OpenCode（76.1）等开源平台表现优于Opus 4.6，减少对闭源工具的依赖。 ## 3. 工具调用与搜索优化 - 自建RISE评测集验证搜索能力，任务轮次消耗减少20%，BrowseComp/Wide Search结果更优。 - 开发者实测支持多平台（Telegram/Slack等）并行处理复杂工作流，工具调用准确率高。 ## 4. Agent作为"未来同事"的定位 - 模型设计聚焦持续运行需求：能力、速度、成本三要素平衡，年成本约2400美元/Agent。 - 算力稀缺背景下，10B参数模型成为永续Agent落地的关键，推动AI向真实工作场景渗透。

2026-02-14 16:21

MiniMax M2.5：龙虾御用，Agent 永不停机

有机大橘子©

本文来自微信公众号： AGENT橘，作者：AGENT橘

2026年春节前这周，可以称为中国AI全年成果大展。

一个接一个，根本停不下来。

昨天MiniMax也发布了M2.5，激活参数和M2.1一样只有10B。

M2.1是小龙虾作者Peter最推荐的开源模型。

M2.5相比M2.1是一次快速的进化，在编程领域最具代表性的SWE-Bench Verified上，M2系列的进步速度是所有模型系列里最快的，超过了Claude、GPT和Gemini。

Peter把Opus作为主力模型，MiniMax作为fallback，当Opus的token用完了，自动切换到MiniMax继续跑。

而且他不只是云端调用。他在自己的2台Mac Studio上用MiniMax跑本地推理，不依赖模型厂的套餐，完全本地化，龙虾永远不掉线。

能在本地跑起来，靠的是M2.5在一系列旗舰模型里，拥有最小的激活参数。

M2.5的激活参数只有10B。作为对比，GLM-5激活40B，Kimi K2.5大约50B，DeepSeek V3.2大约30B。

模型的激活参数虽小，但Agent能力却不俗，Peter以及很多🦞用户实测下来，MiniMax是小龙虾里效果最好的开源模型。

参数小带来的好处是连锁反应：推理速度达到100 TPS，几乎是主流旗舰模型的两倍。以这个速度连续工作一小时，成本只要1美金。如果降到50 TPS，只要0.3美金。

这意味着让一个复杂Agent无限运行下去，在经济上变得完全可行了。

Agent和工具调用

M2.5的工具调用能力非常强悍，在多项工具调用的指标均为头部水平。搜索是Agent最常用的工具，MiniMax为此还自建了一个评测集RISE（Realistic Interactive Search Evaluation），专门测真实专业任务上的搜索能力。

相比M2.1的提升也非常明显。在BrowseComp、Wide Search、RISE多项任务上，M2.5用更少的搜索轮次拿到了更好的结果，轮次消耗少了大约20%。模型学会了用更短的路径逼近答案。

海外开发者Tom Osman用Clawdbot×MiniMax重构日常工作流。他在Telegram、Slack、WhatsApp、iMessage上都部署了龙虾，通过语音或文字随时下指令。一个典型的工作日里，他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件，所有任务并行跑，他只需要在不同的Agent之间切换对话。

他对MiniMax的评价是：在工具调用方面表现非常出色，而且相当准确。用的是每月10美金的Coding Plan，用量远没到上限。

10B的尺寸天然适合这类场景。Agent要7×24小时不停地跑，模型越小，持续运行的成本越低，可行性越高。龙虾作者Peter选MiniMax做Opus的fallback，本质上就是看中了这一点：

当你需要一个Agent一直跑下去的时候，10B的模型能让你真的跑得起。

在我的实际测试中，我让Minimax M2.5来跑一个测试任务。

去监控一下每天有哪些热度最高的小龙虾的skill，它完成得非常好。

编程和泛用性

编程方面，M2.5相比M2.1的进步巨大，SWE-bench Verified 80.2%，Multi-SWE-Bench 51.3%拿了全行业第一。

在提升能力的同时，还同时提升了推理速度。端到端完成SWE-bench任务从M2.1的31.3分钟降到22.8分钟，快了37%，跟Opus 4.6的22.9分钟几乎一样。每个任务的token消耗从3.72M降到3.52M。变快了，还变省了。

还有个很有趣的点是M2.5在不同编程客户端里的泛用性很强。在Droid上跑SWE-Bench，M2.5是79.7（Opus 4.6是78.9）；在OpenCode上是76.1（Opus 4.6是75.9），这样也就不太依赖Claude Code这而已的闭源脚手架了。

能提升对OpenCode的支持真的是很好的一件事。

OpenCode是Claude Code的开源平替，安装简单，上手容易。

而且里面的MiniMax M2.5是限时免费的，都不需要配置。

我让它写了一个2026年的春运实时监控，每小时自动监控并更新网页，得到的网页是这样的：

从工具到同事：Agent的下一步

MiniMax给M2.5的定位是真实世界的好同事。

这是因为Agent是未来软件的使用者，是每个团队里都会有的新同事。

这个转变一旦发生，对模型的要求就彻底变了。

自主Agent时代，Agent要7×24小时不停地跑，一天几百次推理调用，你在乎的是：能力够不够用、速度快不快、成本扛不扛得住。

那雇佣Agent一年大概需要多少钱呢？

M2.5有两个版本，快速版本在以每秒输出100个token的情况下，连续工作一小时只需要1美金，而慢速版在每秒输出50个token的情况下，只需要0.3美金。

算下来，雇佣Agent让它们7x24地工作，每个Agent的月薪才200美金，你只需要花一万美金，就能获得四个永不休息的同事。

未来几年算力供给是线性增长，需求是指数增长，Token只会越来越稀缺。

在这个大背景下，自主Agent时代能7x24持续运转极为重要。

因为只有这样，Agent才能走向真实世界，成为你真正的同事。

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP