MiniMax M2.5以10B激活参数实现高效本地推理,成为Agent永续运行的性价比首选,在编程和工具调用领域超越主流模型,成本低至1美元/小时。 ## 1. 高效本地推理与低成本优势 - M2.5仅需10B激活参数(对比GLM-5的40B),在Mac Studio本地运行,实现100 TPS推理速度(主流模型两倍)。 - 成本低至1美元/小时(100 TPS)或0.3美元/小时(50 TPS),支持Agent 7×24永续运行,月成本仅200美元/Agent。 ## 2. 编程能力行业领先 - SWE-Bench Verified达80.2%(行业第一),任务完成时间比M2.1缩短37%(22.8分钟),token消耗减少5.4%。 - 在Droid(79.7)和OpenCode(76.1)等开源平台表现优于Opus 4.6,减少对闭源工具的依赖。 ## 3. 工具调用与搜索优化 - 自建RISE评测集验证搜索能力,任务轮次消耗减少20%,BrowseComp/Wide Search结果更优。 - 开发者实测支持多平台(Telegram/Slack等)并行处理复杂工作流,工具调用准确率高。 ## 4. Agent作为"未来同事"的定位 - 模型设计聚焦持续运行需求:能力、速度、成本三要素平衡,年成本约2400美元/Agent。 - 算力稀缺背景下,10B参数模型成为永续Agent落地的关键,推动AI向真实工作场景渗透。
MiniMax M2.5:龙虾御用,Agent 永不停机
2026-02-14 16:21

MiniMax M2.5:龙虾御用,Agent 永不停机

本文来自微信公众号: AGENT橘 ,作者:AGENT橘


2026年春节前这周,可以称为中国AI全年成果大展。


一个接一个,根本停不下来。


昨天MiniMax也发布了M2.5,激活参数和M2.1一样只有10B。


M2.1是小龙虾作者Peter最推荐的开源模型。


M2.5相比M2.1是一次快速的进化,在编程领域最具代表性的SWE-Bench Verified上,M2系列的进步速度是所有模型系列里最快的,超过了Claude、GPT和Gemini。



Peter把Opus作为主力模型,MiniMax作为fallback,当Opus的token用完了,自动切换到MiniMax继续跑。


而且他不只是云端调用。他在自己的2台Mac Studio上用MiniMax跑本地推理,不依赖模型厂的套餐,完全本地化,龙虾永远不掉线。


能在本地跑起来,靠的是M2.5在一系列旗舰模型里,拥有最小的激活参数。


M2.5的激活参数只有10B。作为对比,GLM-5激活40B,Kimi K2.5大约50B,DeepSeek V3.2大约30B。


模型的激活参数虽小,但Agent能力却不俗,Peter以及很多🦞用户实测下来,MiniMax是小龙虾里效果最好的开源模型。


参数小带来的好处是连锁反应:推理速度达到100 TPS,几乎是主流旗舰模型的两倍。以这个速度连续工作一小时,成本只要1美金。如果降到50 TPS,只要0.3美金。


这意味着让一个复杂Agent无限运行下去,在经济上变得完全可行了。



Agent和工具调用


M2.5的工具调用能力非常强悍,在多项工具调用的指标均为头部水平。搜索是Agent最常用的工具,MiniMax为此还自建了一个评测集RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。


相比M2.1的提升也非常明显。在BrowseComp、Wide Search、RISE多项任务上,M2.5用更少的搜索轮次拿到了更好的结果,轮次消耗少了大约20%。模型学会了用更短的路径逼近答案。



海外开发者Tom Osman用Clawdbot×MiniMax重构日常工作流。他在Telegram、Slack、WhatsApp、iMessage上都部署了龙虾,通过语音或文字随时下指令。一个典型的工作日里,他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件,所有任务并行跑,他只需要在不同的Agent之间切换对话。


他对MiniMax的评价是:在工具调用方面表现非常出色,而且相当准确。用的是每月10美金的Coding Plan,用量远没到上限。


10B的尺寸天然适合这类场景。Agent要7×24小时不停地跑,模型越小,持续运行的成本越低,可行性越高。龙虾作者Peter选MiniMax做Opus的fallback,本质上就是看中了这一点:


当你需要一个Agent一直跑下去的时候,10B的模型能让你真的跑得起。


在我的实际测试中,我让Minimax M2.5来跑一个测试任务。


去监控一下每天有哪些热度最高的小龙虾的skill,它完成得非常好。


编程和泛用性


编程方面,M2.5相比M2.1的进步巨大,SWE-bench Verified 80.2%,Multi-SWE-Bench 51.3%拿了全行业第一。


在提升能力的同时,还同时提升了推理速度。端到端完成SWE-bench任务从M2.1的31.3分钟降到22.8分钟,快了37%,跟Opus 4.6的22.9分钟几乎一样。每个任务的token消耗从3.72M降到3.52M。变快了,还变省了。



还有个很有趣的点是M2.5在不同编程客户端里的泛用性很强。在Droid上跑SWE-Bench,M2.5是79.7(Opus 4.6是78.9);在OpenCode上是76.1(Opus 4.6是75.9),这样也就不太依赖Claude Code这而已的闭源脚手架了。


能提升对OpenCode的支持真的是很好的一件事。


OpenCode是Claude Code的开源平替,安装简单,上手容易。


而且里面的MiniMax M2.5是限时免费的,都不需要配置。


我让它写了一个2026年的春运实时监控,每小时自动监控并更新网页,得到的网页是这样的:



从工具到同事:Agent的下一步


MiniMax给M2.5的定位是真实世界的好同事。


这是因为Agent是未来软件的使用者,是每个团队里都会有的新同事。


这个转变一旦发生,对模型的要求就彻底变了。


自主Agent时代,Agent要7×24小时不停地跑,一天几百次推理调用,你在乎的是:能力够不够用、速度快不快、成本扛不扛得住。


那雇佣Agent一年大概需要多少钱呢?


M2.5有两个版本,快速版本在以每秒输出100个token的情况下,连续工作一小时只需要1美金,而慢速版在每秒输出50个token的情况下,只需要0.3美金。


算下来,雇佣Agent让它们7x24地工作,每个Agent的月薪才200美金,你只需要花一万美金,就能获得四个永不休息的同事。


未来几年算力供给是线性增长,需求是指数增长,Token只会越来越稀缺。


在这个大背景下,自主Agent时代能7x24持续运转极为重要。


因为只有这样,Agent才能走向真实世界,成为你真正的同事。

AI原生产品日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP