2026-06-08 10:39

对话MiniMax 择因：Agent 终会超过人类，我们又将何去何从？

AppSo

本文来自微信公众号： APPSO ，作者：没喝上星巴克的，原文标题：《对话 MiniMax 择因：Agent 终会超过人类，我们又将何去何从？》

整个行业的加速快到不讲道理。Vibe Coding已经不再是新名词，编程这条赛道也从未如此拥挤：Claude Code、Codex、Cursor贴身肉搏，Trae、Qoder、CodeBuddy杀成一团。

黑话一个接一个流行起来，支配所有人的注意力。去年还是skill（技能）的天下，如今harness（脚手架）站上了王座。

热词之下，模型已经卷到几近一条平直的线：不同的基准测试会给不同的答案，但总体来说，无论是Opus、GPT，还是Qwen、GLM、Kimi和MiniMax们，无论是写代码还是执行越来越复杂的任务，都已不在话下。

模型之间仍然存在差距，但拉开模型公司之间真正差距的，早已不再是模型本身，而是套在外面的那层壳。

之前一份研究报告拆解了Claude Code泄露的代码，发现真正属于模型决策的代码只有1.6%，剩下98.4%，全是管权限、管上下文、兜错的harness。

为了进一步发挥模型的优势，全新一代的agent产品如排山倒海而来。Grok Build、Qoder 1.0、TRAE SOLO纷纷推出。连一直以来低调沉默的DeepSeek都挂出多岗位招聘，组建agent开发队伍。

Agent Team的内核是一套Leader-Worker-Verifier（领导-执行-验证）的「对抗式」架构。负责干活和负责挑错的职责，被拆成不同的agent，受到经过代码逻辑固化的状态机去管理，彼此之间上下文隔离。

这味药，治的是长程agent任务中那些出了名的顽疾：上下文污染、上下文焦虑、agent之间的「共谋」。

有趣的是，正如前述MiniMax并没有等M3发布，而是率先在M2.7上就将Agent Team推了出来。M2这一代，被MiniMax称为「大巧若拙」，模型和脚手架之间的共融共生已经看到了黎明前的曙光。预料之中，M3只会更强。

在训练M3的最关键时刻，APPSO与MiniMax Agent研发工程师（周淳辅）做了一场对谈。

我们聊了Agent Team的设计原则及其所体现的MiniMax认知，探索了Agent Team的技术内核，浅析其它玩家对于agentic模型如何约束与放任。

业界有一种观点正盛：Anthropic拥有最好的模型和最烂的工程。在择因看来，Anthropic骨子里不信任模型，预设模型会作弊、耍小聪明，于是到处加以约束。OpenAI的harness核心却是一个极简的agentic loop。

一个极简框架养出了遵循度极好的模型，一个约束极强的框架却养出了「黑天鹅」。MiniMax做agent的思路，既将两者融合，又不完全相同：要相信模型，给它和人一样的操作权限，但也要在脚手架中加入合理的约束。

这些思路在业界独树一帜，但业界追赶新东西并将之确立为共识的节奏，早已快过于新思想诞生的速度。在agent上，MiniMax没有壁垒——没有任何人有。择因发给我一篇71页的论文，告诉APPSO：

「关于agent的所有东西，都在这篇论文里了。如果一篇就能说清楚，还有什么壁垒？」

但MiniMax仍有绝活。

他们力求以最快的速度不断向整个行业输出新的认知，做共识的领导者、执行者、验证者——这也是为什么Agent Team及其背后架构没等M3，就公之于众了。

究其根本，中国模型公司的「开源」玩法不会一直持续下去。

但这并不代表，优秀的认知不应该及时与世界分享。

就像一个agent的工作会有它的停止条件，开发agent的人们也有停止的那一刻。对于择因，可能会是当agent可以实现真正的自进化，并且在几乎任何数字或物理世界的任务上效率和成本优于人类。

从站在第一线的他的视角来看，我们离那个未来并不遥远。

以下是APPSO与MiniMax Agent研发工程师择因的对话。卖个关子：在最后我们提出了一个开放性的问题，并获得了意想不到的答案。

架构即认知

APPSO：Agent Team为什么没等M3，直接在M2.7上就发布了？

择因：不用非等到和新模型一起发，是我们的意愿，也是自己的节奏，就是希望不停地把最新的认知传达给外界，这件事情很值得做。以及它在我们内部已经使用很久了，一个月的时间，我们觉得可以对外发布了。

APPSO：今天一切的周期都变得很快，一个月已经很久了。

择因：发布时我们模型还没迭代，但是有一批核心用户对我们的agent的运行范式感兴趣，所以我们提前发出去吸引他们。核心用户的建设对我们来说非常必要。后面我们也会考虑把我们的Agent Team架构开源出来。

APPSO：MiniMax Code到目前为止的反馈如何？

用户方面有个比较有意思的点，因为我们是全模态，发现很多用户拿Agent Team去做长视频生成，有古文爱好者用它来生成大量的诗朗诵音频。这些偏C端、兴趣向的使用案例，其实我们没有预料。

很多用户也告诉我们，当Agent Team被整个拉起来开始干活的感觉，给他们带来很大情绪价值。

APPSO：真的像是有了几个员工给自己打工的这种感觉？

择因：对。总体上看最近两个月的多agent产品，已经是血雨腥风。腾讯那个(Marvis)「打工」感更强。很明显，在Agent Team的共识和落地方面，大家跟的都很紧。

APPSO：你说有人用MiniMax Code做视频，会不会以后可以不用专业视频生成工具，不用懂脚本、分镜、首尾帧，直接用agent调用全模态模型就能做视频了？

择因：首先明确一下，我说的是偏个人用户、爱好的角度做视频，我觉得是可行的。专业的视频制作，其实让一个Agent Team去做，跑通打个样可以，但如果真的投入工业生产，还是需要分工。比如编导负责idea、分镜、首尾帧这些关键的东西。给到另一帮人负责丢给海螺或Seedance抽卡。

但我认为随着模型能力提升，抽卡这部分的成本，以及后续剪辑的成本，会降得非常低。

我们调研了一下，发现今天让剪辑师剪视频其实比AI便宜。甚至市面上有一种服务，他把抽卡和剪辑都打包了，但价格主要是抽卡的成本，剪辑反倒不花钱。实际上他们找了一堆大学生上课学剪辑，交学费，课程任务就是给我把视频剪了。

APPSO：如果更强的模型出来，比如M3，能比人工剪辑还便宜吗？

择因：我们的模型在能力上可以。但是你要算账的话，还是我刚说的套路，人的成本也会越来越低。

APPSO：MiniMax Code的Agent Team架构，也就是Leader-Worker-Verifier，听上去很合理，你们先做出来，然后Claude Code也跟进了。

择因：我们是从三月开始做的，一开始我和边上同事讨论，一个agent，它一旦做错了，在上一轮轨迹里面它永远会记得自己做错了这件事。但转念一想，它如果接下来按对的方向去做，其实这段做错了的记忆它是完全不需要的，对不对？

基于这个想法，我们设计了这个新的架构：让干活的和负责验证的agent之间分开。验证的时候要有打回的机制，并且要让一个新的「脑子」去打回。

当月我们就把这套架构搭出来了，不过目前那个时候是主要内部使用，大家用得非常不亦乐乎。

APPSO：你们内部用的爽点具体是什么？是解决了之前的痛点，还是效率高、更不容易出错？

择因：我举个最简单的例子，比如你睡觉前给它派个任务，哪怕是极度复杂的工作，只要你卡控的够严格，你的准出标准可量化、可观测，而不是模型自己觉得可以就可以了——只要你做好这些门禁，这群worker和verifier就能在你睡觉的时候一直跑，睡醒之后就干完了。

可以说三月开始，这种新的开发节奏、新工作方式，就在我们内部出现了。

APPSO：这和传统依赖提示词的多agent编排的本质区别是什么？

择因：本质区别是我们的Agent Team架构做了一套复杂的自由度限制。

首先运行层面它是一个状态机，是确定性的代码，有严格的限制，它不能跳出这套规范，你可以把它理解为一个更严格的工作流(workflow）。

在agent基建的层面，我们又给了极大的自由度。所有的agent之间都可以互相通讯，这和传统的agentic workflow，有方向的流程图是完全不同的。当然，以前的workflow里面也可以带循环，但是核心还是这步走完了下一步。

我举个例子，比方说你用agent做开发，环境里少了某个包导致开发受阻，过去的workflow上可能就卡住了，而我们的worker或verifier发现了之后，它可以通过多种健全的机制通知其它agent别踩坑。

再比如一个研究类的任务，一开始的研究计划需要leader做些初步研究，过去leader分配完任务就停止了。但在我们架构下，如果用户有新点子、补充想法可以直接说，leader能随时启动、去打断当前的agent team、加一个新编排进去。Agent工作流可以随时调整，剩下的重活都交给模型就行了。

以及大家知道强化学习逻辑下会出现「上下文焦虑」，当上下文过长模型就不想干活了——不干活就不犯错嘛。而我们这套逻辑让它更严格遵循编排，持续工作直到达到准出标准。

APPSO：你们如何让模型同源的agent实现对抗，避免共谋？

择因：答案很简单，还是提示词。2026年的大多数模型遵循能力足够强，提示词变得更可用。我们也会做一些提示词上的「雕花」行为，更重要的是给模型可观测的停止条件，让worker和verifier分别管理一些事情，比如worker的停止条件就是把活干完了，verifier的停止条件是在干完的活里找到bug。

APPSO：我的使用体验，有时候觉得可以交付了，但agent还在打过来打回去。你们怎么定义agent之间的对抗强度？太宽松肯定不好，太严格会无限循环。

择因：我们不会假定所有的用户生产场景，所以先把这套框架抛出来，用户可以自己去定停止条件。至于怎么定，可以通过Skill，让agent根据用户对停止条件的倾向主动总结成skill，下次运行任务就可以作为判断标准。这个skill肯定是千人千面的，不是我们来概括。随着用户长期使用，Mavis会越来越懂用户。

我们在M3训练中也加入了类似数据，让模型具备主动性，去总结之前的轨迹，根据用户的反馈去提炼skill，让工作更加可观测。随着模型能力提高，我们可以做得越来越多。

APPSO：MiniMax Code的一大特点就是agent之间上下文隔离，很反直觉，你们是怎么想的？

择因：agent上下文分为三部分：用户请求、环境里的生产资料、模型执行轨迹。比如当agent执行出了错，会把犯的错记下来，但这个记录对另一个agent可能是有害的。当上下文变得臃肿，这些轨迹一定会污染别的agent。

长程agent任务跑出几个小时后，几乎全部的上下文都是执行轨迹，所以我们要隔离这一部分上下文。做这个设计就是因为我们预期agent会运行很久，既然大部分的信息都是不需要的，为什么不隔离？

APPSO：同时执行几个任务，通过微信、飞书跟MiniMax Code查询也不会「串台」，这个体验很独特，是怎么做到的。

择因：你可以理解为在L-W-V之外还有一个IM agent。每个agent都有各自的启停触发，IM agent的启动就是你给它发一条消息，它再去检查正在工作的其它agent。

我们还有一些更宏大的交互层面的想法，就是所有功能都可以通过说来实现：目前的agent产品，比如Cursor还有代码编辑界面；豆包或其它agent还有各种具体功能按钮，比如新建任务、创建skill、导入文件——我们觉得这些界面和按钮，以后都可以消失，你想让agent做什么只需要跟它说就行。

没有壁垒，全是共识

APPSO：为什么Anthropic一天到晚说自己模型多危险，作弊、耍小聪明？是模型没对齐好还是产品harness做的不够robust？

择因：我觉得可能只是Anthropic在宣发上的倾向。从个人体感对比，GPT 5.5明显比Anthropic模型干活更彻底，更具有主动性，在真正生产上就是最好的agentic模型。它完全不绕弯子，不耍小聪明。

Claude Code泄露过一版源代码，Codex CLI也是开源的，你会发现这两家公司在agent产品上的倾向性完全不同。Anthropic就是不信任模型的，他们就是假设模型会出各种问题，于是在各处增加约束。OpenAI提出harness概念更早，你去看Codex其实就是一个循环，非常极简。

一个极简的agent框架，驭遵循度极好的GPT 5.5，实现目前最强的编码和agent能力；层层约束的框架，用在Opus 4.7上，却出现了黑天鹅效应，在超长任务中也会偷懒糊弄，这是我所看到的。

Agent和模型是长短板的关系，你的agent足够强大，可以榨干模型的能力；相反如果模型足够强大，其实agent不需要特别复杂，就直接一个循环，给它工具就能用了。

APPSO：新的Claude Code dynamic workflows架构出现了verifier的设计，以及官方描述把编排从模型上下文搬到可执行代码层面，跟你们的构思「所见略同」。你觉得这种设计哲学的趋同，是agent工程的唯一解，还是阶段性偶然？

择因：目前阶段是比较合理的解决方案。其实开发Agent是一个比较神奇的过程，收益可能来自于模型能力变强，而非你的框架变优秀了；当然，也有可能是你的框架比较先进，能让模型完成之前无法完成的任务。目前大家采用verifier的方案，也是因为和这个阶段模型的能力水平比较匹配。

相同点上，CC的这套dynamic workflow是让agent自主决策如何编排一群agent运行，这和我们的Agent Team设计思想一致。同时二者的载体都是文件，或者说coding，模型通过文件的方式去编排一群agent运行。

而不同点，主要在实现方案和玩法：CC是让主agent编排完成后一次性并行执行大量子agent，能调度几百次。但是它中途不会回头，和用户的互动主要是在遇到阻塞时候的询问。

我们的Agent Team在主agent编排完成的情况下，用户和主agent都能在执行的任意时刻介入进行调整，用户对agent的运行可观测，可以随时和具体的某个子agent聊天。同时能随时停止和重新继续。更强调人和agent用同种方式编排执行。

能确信的是，即使工作形式上类似，实际上还是有很多细节不同，可能是完全两种不同的东西。在agent时代，大家开发效率很高、迭代很快，但是决定胜负手的还是所有的细节。模型变快了，但我们得慢下来去知道所有的信息。

APPSO：你怎么看业内有种说法，就是Anthropic研究极强，模型很厉害，但他们的工程能力很差，甚至他们自己都说产品是100%vibe coded。

择因：可能他们内部用的是好东西，只是没把最好的版本给放出来，所以之前泄露的Claude Code代码有很多非公开功能。

Harness在四月份成为了共识，但我们也需要等会用harness的新模型出来，比如M3，这样的产品才是饱满的。一个例子是去年skill提出时，当时Sonnet 4.5使用skill的效果跟后来的4.6差距极大——所以，你需要一个懂harness的模型才能把它玩得转。我觉得今天整个圈子共识形成得太快了，模型还没有跟上。

APPSO：所以给模型自由度，它其实能做得很好；但如果用人认为合理的架构去框住它，效果不一定好？人类的组织架构方式、对于该如何工作的想象力，是否制约了agent？

择因：也不一定，现在还为时尚早。多agent确实是最近的大热点，大家都在做各自的早期尝试，包括我看到Slock那种把几个agent拉到一个群聊里的组织方式，都很有意思。

MiniMax的倾向是人和agent应该拥有相同操作权限。在模型能力还没有达到顶尖的前提下，加各种约束、用现有的组织架构去编排它，肯定是为了让它工作的更好。

这里面当然有人性的考虑，你用人能理解的组织架构去编排，看agent给你干活，确实给你带来很强的情绪价值。但是从效率维度评价，就不一定合理。比如今天影视工业用人能理解的工作流去编排生成过程，比直接让人剪贵得多。

APPSO：DeepSeek最近在招人做harness，做agent了，很明显是发力了。你怎么看？

择因：我觉得模型企业做agent，肯定不是为了做而做。最根本的是agent能力跟模型能力实现百分百契合，甚至放大。模型在自己的agent里能遵循自己的harness，用户才能真正感受到模型的强大之处。

Agent对于模型使用量也有好处。一个模型公司如果有了agent，它的订阅量就会乘以一个系数；有模型但没有agent，模型使用量就要打折扣。我相信这个逻辑对于DeepSeek和其它发力agent的公司也是一样。

APPSO：有个OpenRouter的数据，Claude 80%以上的token消费用于编程和技术任务，DeepSeek主要是闲聊和角色扮演。

择因：我觉得模型公司做agent会有许多的动机，但最重要的之一，应该是让自己的模型在更严肃的场景里被用起来。

APPSO：之前你们说没有做Agent的企业敢说自己有壁垒，现在呢？

择因：大家越来越重视agent，并且形成共识的速度会越来越快。Skill用了半年，龙虾一个半月，多agent也就一个月。

前几天有篇华人团队发的论文写得非常好。关于agent的一切，其实都在这71页的论文里了，叫做Agent Harness Engineering:a Survey——既然agent已经能被一篇论文所概括了，你说有没有壁垒？

APPSO：哪个agent对你带来极大启发？

择因：OpenClaw，我觉得是对任何模型公司的agent团队的一次存在主义危机。为什么一个此前不在模型公司工作，不如模型团队更了解模型的个人，能做出一款世界上最多人用的agent？

APPSO：你觉得OpenClaw哪做对了？

择因：它很多东西做得很细，就比如说连接飞书、微信，里面其实坑很多。它进而影响了整个行业。甚至在OpenClaw出来之前，飞书团队还是以MCP这种古老方式维护；OpenClaw出来之后，飞书团队很快就推出了官方CLI和插件，这些接口和协议都是面向模型有好的，而且迭代很快。

APPSO：模型公司想要留在牌桌上的最关键因素是什么？

择因：就我们自己来说，一开始就走在全模态路线上，有完整的自研模型，并把它们直接部署到我们自己的原生agent产品、创作平台、开放平台中。这种复合优势会给模型公司带来更多机会。

同时，为了不掉队淘汰，可能拼的是组织效率更多一点。如果你的组织效率足够高，大家有一个明确的目标，奔着这个目标去执行，这个公司其实就不会掉队。

如果内部组织上扛不住压力了，做不出东西来，可能就会发现自己落后了、没法跟上。

APPSO：你说共识会形成的越来越快。之前MiniMax的特色现在快变成全行业模板了，你们接下来怎么做差异化？

择因：我觉得需要投入到细节上，虽然共识形成的很快，但谁能把相同的事情做透更重要。

APPSO：国产模型开源是否达到了目标？你觉得今后前沿模型还会开源吗？开源的红利期是否已经结束？

择因：如果你的模型能力足够强，开源不开源取决于团队的偏好与意志。过去两年里中国模型刚起步的时候，作为追随者，开源的确能够更好地体现价值。

我记得很多同行都公开或私底下表达过，如果有一天模型进入价格战阶段，到时候开源的风气可能会有所消减。

全球来看，开源仍是中美之间的最大区别。即便今后权重、训练框架不开源，你仍然可以把你的创新成果通过论文开放给全世界，不一定非得是模型能力。

APPSO：你们怎么看大厂用赛马甚至养蛊的方式做agent产品？

择因：就像我刚才提到的，agent为什么存在，其实很明确的两个点：一是让模型以完全体形态呈现，放大模型的能力，让它被真正用起来，二是代表你这家公司对「模型该怎么用」做的探索。你的agent产品应该能闭环到模型训练上。

如果你堆了大量的agent产品，里面有多少是和你的模型能力闭环的？有多少能反馈到自己的模型训练当中？几个agent团队是在整抢资源还是朝着一个大的目标？其实都是未知数。

总的来说，agent产品要先能在内部使用再推出去。我也看到，目前B端agent产品的收益更明确，效果更直接，所以不能否认大厂在这方面的投入。

先交学费再上班

APPSO：人们对于对话助理以及agent，有很多长久的期待，《Her》里的萨曼莎、钢铁侠的贾维斯。几十年前幻想出的东西今天还没实现，我们距离那样的agent还有多远？

择因：我觉得其实不远。《Her》是聊天陪伴为主，我印象比较深的是和主角一起打游戏，也就是软件打通的层面，现在做的已经不错了；贾维斯的话，其实和现实世界连接更加紧密。这会有点难，但我很乐观，因为我觉得物理世界的交互协议会比代码层面更加简单。本质上，只要模型的多模态能力足够强就可以。

举个例子就是GPT Image 2，你会发现它的生图能力几乎和现实世界一模一样。可以预见的是，会有一款全模态模型出现，对现实世界的理解能力是极强的。如果这样的模型去操作物理世界，唯一剩下的就是物理世界怎么把接口给AI打开。

距离还有多远？我觉得山雨欲来。

APPSO：你们自己的工作因为agent发生了怎样的变化？

择因：建立在agent能力自由、有执行规范，并且有一些严格的约束这三件事的前提之上，我们在agent自我迭代，也就是让Agent自己开发自己这件事上达到了很好的闭环。你会不断试探它的底线，交给它越来越复杂的任务，它的达成效果越来越好，我们的预期也越来越高，进入了一个非常高的正反馈循环。

以及连接飞书了之后，你跟它聊天、它向你汇报工作，这种体验的情绪价值是极强的。

但最重要的，是我们从过去迫使模型、agent和我们一起干活，变成我们可以更多深度思考我们的工作，对工作进行抽象和模式识别，形成skill和规范——每一个人都变成了更加senior（资深）的工作者。

APPSO：像你说的，如果agent越来越强，甚至自我进化，大部分人类都将无法追上它。那到时候人类应该做怎样的提升才能跟得上时代？新的工作范式会是什么样？

择因：Mavis上线后我去了新西兰10天，那里没有任何的AI和agent，但我过得很快乐。那么我觉得，到时候或许人类只要去享受agent提升的效率带来的便捷性就够了，大家完全可以去干其它更感兴趣、更符合人性的事情。

跟你说个现象：有些大厂开始招高中毕业生参与研学了。基于此我还有一个推演：将来大学本科生毕业之后，可能要「付费再上两到三年班」，成为一个senior之后，才能开始上班赚钱。

APPSO：你觉得未来的就业市场会成这样？

择因：这是在当前教育体制下，我回答你「agent效率高过人类」这个问题的一个推演。这个情况在一开始聊的视频剪辑领域，其实已经发生了。

「付费上班」的意思是，首先你的token消费可能最初是由自己买单，等同于交学费。如果agent的能力真的全面赶超人类，聪明的公司算笔账都不会再招初级员工，这才是最可怕的。到那时候，你要先成为资深员工，而这个过程可能需要自己付费。

当然这是基于现有的教育体制。那么会发生两种情况，一就是大家享受AI带来的效率，去创造更多更有人文情怀的事物；二是教育制度层面或许会发生一些创新。

APPSO：太有意思了。最后有个开放问题：如果你能掌握无限制的算力，训练或推理都行，并且可以以亲民的价格向用户提供，你想做什么？

择因：这个回答和MiniMax关系不大。我可能会把它用在推理上。

之前翁家翌提到（很多人也提过），人类的命运是可以被计算的：你的基因序列、倾向性、性格、激素水平可以测算；你的家庭条件，父母对你的影响（通过语言和肢体动作）也可以计算；你所处的环境是可量化的，小城市还是大城市、教育水平如何等等——在集齐了这些要素之后，每个当下的人的后续行为都可以预测。

我不是要用这个去预测别人，我希望它成为每个人的分身，可以把我的一切过往经历和生理资料都给它，在遇到决策点时去跟它讨论。

我之前是一个美团程序员，我可以跳槽去互联网公司或者考公（计算机还挺吃香），但这些决策更多因为我的过往认知。但是否存在一些我想不到的可能性，能够被建模、预测出来？

这就是我想做的，我觉得这才是真正解放人类的一环。人有生老病死，我们认为人生是一条单行线。但其实每个分支点都可能展开不一样的平行人生。

以及前面这些没有考虑意外。意外反而是最大的、不可预测的。我希望我做这个东西能够拯救因为意外而导致所有要素不再成立的人。从「肥尾效应」的角度来看，小概率事件才真正支配了我们大部分时间。它能让我们更多的关注点放在这些小概率但颠覆性的事件上，因为大概率的事件是能被算出来的。

APPSO：有点《少数派报告》《超验骇客》，所以你会希望你的每一步都走对吗？

择因：不一定。我更希望能知道我在认知之内能做什么选择，认知之外能做什么选择。

认知之外的就是惊喜。我想做的东西，对你不就是个惊喜吗？

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定