近日,Kimi Researcher提出了一种基于端到端强化学习的单智能体框架,通过统一的学习架构整合任务规划、感知与工具使用能力,显著提升了自主研究任务的效率。该模型在单任务中平均执行23个推理步骤,探索超200个网页,并在HumanEval基准测试中达到26.9%的准确率,部分任务性能超越现有SOTA。
技术核心包括并行实时搜索工具、自动化数据验证管道及异步训练优化,采用Reinforce算法鼓励高效路径选择,同时惩罚冗余工具使用以提升响应速度。实验显示,模型涌现出矛盾信息修正、跨源验证等新能力。
与Anthropic的多智能体框架相比,Kimi的单智能体方案强调整体学习与强化训练的回报驱动,避免了监督微调的环境依赖问题。业界认为,两种范式各具潜力,未来若能融合优势,或将成为下一代深度调研技术的关键突破。
2025-07-05 22:49
Kimi端到端学习的自主Agent
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏
支持一下 修改
确定