415
爆OpenAI采用智谱标准评测最新模型。
OpenAI 在刚刚发布的 GPT-4.1 系列模型中评测其函数调用能力时采用了 ComplexFuncBench,这是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。
ComplexFuncBench 主要评测大模型在 128K 的长上下文下进行多步带约束的函数调用的能力。相比于现有函数调用测试基准,ComplexFuncBench 要求大模型对真实场景下的用户需求进行细粒度理解,并在此基础上进行多步带推理的函数调用,这对模型的函数调用能力提出了更高的挑战。
GPT-4.1 模型在 ComplexFuncBench 得分不足 70,这说明 ComplexFuncBench 在可预见未来依然能为大模型函数调用能力提升和优化提供有效指引,助力智能体应用的开发与落地。
2025-4-15
00