Claude Sonnet 4.5在SWE-bench Verified(衡量AI系统软件编码能力的行业标准测试)中展现出顶尖性能,Anthropic公司明确宣称其为’全球最佳编码模型’。该模型不仅能生成更高质量的代码,还更善于识别代码改进空间,执行指令的可靠性实现质的飞跃,使开发者能够构建’可投入生产使用’的应用程序,而非仅停留在原型阶段。
技术层面,Claude Sonnet 4.5实现了多项关键突破:
- 持续工作能力大幅提升,可自主运行30小时专注于复杂的多步骤任务,而今年5月推出的Claude Opus 4自主运行时长仅为7小时。[1]
- 通过广泛的安全训练,显著减少了’欺骗、追求控制权、阿谀奉承’等’问题行为’,使模型行为更加可靠。
- 尽管模型规模小于Claude Opus 4.1,但Anthropic首席产品官迈克·克里格表示,Sonnet 4.5在’几乎所有方面’都比后者更智能,特别是在实际工作场景中表现更为出色。