11-25

Anthropic推新AI模型,编程与办公领域表现更佳

新闻图片

Anthropic公司于9月30日正式推出新一代AI模型Claude Sonnet 4.5,该模型在编码基准测试中表现卓越,被公司称为'全球最佳编码模型',不仅能构建可直接投入生产使用的应用程序,还具备30小时持续专注复杂任务的能力,显著超越前代模型及行业竞争对手。

3 来源
技术性能与编码能力突破

Claude Sonnet 4.5在SWE-bench Verified(衡量AI系统软件编码能力的行业标准测试)中展现出顶尖性能,Anthropic公司明确宣称其为’全球最佳编码模型’。该模型不仅能生成更高质量的代码,还更善于识别代码改进空间,执行指令的可靠性实现质的飞跃,使开发者能够构建’可投入生产使用’的应用程序,而非仅停留在原型阶段。

技术层面,Claude Sonnet 4.5实现了多项关键突破:

  • 持续工作能力大幅提升,可自主运行30小时专注于复杂的多步骤任务,而今年5月推出的Claude Opus 4自主运行时长仅为7小时。[1]
  • 通过广泛的安全训练,显著减少了’欺骗、追求控制权、阿谀奉承’等’问题行为’,使模型行为更加可靠。
  • 尽管模型规模小于Claude Opus 4.1,但Anthropic首席产品官迈克·克里格表示,Sonnet 4.5在’几乎所有方面’都比后者更智能,特别是在实际工作场景中表现更为出色。
开发者生态与Agent能力革新

此次发布对开发者而言最具革命性的更新是Claude Agent SDK的推出,Anthropic首次开放自家底层基础设施,使外部开发者能够基于Claude构建属于自己的Agent系统。这一举措标志着Anthropic正从单纯的模型提供商向AI生态系统构建者转变。[1]

Anthropic联合创始人兼首席科学官贾里德·卡普兰指出,用户使用Claude Sonnet 4.5后会明显发现’它更智能,也更像一位同事——在遇到问题并解决问题的过程中,与它协作会带来一种愉悦感’。

实测表明,该模型在编程任务中展现出前所未有的能力:

  • 能够理解复杂业务需求并生成可直接部署的代码
  • 在网络安全、金融、科研等专业领域表现突出
  • 提供更精准的代码改进建议,大幅提高开发效率[1]
专业应用与行业竞争格局

Claude Sonnet 4.5的推出正值AI编程能力成为行业竞争焦点之际。Anthropic将该模型定位为’基本适用于所有使用场景’的默认选择,特别强调其在网络安全、金融和科研等专业领域的应用价值。

与竞争对手相比,Claude Sonnet 4.5展现出明显优势:

  • 相比OpenAI近期推出的GPT-5-Codex(其’思考’时间从几秒到七小时不等),Claude Sonnet 4.5的30小时持续工作能力使其在处理超大型项目时更具优势[1]
  • Anthropic首席产品官迈克·克里格强调,尽管OpenAI也在编程领域发力,但Claude Sonnet 4.5在实际工作场景中的可靠性和质量已获得客户广泛认可
  • 作为估值1830亿美元、由亚马逊支持的初创公司,Anthropic正通过持续创新缩小与OpenAI(估值5000亿美元)之间的差距[2]
本内容由AI生成