2026-06-01 11:11

不限时免费，全球榜单前十AI Lab开放全模态API，我先替你测了

本文来自微信公众号：智东西，作者：江宇，编辑：漠影，原文标题：《不限时免费！全球榜单前十AI Lab开放全模态API，我先替你测了》

“Tokenmaxxing”（把Token消耗拉到极限）正在成为开发者社区的新热词。Token预算，被视为衡量AI使用深度的新指标。有初创公司CEO甚至把Anthropic账单晒在LinkedIn上，当作公司AI化程度的重要证明。

▲图源：Swan AI CEO Amos Bar-Joseph

然而，一个关键问题被忽略了：我们到底在用Token创造什么？

成本确实在飙升。高盛预测，未来几年Token使用量可能增长24倍以上；英伟达应用深度学习副总裁甚至坦言，AI成本已超过团队薪资。

▲图源：高盛

但产出的质量呢？数据给出了不太乐观的答案。

代码生成领域尤为典型。Waydev跟踪50多家企业发现，AI生成代码的长期保留率仅为10%~30%。GitClear的报告更直接：重度AI使用者的代码返工量是非AI用户的9.4倍。另一平台Jellyfish的统计则显示，部分团队代码吞吐量提升2倍，代价却是Token成本飙升近10倍。

▲代码翻修量增速超过生产力增速，数据来源：GitClear

当Token消耗持续增长，投入产出比变得尤为主要。Token焦虑，正在成为AI落地的真实阻力。

01. 当Token越来越贵

成本归零之后，开发者更关心的是：模型到底能不能打？我们分别对文本、图像和视频模型进行了实测。

首先来看看编程能力。我们先让Agnes-2.0-Flash生成一款飞机大战网页游戏。

接下来，我们进一步提高难度，把测试重点放在前端设计和产品界面生成能力上。

我们首先尝试了一组人物形象重塑任务，重点测试模型在人像特写场景下的编辑能力。模型需要保留原人物身份特征，同时将其重新塑造成韩流偶像打歌舞台风格。

第二组测试我们把目标放在电商设计场景。我们直接上传了一张护发精油的实拍照片，并要求模型生成一张完整的电商海报。

信息图是对图像模型更复杂的考验。为此，我们设计了两组不同方向的信息图任务。

第一组测试偏向流程图和知识科普场景。

第二组测试则进一步提高难度。我们要求模型根据海洋生物特征生成一套建筑概念设计信息图，既要展示灵感来源，也要呈现设计推导过程和最终建筑方案。

第一个案例是一段架子鼓演奏视频。

第二个案例则进一步增加了复杂度。乐队画面中需要同时出现了主唱、吉他手和鼓手三名人物。

随后，我们又测试了一个更具电影质感的场景。

最后，我们测试了一个更具挑战性的人物表演场景。

▲图源：Claw-Eval榜单

▲图源：Artificial Analysis

随着模型性能不断接近，开发者对成本、稳定性、调用便利性和工程化能力的关注正在上升。

云计算行业曾经历过类似阶段：当基础设施逐渐普及，应用生态也随之扩张。AI领域正在出现相似变化。越来越多开发者希望把精力投入产品设计和用户需求，却仍被调用成本牵制。

智东西

这里本来有条个人简介

认证作者

已在虎嗅发表 424 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定