不限时免费,全球榜单前十AI Lab开放全模态API,我先替你测了
2026-06-01 11:11

不限时免费,全球榜单前十AI Lab开放全模态API,我先替你测了

本文来自微信公众号: 智东西 ,作者:江 宇,编辑:漠影,原文标题:《不限时免费!全球榜单前十AI Lab开放全模态API,我先替你测了》


“Tokenmaxxing”(把Token消耗拉到极限)正在成为开发者社区的新热词。Token预算,被视为衡量AI使用深度的新指标。有初创公司CEO甚至把Anthropic账单晒在LinkedIn上,当作公司AI化程度的重要证明。


▲图源:Swan AI CEO Amos Bar-Joseph


然而,一个关键问题被忽略了:我们到底在用Token创造什么?


成本确实在飙升。高盛预测,未来几年Token使用量可能增长24倍以上;英伟达应用深度学习副总裁甚至坦言,AI成本已超过团队薪资。


▲图源:高盛


但产出的质量呢?数据给出了不太乐观的答案。


代码生成领域尤为典型。Waydev跟踪50多家企业发现,AI生成代码的长期保留率仅为10%~30%。GitClear的报告更直接:重度AI使用者的代码返工量是非AI用户的9.4倍。另一平台Jellyfish的统计则显示,部分团队代码吞吐量提升2倍,代价却是Token成本飙升近10倍。


▲代码翻修量增速超过生产力增速,数据来源:GitClear


当Token消耗持续增长,投入产出比变得尤为主要。Token焦虑,正在成为AI落地的真实阻力。


01.


当Token越来越贵



02.


成本归零之后,开发者更关心的是:模型到底能不能打?我们分别对文本、图像和视频模型进行了实测。


    首先来看看编程能力。我们先让Agnes-2.0-Flash生成一款飞机大战网页游戏。





    接下来,我们进一步提高难度,把测试重点放在前端设计和产品界面生成能力上。




      我们首先尝试了一组人物形象重塑任务,重点测试模型在人像特写场景下的编辑能力。模型需要保留原人物身份特征,同时将其重新塑造成韩流偶像打歌舞台风格。


      第二组测试我们把目标放在电商设计场景。我们直接上传了一张护发精油的实拍照片,并要求模型生成一张完整的电商海报。


      信息图是对图像模型更复杂的考验。为此,我们设计了两组不同方向的信息图任务。


      第一组测试偏向流程图和知识科普场景。



      第二组测试则进一步提高难度。我们要求模型根据海洋生物特征生成一套建筑概念设计信息图,既要展示灵感来源,也要呈现设计推导过程和最终建筑方案。



        第一个案例是一段架子鼓演奏视频。


        第二个案例则进一步增加了复杂度。乐队画面中需要同时出现了主唱、吉他手和鼓手三名人物。


        随后,我们又测试了一个更具电影质感的场景。


        最后,我们测试了一个更具挑战性的人物表演场景。


        03.


        ▲图源:Claw-Eval榜单


        ▲图源:Artificial Analysis


        ▲图源:Artificial Analysis


        04.


        结语:免费开放背后


        一场关于AI基础设施的新竞争


        随着模型性能不断接近,开发者对成本、稳定性、调用便利性和工程化能力的关注正在上升。


        云计算行业曾经历过类似阶段:当基础设施逐渐普及,应用生态也随之扩张。AI领域正在出现相似变化。越来越多开发者希望把精力投入产品设计和用户需求,却仍被调用成本牵制。

        AI原生产品日报频道: 前沿科技
        本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
        如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
        正在改变与想要改变世界的人,都在 虎嗅APP
        赞赏
        关闭赞赏 开启赞赏

        支持一下   修改

        确定