2026-06-05 11:34

豆包向左，微信向右

本文来自微信公众号： AI超维度，作者：北京汉·索罗

据英国《金融时报》报道，微信正在测试一个内嵌的AI Agent，能够连接微信里的小程序帮用户完成各种日常任务。腾讯内部对这件事腾讯对此高度重视，计划最快本月启动合规流程。6月2日，腾讯股价盘中涨了8.58%，单日市值增加超过三千亿港元。

市场反应说明一件事：所有人都在等微信做AI。但市场期待的，大概率是一个微信版豆包：在聊天列表里加一个更聪明的机器人。上一篇我们写过，豆包3.45亿月活是怎么来的：学习辅导、语音陪伴、影像创作，字节用消费App的方法论训练出了国内最大的独立AI入口。豆包代表的是AI作为独立入口的路线。微信Agent走的是另一条路：让AI嵌入既有系统。

但FT报道透出的细节，比"微信版豆包"有意思得多。见过早期演示的人描述了这样一个场景：用户右滑调出聊天框，输入需求，Agent自动连接微信里的小程序，根据口味偏好和价格筛选咖啡店，然后代用户下单点饮料。这和腾讯在3月18日发布的2025年年报中的表述一致：年报明确提到，目标是在微信生态内建设下一代Agentic services，把小程序、内容、社交和支付能力连接起来。

要把这些真正连起来，Agent至少要做到四件事。

首先是理解意图。微信里的需求很少以"请帮我做某某事"的格式出现。它们藏在群聊里一句"周末聚一下"、朋友转来的一条公众号链接、视频号里一段让你心动的内容、服务通知里一条还没处理的提醒。Agent要从这些碎片里识别出来：这个人想做什么。

然后是读懂上下文。同样一句"帮我订个餐厅"，在家庭群里说和在工作群里说，意思完全不同——谁在参与、谁能拍板、预算多少、有什么忌口、任务进行到了哪一步。难点在于微信里的任务天然跨越时间，家庭群讨论暑假的对话可能断断续续持续好几天。

接下来是调用工具。Agent需要动手：用搜一搜查信息，用小程序完成查询和比价，用微信支付完成交易，用服务通知把结果反馈给用户。根据腾讯2022年披露的数据，小程序日活已超过6亿，覆盖几百个细分领域，工具箱足够大，问题是Agent能不能学会打开正确的那个并完成整套操作。而且14亿月活的入口如果每个场景都触发推理，成本是天文数字。

最后是权限边界。这可能是最难也最关键的一步。AI帮你搜个餐厅推荐没什么问题，但帮你付钱呢？帮你在群里发一条确认消息呢？帮你取消一个订单呢？哪些动作可以自己做，哪些必须停下来问你，哪些绝对不能碰，这条线画在哪里，直接决定用户愿不愿意把事情交给Agent。

今天这四件事绝大多数都是用户自己手动完成的——自己判断需求，自己提供背景，自己打开小程序操作，自己确认支付。大量需求因此停在意图阶段，路径太长，流程太碎，最后懒得动了。把这四件事串起来看，微信Agent的野心远超一个聊天助手：它是要把关系链、内容流、小程序、支付和服务通知，变成一个可被AI理解、调度和执行的系统。

这跟豆包走的完全是两个方向。豆包向左，做独立入口，训练用户主动来找AI。微信向右，AI嵌入既有系统，在需求发生的地方识别、理解、执行。

说起来清楚，做起来有多难？尽管我们未能目睹微信Agent的庐山真面目，但从公开信息里可以试着拼凑它的大致轮廓。AI超维度对微信AI团队过去两年的论文发表做了一次系统梳理，并结合官网招聘信息。上面提到的四个能力方向——意图、上下文、工具、权限——每一个都找到了对应的研究线。但其中最出人意料的，是微信团队在"调用工具"这一步上选的路：GUI Agent。

AI超维度根据公开资料整理提供

什么是GUI Agent？简单说，就是让AI像人一样看屏幕、找按钮、点击操作。你第一次打开一个从没用过的App，看一眼界面就大概知道该点哪里——GUI Agent要做的就是这件事，只不过做的是AI。

为什么走这条路？因为更直接的做法——让小程序开发者接入标准API来配合Agent——短期内走不通。微信小程序有几百万个，由不同开发者维护，界面逻辑千差万别，要几百万人配合改造不现实。GUI Agent绕过了这个问题：AI不需要API，它直接看屏幕。

这条路分三步。

第一步，看懂界面。Agent拿到的是一张小程序截图，它要能准确找到"下单"按钮在哪、搜索框在哪、确认入口在哪。微信有几百万个小程序，长得千差万别，同样是"下单"按钮，在不同小程序里的样子可能完全不同。微信团队为此在自己的多模态模型POINTS基础上，专门训练了一个面向界面定位的版本，叫POINTS-GUI-G——给它一张截图和一条指令（比如"找到下单按钮"），它要精确输出按钮在屏幕上的坐标。训练这种能力有一个有利条件：Agent有没有点对地方，看一眼就知道，对了就是对了，错了就是错了，不需要人来打分。这让模型可以快速从大量尝试中学习。POINTS-GUI-G最终在ScreenSpot-Pro上拿到了最高分，ScreenSpot-Pro是目前业界公认最难的GUI定位基准。换句话说，在"找到按钮"这件事上，微信团队目前做到了全球最好。对微信Agent来说，这意味着它理论上可以在任何一个小程序里操作，不需要开发者专门为它做适配。

第二步，预测操作结果。Agent找到了按钮，但点下去会发生什么？页面会跳转到哪里？会弹出什么窗口？支付流程会不会启动？人类操作App的时候对这些有直觉，Agent没有这种直觉，它得从数据里学。微信团队的UI-Oceanus给小程序生态造了一个"世界模型"——游戏AI学的是"按下这个键角色会怎么动"，小程序的世界模型学的是"点这个按钮页面会怎么变"。直接在真实小程序环境里训练太慢、太不稳定，所以UI-Oceanus自动模拟操作和页面变化，生成了500万样本、32亿token的合成训练数据来解决这个问题。效果如何？在Agent从没见过的陌生小程序上冷启动测试，导航成功率提升了21.9%。"冷启动"是这个数字里最重要的信息——Agent面对一个完全陌生的小程序，不需要任何预先了解就能摸索着完成任务。而且论文显示数据和性能之间的关系还没有触顶，微信团队继续投入数据，Agent操作小程序的能力还在涨。

第三步，判断反馈。Agent操作完一步之后，它得知道自己成功了没有。按钮从蓝色变灰色了没有？"确认支付"变成"支付成功"了没有？库存从"3件"变成"已售罄"了没有？这些变化人一眼就能看出来，但对视觉模型来说极其困难：差异可能就是一个颜色的深浅、一行文字的替换、一个图标的出现或消失。微信团队的DiffSpot在真实网页上自动制造这些细微变化，生成操作前后的截图对，训练模型学会识别界面上到底哪里不一样了。但目前的测试显示，主流视觉模型在这类任务上仍然吃力。三步里面，这是最薄弱的一环，也是微信Agent从演示走向产品之间，最需要补上的一块。

从演示走向产品，除了技术还有一个绕不过去的问题：钱。Agent每帮你办一件事，都要烧真金白银的推理算力——多步推理、上下文管理、工具调用、出了错还得修正，每一步都在消耗token。刷朋友圈多一个人几乎不增加成本，Agent多接一个任务就多烧一份钱。腾讯Q1资本开支370亿元投向AI基础设施，据财报推算新AI产品每季度消耗约88亿元。这不是一次性投入，是持续的运营成本。

但成本只是问题的一半。更值得关注的是，Agent正在改变广告和交易的基本逻辑。

传统互联网广告卖的是注意力：让用户看到一条广告，商家为曝光或点击付费。从"看到广告"到"完成购买"之间有层层漏斗，每一步都有大量流失。但Agent正在把这个漏斗压扁。Adobe Analytics的数据显示，通过AI渠道访问零售网站的用户，单次访问产生的收入比普通用户高84%。因为AI帮用户跳过了浏览、比价、犹豫这些中间环节，直接走到购买。Shopify的数据更直接：2025年1月到2026年3月，AI归因的订单量增长了11倍。

这个趋势的终点，是商业模式从"注意力经济"转向"意图经济"——平台赚钱靠的不再是"让用户多看"，而是"帮用户完成"。

ChatGPT已经在往这个方向走。2026年2月开始在免费用户中测试广告，定向方式不再是传统的关键词匹配，而是基于用户当前的对话内容和历史聊天——本质上是意图匹配。同时ChatGPT接入了Stripe支付、Shopify电商、DoorDash外卖，试图让用户在对话中直接完成交易。但ChatGPT的困难在于，用户来这里是为了问问题——目前只有2.1%的查询跟交易有关。而且有一个很现实的技术问题：Agent通过API完成的交易，传统归因工具根本追踪不到——没有浏览器session，没有cookie，没有感谢页面。Shopify不得不专门开发了新的服务端追踪系统来解决这个问题。

微信面对的是一个完全不同的局面。很少有平台能在同一个生态里同时拥有三样东西：

意图数据——用户在聊天和群聊里自然表达的需求。

执行能力——几百万个小程序可以完成从搜索到下单的全流程。

交易确认——微信支付。Agent促成的每一笔交易，从意图识别到支付完成，全程在微信生态内闭合，不存在归因断裂的问题。

而且AI提升广告效率这件事微信已经在做了。腾讯Q1集团营销服务收入382亿元，同比增长20%，财报把增长归因于AI驱动的推荐模型升级和微信生态闭环营销能力扩展。Agent要做的是把这条链路再往前推一步：从"AI帮用户看到更相关的广告"变成"AI帮用户直接把事办了"。

这条路走不走得通，老实说没人知道。推理成本能不能压到商业可行、用户愿不愿意让AI替自己付钱、Agent促成的交易质量够不够高——Gartner预测超过40%的agentic AI项目会在2027年前被叫停，原因就是成本、价值不清和风险控制。但微信至少有一个别人没有的起点：它不需要从零搭建支付系统、商家关系和交易归因能力，也不需要说服用户在一个聊天工具里培养购物习惯。这些东西已经在那里了。

豆包要回答的是"怎么让用户开始付费"。微信要回答的是"怎么让AI把已有的飞轮转得更快"。

上一篇我们说过，Agent时代会从横向竞争走向纵向分化。豆包找到的垂直场景是学习和影像创作。微信找到的垂直场景，是微信自己。

它有14亿用户每天产生的真实需求，大量停在意图阶段等着被接住。它有别人造不出的执行层——几百万个小程序、微信支付、服务通知。它有一条大多数人没想到的技术路线——GUI Agent，让AI直接看屏幕操作，绕过了让开发者配合的难题。它还有一个已经被AI驱动的广告引擎，Agent只是让这个飞轮再转一步。

短视频时代，视频号证明过微信不需要照抄抖音，可以从关系链里长出来，走了一条完全不同的路。Agent时代，他要证明同一件事：AI也可以长进微信，而不是只长成一个独立App。

豆包向左，微信向右。豆包在训练用户使用AI，微信在训练AI使用微信。

两条路都还很早，但方向已经分开了。

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP