本文来自微信公众号: AI超维度 ,作者:北京汉·索罗
据英国《金融时报》报道,微信正在测试一个内嵌的AI Agent,能够连接微信里的小程序帮用户完成各种日常任务。腾讯内部对这件事腾讯对此高度重视,计划最快本月启动合规流程。6月2日,腾讯股价盘中涨了8.58%,单日市值增加超过三千亿港元。
市场反应说明一件事:所有人都在等微信做AI。但市场期待的,大概率是一个微信版豆包:在聊天列表里加一个更聪明的机器人。上一篇我们写过,豆包3.45亿月活是怎么来的:学习辅导、语音陪伴、影像创作,字节用消费App的方法论训练出了国内最大的独立AI入口。豆包代表的是AI作为独立入口的路线。微信Agent走的是另一条路:让AI嵌入既有系统。
但FT报道透出的细节,比"微信版豆包"有意思得多。见过早期演示的人描述了这样一个场景:用户右滑调出聊天框,输入需求,Agent自动连接微信里的小程序,根据口味偏好和价格筛选咖啡店,然后代用户下单点饮料。这和腾讯在3月18日发布的2025年年报中的表述一致:年报明确提到,目标是在微信生态内建设下一代Agentic services,把小程序、内容、社交和支付能力连接起来。
要把这些真正连起来,Agent至少要做到四件事。
首先是理解意图。微信里的需求很少以"请帮我做某某事"的格式出现。它们藏在群聊里一句"周末聚一下"、朋友转来的一条公众号链接、视频号里一段让你心动的内容、服务通知里一条还没处理的提醒。Agent要从这些碎片里识别出来:这个人想做什么。
然后是读懂上下文。同样一句"帮我订个餐厅",在家庭群里说和在工作群里说,意思完全不同——谁在参与、谁能拍板、预算多少、有什么忌口、任务进行到了哪一步。难点在于微信里的任务天然跨越时间,家庭群讨论暑假的对话可能断断续续持续好几天。
接下来是调用工具。Agent需要动手:用搜一搜查信息,用小程序完成查询和比价,用微信支付完成交易,用服务通知把结果反馈给用户。根据腾讯2022年披露的数据,小程序日活已超过6亿,覆盖几百个细分领域,工具箱足够大,问题是Agent能不能学会打开正确的那个并完成整套操作。而且14亿月活的入口如果每个场景都触发推理,成本是天文数字。
最后是权限边界。这可能是最难也最关键的一步。AI帮你搜个餐厅推荐没什么问题,但帮你付钱呢?帮你在群里发一条确认消息呢?帮你取消一个订单呢?哪些动作可以自己做,哪些必须停下来问你,哪些绝对不能碰,这条线画在哪里,直接决定用户愿不愿意把事情交给Agent。
今天这四件事绝大多数都是用户自己手动完成的——自己判断需求,自己提供背景,自己打开小程序操作,自己确认支付。大量需求因此停在意图阶段,路径太长,流程太碎,最后懒得动了。把这四件事串起来看,微信Agent的野心远超一个聊天助手:它是要把关系链、内容流、小程序、支付和服务通知,变成一个可被AI理解、调度和执行的系统。
这跟豆包走的完全是两个方向。豆包向左,做独立入口,训练用户主动来找AI。微信向右,AI嵌入既有系统,在需求发生的地方识别、理解、执行。
说起来清楚,做起来有多难?尽管我们未能目睹微信Agent的庐山真面目,但从公开信息里可以试着拼凑它的大致轮廓。AI超维度对微信AI团队过去两年的论文发表做了一次系统梳理,并结合官网招聘信息。上面提到的四个能力方向——意图、上下文、工具、权限——每一个都找到了对应的研究线。但其中最出人意料的,是微信团队在"调用工具"这一步上选的路:GUI Agent。

AI超维度根据公开资料整理提供
什么是GUI Agent?简单说,就是让AI像人一样看屏幕、找按钮、点击操作。你第一次打开一个从没用过的App,看一眼界面就大概知道该点哪里——GUI Agent要做的就是这件事,只不过做的是AI。
为什么走这条路?因为更直接的做法——让小程序开发者接入标准API来配合Agent——短期内走不通。微信小程序有几百万个,由不同开发者维护,界面逻辑千差万别,要几百万人配合改造不现实。GUI Agent绕过了这个问题:AI不需要API,它直接看屏幕。
这条路分三步。
第一步,看懂界面。Agent拿到的是一张小程序截图,它要能准确找到"下单"按钮在哪、搜索框在哪、确认入口在哪。微信有几百万个小程序,长得千差万别,同样是"下单"按钮,在不同小程序里的样子可能完全不同。微信团队为此在自己的多模态模型POINTS基础上,专门训练了一个面向界面定位的版本,叫POINTS-GUI-G——给它一张截图和一条指令(比如"找到下单按钮"),它要精确输出按钮在屏幕上的坐标。训练这种能力有一个有利条件:Agent有没有点对地方,看一眼就知道,对了就是对了,错了就是错了,不需要人来打分。这让模型可以快速从大量尝试中学习。POINTS-GUI-G最终在ScreenSpot-Pro上拿到了最高分,ScreenSpot-Pro是目前业界公认最难的GUI定位基准。换句话说,在"找到按钮"这件事上,微信团队目前做到了全球最好。对微信Agent来说,这意味着它理论上可以在任何一个小程序里操作,不需要开发者专门为它做适配。
第二步,预测操作结果。Agent找到了按钮,但点下去会发生什么?页面会跳转到哪里?会弹出什么窗口?支付流程会不会启动?人类操作App的时候对这些有直觉,Agent没有这种直觉,它得从数据里学。微信团队的UI-Oceanus给小程序生态造了一个"世界模型"——游戏AI学的是"按下这个键角色会怎么动",小程序的世界模型学的是"点这个按钮页面会怎么变"。直接在真实小程序环境里训练太慢、太不稳定,所以UI-Oceanus自动模拟操作和页面变化,生成了500万样本、32亿token的合成训练数据来解决这个问题。效果如何?在Agent从没见过的陌生小程序上冷启动测试,导航成功率提升了21.9%。"冷启动"是这个数字里最重要的信息——Agent面对一个完全陌生的小程序,不需要任何预先了解就能摸索着完成任务。而且论文显示数据和性能之间的关系还没有触顶,微信团队继续投入数据,Agent操作小程序的能力还在涨。
第三步,判断反馈。Agent操作完一步之后,它得知道自己成功了没有。按钮从蓝色变灰色了没有?"确认支付"变成"支付成功"了没有?库存从"3件"变成"已售罄"了没有?这些变化人一眼就能看出来,但对视觉模型来说极其困难:差异可能就是一个颜色的深浅、一行文字的替换、一个图标的出现或消失。微信团队的DiffSpot在真实网页上自动制造这些细微变化,生成操作前后的截图对,训练模型学会识别界面上到底哪里不一样了。但目前的测试显示,主流视觉模型在这类任务上仍然吃力。三步里面,这是最薄弱的一环,也是微信Agent从演示走向产品之间,最需要补上的一块。
从演示走向产品,除了技术还有一个绕不过去的问题:钱。Agent每帮你办一件事,都要烧真金白银的推理算力——多步推理、上下文管理、工具调用、出了错还得修正,每一步都在消耗token。刷朋友圈多一个人几乎不增加成本,Agent多接一个任务就多烧一份钱。腾讯Q1资本开支370亿元投向AI基础设施,据财报推算新AI产品每季度消耗约88亿元。这不是一次性投入,是持续的运营成本。
但成本只是问题的一半。更值得关注的是,Agent正在改变广告和交易的基本逻辑。
传统互联网广告卖的是注意力:让用户看到一条广告,商家为曝光或点击付费。从"看到广告"到"完成购买"之间有层层漏斗,每一步都有大量流失。但Agent正在把这个漏斗压扁。Adobe Analytics的数据显示,通过AI渠道访问零售网站的用户,单次访问产生的收入比普通用户高84%。因为AI帮用户跳过了浏览、比价、犹豫这些中间环节,直接走到购买。Shopify的数据更直接:2025年1月到2026年3月,AI归因的订单量增长了11倍。
这个趋势的终点,是商业模式从"注意力经济"转向"意图经济"——平台赚钱靠的不再是"让用户多看",而是"帮用户完成"。
ChatGPT已经在往这个方向走。2026年2月开始在免费用户中测试广告,定向方式不再是传统的关键词匹配,而是基于用户当前的对话内容和历史聊天——本质上是意图匹配。同时ChatGPT接入了Stripe支付、Shopify电商、DoorDash外卖,试图让用户在对话中直接完成交易。但ChatGPT的困难在于,用户来这里是为了问问题——目前只有2.1%的查询跟交易有关。而且有一个很现实的技术问题:Agent通过API完成的交易,传统归因工具根本追踪不到——没有浏览器session,没有cookie,没有感谢页面。Shopify不得不专门开发了新的服务端追踪系统来解决这个问题。
微信面对的是一个完全不同的局面。很少有平台能在同一个生态里同时拥有三样东西:
意图数据——用户在聊天和群聊里自然表达的需求。
执行能力——几百万个小程序可以完成从搜索到下单的全流程。
交易确认——微信支付。Agent促成的每一笔交易,从意图识别到支付完成,全程在微信生态内闭合,不存在归因断裂的问题。
而且AI提升广告效率这件事微信已经在做了。腾讯Q1集团营销服务收入382亿元,同比增长20%,财报把增长归因于AI驱动的推荐模型升级和微信生态闭环营销能力扩展。Agent要做的是把这条链路再往前推一步:从"AI帮用户看到更相关的广告"变成"AI帮用户直接把事办了"。
这条路走不走得通,老实说没人知道。推理成本能不能压到商业可行、用户愿不愿意让AI替自己付钱、Agent促成的交易质量够不够高——Gartner预测超过40%的agentic AI项目会在2027年前被叫停,原因就是成本、价值不清和风险控制。但微信至少有一个别人没有的起点:它不需要从零搭建支付系统、商家关系和交易归因能力,也不需要说服用户在一个聊天工具里培养购物习惯。这些东西已经在那里了。
豆包要回答的是"怎么让用户开始付费"。微信要回答的是"怎么让AI把已有的飞轮转得更快"。
上一篇我们说过,Agent时代会从横向竞争走向纵向分化。豆包找到的垂直场景是学习和影像创作。微信找到的垂直场景,是微信自己。
它有14亿用户每天产生的真实需求,大量停在意图阶段等着被接住。它有别人造不出的执行层——几百万个小程序、微信支付、服务通知。它有一条大多数人没想到的技术路线——GUI Agent,让AI直接看屏幕操作,绕过了让开发者配合的难题。它还有一个已经被AI驱动的广告引擎,Agent只是让这个飞轮再转一步。
短视频时代,视频号证明过微信不需要照抄抖音,可以从关系链里长出来,走了一条完全不同的路。Agent时代,他要证明同一件事:AI也可以长进微信,而不是只长成一个独立App。
豆包向左,微信向右。豆包在训练用户使用AI,微信在训练AI使用微信。
两条路都还很早,但方向已经分开了。
