本文来自微信公众号: 出海同学会 ,作者:出海同学会,原文标题:《干货|OpenClaw之后,AI AGENT赛道研讨》
今年年初OpenClaw可谓是在AI agent方向让全世界又激动了一把。创始人Peter Steinburger在旧金山的千人聚会更是让硅谷AI人们都趋之若鹜。为什么是OpenClaw?为什么是现在?Agent的2026爆发到来了吗?
OpenClaw为代表的“边缘执行节点”模式,既没有选择云端,也没有选择本机,这为行业提供了新的解题思路。它不再是单纯的“云”或“端”,而是一种可能重塑Agent基础设施的新范式。大家的关注也从Agent与Data本身,到了Context、memory等更为重要的结构。这一次我们想与一线从业的同学们一起聊聊,这一信号意味着什么?从一个Demo到产品,其可靠性来自何处?在Agent的基础设施层,是否存在被行业低估的系统性机会?以及对全球新一代创始人而言,真正的未来机会与制胜点又将落在何方?
以下是本次会议可公开部分。
💡阅读小Tips:
因原文逐字稿巨长

本期课代表
按公司名数字-字母序
Ancher AI|Cofounder CTO|Steve Li
Boomfluence.ai|Founder|Tina Zhou
Datastrato|Cofounder&CEO|堵俊平
Dev Agent|PM|Rui Xu
Frictionless Compute|Founder|Shawn
Happycapy|增长负责人|Yina Chan
Keplogic|CTO|Quinn Leng
MemoryX|Founder|Bryant Chen
Scam.AI|CTO|Ben Ren
Subotiz Sherry Li
日本Winnersoft孙嘉人
硅基流动|Co-Founder|杨攀
一些同学因公司PR保密不能公开
或有部分内容需要删减
我们同样感谢他们的精彩输出
本期我们将同学们在zoom输出的重要观点
也整理进入了此次笔记
如链接或企业名为嘉宾引用第三方,侵删。
要点问题
SEAMATE
Part 1背景研讨:信号还是个例
OpenClaw出现对行业意味什么?
预示AI创新的怎样的下一阶段格局?
应如何解决商业化和安全性问题?
Part 2破壁研讨:从Demo到可复制系统
它为什么没选择“云端”和“本机”?
如何在“垂直+execution”做更好?
在Data/Context层面,行业怎样调整?
Part 3机会研讨:下一阶段的制胜
在Agent的基础设施层是否被低估?
单位成功任务成本如何持续下降?
全球范围内,新创始人的机会在哪?
Part.01背景研讨:
信号还是个例
1.1OpenClaw为什么会出现?
对行业意味着什么?
1
杨攀:
——硅基流动
2025年我觉得整个上半年,其实以Claude模型为首的,它的agentic能力提上来了。然后2025年下半年,Claude Code把整个agentic的工程,包括工具调用、包括长程任务把这个能力基本上都完善得差不多了。然后OpenClaw出现在2026年1月份,其实它是2025年12月发布的。2026年1月份的出现,其实走向了一个新阶段。这个新阶段首先,OpenClaw是一个无限的loop。然后另外一件事,其实它给大家做了一个最好的示范:就是如何把前面Claude Code已经构建好的这个agentic的核心,对接上基础设施。其实OpenClaw里边最核心的就是几个概念,包括Gateway,包括整个所有能对接的插件系统。
我觉得它才是对整个产业行业的一个最大价值:就是它这个东西跑通之后,大家知道“哦,这个事原来是可以这么做的”。于是各种各样的OpenClaw就出来了,有两类生态:一类是“我就拿OpenClaw当核心,然后我在外围构建”;还有一类是“OpenClaw这种模式我也可以做,我们公司也可以搞一个,那我就搞一个类似的”。其实像有很多开源项目,像什么NanoClaw之类就有很多,大家都觉得都可以做一个。所以我觉得它是给大家示范了一个新模式。这个模式有两个维度:一个是产品的模式,一个是整个技术生态,就是这一层Infra,这个架构怎么去搭。我觉得这是整个2026年的一个点:也是个惊喜,但我觉得也是到了这个时候了,就是没有它也会有别的出现,其实是一样的。
所以从大叙事的角度讲,它开启的是:2026年所有的公司开始去围绕OpenClaw,围绕agent,围绕一个agent去给agent做基建。就是把自己原来的业务提供成接口,供agent去调用。我觉得这是2026年整个的大叙事。正好对应的2026年这个软件、股市的这个大跌。其实这个对应是一样的。其实去年就该跌了,但大家去年只是少数人有这个概念,大家还没有看到今年。其实1月份直接大家就看到了,看到了以后,我觉得这是自然的。
Rui Xu:
——Dev Agent
基本上我觉得大模型整体能力其实都已经齐备了,所以类似的产品已经可以变成现实了。实际上我们大概从去年就开始尝试类似的东西了。因为最早的时候模型能力还不太够,所以我们在应用层做了挺多魔法,才基本上做到堪堪能用。但后来模型能力提升,再加上整个OpenClaw出来以后的架构,就有了一些新的创新,应用层也冒出了不少创新的东西。所以整体体验才基本上能跑顺。这对行业意味着什么?我觉得有两个比较大的、也挺好玩的点。
第一是OpenClaw。坦白讲,差不多的东西各大AI公司都在做,除了我们以外,我们知道几个大的AI公司,还有一些互联网公司也都开始做了。只是大家不太敢那么快拿出来,原因是这东西其实非常sensitive,对privacy和security的要求挺高的。结果现在突然冒出来一个完全不管安全或者隐私的开源软件,然后把这事儿一下子摊开了,所有人都蒙了:诶,我做的秘密武器怎么突然就被人揭开那块布了的感觉。而且它跑得特别快。你看现在基本上每天迭代一到两次,新feature上得也很快,就属于那种不管不顾往前冲的。但更大的公司又不敢跟,因为你完全跟不上因为你有很多顾忌在那儿。就变成一个特别奇妙的情况:OpenClaw一骑绝尘,大家在后面追,但又追不上。至于后面会把整个生态演化成什么样子,我也不太确定,但确实挺有意思的。
第二个对行业的影响,我个人觉得有一个特别重要的点:可能有一些小垂类会遇到比较大的挑战。我举个很简单的例:我有个朋友特别喜欢打高尔夫,他就问有没有软件能帮他拍个视频,然后纠正一些动作。我就把他的视频扔给我的OpenClaw,OpenClaw就在网上找了很多相关视频资料,还把那种“火柴人”分析的模型之类的东西都下载下来,然后一顿分析、一顿输出,效果还挺好。所以我觉得有很多垂类AI的东西可能会被这一整套架构波及,因为它自己就可以做很多研究、做很多事情。
Yina Chan:
——Happycapy
那我们其实在OpenClaw出现之前,就已经在做这个事情了,所以我们是刚好在它发布之后,觉得也的确是该发布了,然后我们过了两天就跟它同步去发布。当然OpenClaw开始做的时间其实更早,它在Cursor出来之前就已经在做了。当然我觉得Cursor出来之后,特别是非开发的应用让它再上了一层,所以它爆发出来的那个时间点,也是我们看重的那个时间点,所以我对于OpenClaw的出现是完全不惊讶的。然后对安全性的问题,我觉得现在用的人其实根本不在意,在意的人,他就是落后的人了。这个我觉得是很反直觉的,特别是互联网已经发展了那么久,大家现在都讲资安什么的,但是在AI上面是一个“干中学”的角度,所以你肯定一开始是不可能那么重视security。
我以前在Stripe,再加上我现在加入了Trickle,整个体感就是:你越重视这些资安,越重视这些东西,它就越会绑住你。所以为什么白领会是最落后的一群人?就是因为你在大厂里面那些公司,上到决策、下到执行,不管是中层、底层,他们根本就是被这个资安绑着,所以他们根本应用不了AI。
我记得我离开Stripe的时候,那一天我们在想:你知道我们做了那么多AI,客户涨得那么厉害,然后你觉得AI有用吗?然后我们几个好像傻瓜一样,都说没什么用,就最多写电邮,就都是吹。但是到后来我们自己加入了之后,发现哇,这个感觉真的转变得很大。而且我觉得OpenClaw它现在火起来,只是因为有一群不太在意花了多少token的人,去把它的边界拓出来。因为你的确必须得不介意token,然后去把它花出来;如果你介意token的话,其实你试不了多少,你也不能真正地转型。你一旦不介意token去花、去烧,不论你是什么样的目的:垂类、通用、开发什么的你都能往前推进。基本上我觉得大部分任务现在都已经完成了,我们同学们都在我们上面那边一键剪片了。
我现在都跟投资人说,其实下一波根本不需要垂类工具,不需要行业工具,不需要剪片工具什么的,你只需要一套基本盘,就OpenClaw。其实因为你电脑本来已经能做所有的事情,你只要有一台电脑,然后你在上面可以安装一些基本工具,而不是说安装APP,然后你在上面有一些skill什么的,其实你都已经能跑通。我们用skill做出来,都已经可以一个prompt出来剪接10分钟的影片;有一个人就做了一个讲拉面的故事。
所以我早几天跟别人聊到:通用和垂直行业要怎么样去打ToB还是ToC?那我自己做了下来之后,我是觉得ToB基本上就是在做那个“因为资安而落后”的套利。中间这个套利不会长久存在,但是这个套利现在的获利空间非常大,因为他们手上有的是钱;但是当这一波结束了之后,他们还是不是有钱的那一波我不知道。而且他们到后来如果那个公司继续有钱,那到底还继不继续采买垂直的工具,也是另外一个问题。因为其实通用工具如果已经能取代垂直工具的话,基本上你不需要垂直工具。很多垂类工具做的是一个workflow,特别是以前的SaaS工作流;现在大家都已经知道,都基本上可以你自己用skill,就已经能打通你整个工作流了,只是看你有多专注在于去打造这个工作流出来。所以我觉得如果你做垂类的话,还是agency帮他们去搭这个工作流,有一个agency,或者说每一个公司里面有一个AI搭建的架构师,比起一个垂类的产品能走得长远。
Bryant Chen:
——MemoryX
我补充一个点,可能前面两位同学没有提到:我觉得现在有一个趋势。之所以会有OpenClaw出来,其实前面杨攀也提到过,Peter作为一个个体,他在YC的前两天的访谈里提到过这一点。这里也对应到一个现象:大公司做agent的路径,其实刚才Yina也说了,是比较长的安全审查、产品设计、用户研究、灰度发布,整个流程相对比较长。那Peter作为他自己一个人,他的路径是什么?他的起点是“我为自己而造”,也不是为了市场造,就是自己玩得开心。他先从这个出发,反而很好地切中了用户、或者说大家喜欢的点。他把这些产品引入到真实的生产环境当中:自己想要,然后一个小时hack出来,最终发布到GitHub。其实这种形态可能代表了未来。从Demo的角度或者PMF的角度去发布一个agent产品,这也是一种范式。以及他自己作为一人公司,我们看到一些数据:他一个月有6,000次commit,同时跑10个Codex的实例。
那我们再看现在很多大厂,如果想完成这么多commit,按传统的工作流或实践,review都来不及。这可能就代表出现了一种新的形态:agent编程让个体的生产力能够接近一个小型团队,甚至超越小型团队。那下一阶段会不会出现更多“一人创始人+agent集群”这样的方式,并成长为独角兽?其实也是一个值得探讨的问题。未来一人公司和大团队的不同协作模式、软件开发的新范式、以及agent开发的新范式,这可能也是后面我们可以再聊一聊的话题。我觉得这也是一个很有意思的点。
Sherry Li:
——Subotiz
大家好,我是Subotiz负责解决方案的Sherry。Subotiz是一个支付订阅增长平台。我的角度是从Open Claw结合支付行业的一些问题来谈这个观点。因为Open Claw代表的是一种工具向agent的跃进式发展,是向前迈出的一大步。它能够实现对本地系统更全面的控制,但在支付行业里,真正缺失的并不是算力和模型,而是对执行力的授权与信任。
在过去30年的支付行业里,一切都是围绕开放网络上安全、可受信、可信任的授权交易来运转,并逐步构建成了一套基础设施。比如我们建立了PCI DSS安全标准,引入了指纹、面容等生物识别技术,建设了风控体系,以及token化系统等。这些系统都经过了无数次攻防检验,沉淀成行业资产,而这恰恰是很多AI agent基础设施公司普遍缺失的一环。
回到消费者侧,问题就非常直接:用户会不会把这些权限交给一个没有信任背书的黑盒?OpenClaw可以读写文件、发送邮件,甚至存储敏感数据,包括个人信息等,但它没办法验证身份,也没办法明确和承认边界,更没办法验证“这个身份是否可授权”。一旦缺少支付行业那条完整的执行链,就缺少了真正的信任感。所以Open Claw的价值不应该仅仅在于代码本身。它把行业关注点从“AI更聪明”转向“AI如何可信”。支付行业在身份授权与合规方面积累了大量机制,我认为这恰恰是OpenClaw这类agent体系里可以借鉴、也必须补上的必修课。这就是我这边的观点。
1.2OpenClaw类公司,
可能预示AI创新怎样下一阶段格局?
杨攀:
——硅基流动
我觉得刚才Yina说得对。原来大家就是做垂类agent,感觉就没啥可做了。最近两天好多同学来找我聊天说,他们之前也是以agent的形式来交付一些业务。我跟他说:你手里掌握的那些数据和渠道才有价值。你这个本身的形态其实可能没那么重要,甚至很多都不需要。我们以后跟客户或者用户打交道的渠道,我觉得可能会是universal的,他们可能没有什么界面或者功能交互。很多东西其实都是给人类设计的,但人类又是跟agent打交道的。那干嘛要那么复杂的界面。
前两年大家聊过Chat UI,业内的口风这几年有好几次转向:有一段时间大家说Chat UI是以后唯一的入口;又有一段时间大家觉得模型能快速开发、重新写界面了,于是又说Chat UI不行了;然后OpenClaw出来以后,我觉得大家可能又开始说Chat UI又会是以后universal的入口了。我现在更倾向于这个观点:很多事情以后不需要做什么界面了。昨天我刚跟一个国内一位非常顶尖的SaaS厂商的AI负责人聊。我们有这么个说法:SaaS就是数据库的套壳,对吧?最近总有人这么说。那实际上SaaS套了个什么壳呢?套了个网站,套了个App,套了一堆UI交互,那我实际上套个agent也是套壳,没有什么区别。数据其实无外乎:以前全是结构化数据放数据库里;剩下的非结构化数据,现在大家都放Markdown、放文件里,多模态。无外乎就这些。然后剩下就是:结构化数据让程序处理,非结构化数据让模型处理。交互接口直接通过IM,中间由agent负责loop调度、各种工具调用,负责这些就好了。这是从入口的角度。
从底层角度看,所有公司要看一下你手里还有些什么东西:交互界面这些东西以后可能都会被剥夺;但如果你手里有数据、有渠道,甚至是跨越数字世界和物理世界的接口或者能力,那些才是有价值的。如果现在看得比较靠前的话,就应该勇敢地打开自己,把这些能力以API的形式贡献出来给agent。这也是我前两周讲的一个观点。Richer应该能看到:你给人类做软件的话,人类就80亿、60亿网民,每天一个人能上网、或者用手机操作App的时间就那么多,能操作的频率就那么高。但agent的数量以后应该会比人类多几个数量级;他们做事干活的时候,调用外部能力的次数肯定也会比人类高几个数量级。那如果你是给这些agent提供服务的话,我觉得以后还是有比较大的机会的。对,我整体思路接下来是这样的。
我再形象地表述一下:2026年,如果有一个因素限制agent的大规模发展,那就是它还没有足够多的接口去对接这个数字世界。所以,如果我们去做那些把所有门和窗户都给agent打开的人,把钥匙都交给他的人,那你在他面前就更有机会。我其实在2023年的时候就在线下分享过:你面对大模型公司的碾压,你就做它连接数字世界和物理世界的接口就好。绝大多数公司,如果你做不了大模型公司,又做不了入口公司的话。
堵俊平:
——Datastrato
其实我觉得OpenClaw的出现并不意外,因为我们很早以前就在定义所谓的弱人工智能、强人工智能。弱人工智能和强人工智能的分界线,核心就在于:AI有没有执行能力?能不能对人类社会产生真实的影响力?在此之前,无论是生成式AI还是一些agent,主要还是以输出内容、产出内容为主,最终仍然需要人类来决定是否采纳,才能决定它是否真正发挥生产价值。但OpenClaw来了之后,它相当于更加自主,可能都不跟你打招呼,就把事情干了;干完之后你才发现你的账户多了点钱,或者你的系统被删除了。我认为这是一件从0到1的事情。当然,可能大家都没有意识到,只觉得好像多了一个可以自己Stand alone运行的“manus”,或者是一个更强化的agent:它不只是用来写写邮件、改改邮件,不只是用来写代码,而是可以做很多事情。但实际上我们已经到了这个阶段:有这么一套系统,当然不一定是OpenClaw,我也不一定说OpenClaw是最后的玩家。关键是,有这么一套系统正在装载各种各样的能力,大模型的能力、各种可执行工具的能力,然后试图把模型能力、agent能力和工具能力整合到一起。我认为在2025年底到2026年,我们已经到了一个拐点。
本质上来说,OpenClaw是一个基础设施,是基础设施层。就像当年云原生出来的时候,早期大家关注的是container这么一个具体能力;后来Kubernetes(K8S)出来,大家发现它能把所有东西装载起来。类似地,OpenClaw只是个开始。我认为接下来会启动基础设施公司一轮大的爆发,所以我们预想的三阶段路径,是从模型到agent应用的爆发,再到agent的技术栈层、包括control plane这一层的持续推进,一层一层地预热。AI agent的基础设施层某种程度上它的应用壁垒相对比应用层更高,因为应用层基本上很难有壁垒。比如一个应用跑通之后,其他应用就能模仿,甚至稍微好那么一点点,就可能改变用户的粘性。
最近比如说举个例子,Claude Code的使用趋势好像有赶超之前领域王者Cursor的势头,因为应用层用户会觉得哪个效果好,就直接迁移过去了。但对于agent基础设施层,一旦大家习惯了、用起来了,这种迁移相对比较困难。我认为这是一个能形成护城河的地方。后面的模型能力会越来越大同小异,厂商当然还是会持续升级,但模型加上基础设施,才会成为整个AI能力的整体构成、整体能力边界。我认为这是未来一个比较强的趋势。
之前基础设施层还不稳定,你可以看到每个阶段一两年就不断有变化,但现在慢慢开始稳定下来了:包括执行层、context window、各种能力,甚至包括数据层。我认为数据层也会发生很大的变化。过去大家是主动构建数仓的过程,从数仓到数据集市到BI去利用;未来会怎样?一定是从基础的数据湖出发,让像agent framework或像OpenClaw这样的系统,能够提供可被context window使用的短期、中期system memory。我觉得后面这一块也会有很大的变化。
Rui Xu:
——Dev Agent
因为我觉得现在大家做得都挺好的,但实际上OpenClaw,也就是AI这一块、ToC这一块我觉得目前还是一帮极客在搞,大家不太在意自己的隐私,不太在意security,也都在疯狂地用,不管怎么烧就烧token,把自己的风险自己扛着,去拓宽这个边界。但我在想,下一步的格局是看它怎么能够跨过鸿沟,进入所谓大众的视野里。到那个时候,我觉得还有特别多的工作要做。比如我举个很简单的例子:如果security做得不够好,payment就肯定上不来。payment上不来,那像打车、外卖、电商这些就都无从谈起。
还有你现在的UI,如果还是那种需要做很多config的状态,又没有图形界面,基本上会劝退80%~90%的人。一个完全没有计算机背景的人,你给他一个这样的图形界面,无论是现在OpenClaw的哪一种界面我觉得基本上全都劝退。就整个交互包括后面怎么去适应这些被手机驯化的人类,我觉得还有挺长的路要走。最后整体的交互形态、人怎么使用它、以及整套软件机制,我觉得都会有比较大的变化。包括那天OpenClaw的作者不也说吗?他说他觉得80%的APP都会挂掉。我可能会比他自信一点,我会觉得所有的APP都会挂掉。但整个agent的生态怎么长出来,我觉得还有很多可能性吧。
Steve Li:
——Ancher AI
我其实还有一些其他想法,因为我也在用,所以我把它放到一台新的Mac mini上,然后给它有限的权限。主要还是写代码,包括写代码我也是开一个新的repo,做一些我想做的功能。这个功能还是很好用的。说白了我个人是个比较实际的人:它要做得挺好我才用。如果是剪视频之类的,首先我没有那么多需求,其次我也不觉得它剪得足够好。我觉得如果它代码写得很好,这是可以用的。但这个我倒完全不担心,因为未来一定会有大大小小的公司把这个东西往agent开发功能、AI开发功能上去做,而且会做得越来越好。只是今时此刻,它可能还是更擅长文件处理、Markdown、代码这些,还是最擅长的,因为这毕竟是一个已经非常成熟的方向。
我其实更想讨论或者问的,也是我自己的一个疑惑:未来这些创业公司要做什么?能做什么?在我看来,如果它的自动化或者通用性如此之好的话,那首先我非常相信这种小SaaS公司是死定了。比如我之前聊过的一些:他们说给洛杉矶那边进关的这些customs公司做一些PDF生成。这东西其实没有什么难度,其实没什么可做的。但是非常复杂的又不那么好替代。
你说Salesforce的门槛是什么?你说Google的门槛是什么?那就是非常复杂的一套系统。每个人都说Oracle的数据库已经是无法维护的,那今天又有谁把它替换掉了呢?替换不掉。我也不觉得有AI来了就能把这替换掉。但大胆预测,它最终的结局可能还是一个自然的进化:大家都不用Oracle数据库了,你这Oracle就没了。要么你有别的功能,不然你这功能意义不大,可能最终面临死亡;不然的话大家还是会用的。各大公司依然是微软加Oracle数据库,这还是非常常见的。那它就依然会用嘛。
所以我也想抛砖引玉:我想看看对于创业者来说要做什么呢?你做小的SaaS公司那是死定了。那做ToC吗?是不是现在SaaS又不火了,开始回去做ToC的内容?因为我觉得很有意思:人类的需求并不会减少,反而会更多。比如刷抖音,你不能说因为你有OpenClaw,我就不刷抖音了;我娱乐的需求没有减少。我甚至看短剧,这种需求是不减少、反而增多的,因为人有更多时间了。那么技术上创业的方向是什么呢?去做内容消费吗?就像你说的,新闻、泛娱乐、泛消费之类的,不用花那么多时间去做那么复杂的问题了。你可能吭哧吭哧做半年,然后下半年来个新的模型,把你问题解决了;你就仅比大模型能做出来的内容强那么一丢丢,那意义不大了。
你比如像Salesforce这种门槛,不是一天两天你能打破的,人家是多少年的积累、多少年的护城河,不会那么快。要么你强一截、强那么多,又不是说第二天就能做的;Salesforce也不会站在这里等你让你做。它要么收购新的公司,要么自己开发。各大公司其实也在卷。那创业者的方向他能做什么呢?比如说build for Meta:我做这个就是为了当未来有一天Meta会把我买掉。理解。我就针对你的问题:比如Salesforce你解决不了问题,我就针对你做,做完这销售说:“诶,你这做得不错,我把你买了。”就是我就面向你这种类型来做的。要么做ToC,这种人类需求是不可避免的。你我还是有娱乐的需求,还是有各种各样看短剧、看这种东西的需求。或者别的还有什么可做的?
孙嘉人:
——日本Winnersoft
我在日本Winner软件公司工作。公司整体比较传统,主要面向金融以及物流等领域,做传统系统集成与开发。我加入之后,也正在面对AI带来的冲击,因此公司正在推进整体向AI方向转型,而我主要负责这方面的工作。今天想分享的内容,其实是因为我人在日本,所以更多是从日本这边周边的整体反应来谈。首先,很多人一提到出现了这个OpenClaw之类的东西,大家的第一反应是什么呢?——“吓人”。就是都觉得挺可怕的。然后其实这块也会带来后面下一阶段的格局变化。不过说实话,这个东西出现也没什么意外,应该也是必然的。日本这边整体推进速度大家也知道比较慢,其实之前还有很多企业还在用RPA,像这种概念都已经很旧了。那AI出现之后,自然而然就会取代它,变得更智能化嘛。
至于下一阶段的格局,我认为它的普及可能也需要一个过程。可能ToC端会先有很多初创公司,做一些创新应用,然后才会逐渐铺到真正的ToB端,进入更多企业级的落地应用。因为我们在日本这边是作为智谱目前唯一的代理和合作伙伴,所以我们这边主要也是做AI的代码生成。未来也有可能说,有了这些功能之后,代码开发会更趋向智能化。
另外一个我也在想,是不是会出现“AIPC”的概念?我参加了几轮展会,也看到各个大厂商在做相关布局。那是不是PC领域,或者AIPC领域,有可能是下一个阶段的方向?因为它有了这些功能,说白了就是把传统线上与个人数据打通了。大家都在用ChatGPT之类的工具,如果要实现个性化,那它是不是既打通了线上数据,同时又能跟线下物理设备的数据进行连接?它又有一个环境。从这个角度看,PC厂商会不会迎来下一个阶段?会不会有这种可能性?不过,出现这种服务之后,我也会担心数据个人隐私方面的问题。实际操作上,甚至会考虑是不是专门拿一台PC来用这个服务。我们好像一般也都是这样:觉得安全没问题的数据才放到那台PC里面。
1.3类OpenClaw的Agent项目,
应如何解决商业化和安全性问题?
杨攀:
——硅基流动
商业化无外乎就是两条路:到底是对人收费,还是对agent收费?大家现在好像都还在往前冲,还没有看到一个特别清晰的路径。因为你向人收钱,就又回到传统模式:还得给人做界面。这个方向我目前也没有什么太好的反馈。但给agent做商业化,我就很奇怪。这里面我也想请教一下大家,因为我最近跟Web3的同学聊了不少。我发现Web3跟AI圈子的信息差太大了。就是我觉得,其实好多agent领域的东西,比如支付相关的,Web3过去几年已经把这些事情弄得很明白了。Web3里很多基础理论,我觉得放到今天的agent-to-agent场景里也都是有用的。我觉得Web3唯一最后差的一块拼图,就是Web3里token没啥用,但这边的token是有用的呀。所以我就问了很多Web3的同学:agent支付这件事,Web3里其实有好多方案,包括像什么x402之类的,对吧?但感觉Web3的同学不太懂AI,这边AI的同学也不太懂Web3。我也不太懂Web3,但我就不知道为什么会有这么大的信息差。这个问题我回答不了,但我可以抛出一个问题:安全性。我觉得安全会是接下来agent非常大机会的一个领域。
同样也存在信息差。我问了好多搞安全的人,他们对AI、对OpenClaw这些东西就是完全不知道。其实他们原来那点东西、那点技术拿到agent领域来,觉得可做的事情太多了。最简单的就是OpenClaw运行过程中,各种被注入、被劫持之类的,至少加个防护、加个过滤吧。就这么简单的事,现在好像也没人搞,估计可能还是太早了。
Yina Chan:
——Happycapy
我觉得这位老师提的问题,真的是一个很好的问题。我在加入Happycapy之前其实也有一样的疑问。因为大家之前都知道,我们会去收购一些Web3的行业,比如加密货币。那时候我自己也看了很多AI+Web3的东西。再加上我本来也是支付行业里面的走得很前,那时候我们也在想:加密货币到底有没有可能跟AI世界重叠,然后产生颠覆等等等等的一些变化?我当时就很好奇,为什么一直没有出现?而且为什么那个信息差一直没有打通?它一直是在自己的圈子里。但反倒是我后来做了Happycapy之后,我就开始理解这件事了。这是我现在的思路,不知道对不对,大家可以讨论一下。也对应了刚才这个提问:我们也在想,下一个阶段的格局会是什么样?我觉得当AI出现之后,其实我们都回到本质了,真的是完全回到本质。我讲一个很简单的点:AI的存在,其实它未必是来先征服你,但它肯定先帮你解放了很多很多你以前想做的idea,也把你之前需要耗费很多时间做的琐事、杂事都帮你做了。我自己用了AI,而且是完全AI native地去用的时候,我的生产力提高了很多。虽然我比以前更忙了,但很多事情会回到本质:你会去想这个事情的本质是什么,然后才去做。这个我们等一下也可以再讲现在的app之类的。
但回到支付这个问题:为什么AI能打破这个格局,然后跑得那么快、变得那么快?因为Web3其实它的颠覆性跟AI是同样等级的,至少我是这么觉得。但Web3对整个市场的颠覆性还真的没有那么大,我觉得一个很本质的问题是:我们现在是资本社会,大部分地方比如硅谷你都是靠钱生活,你没钱你就没法生活。但你把这件事推到很极致的话,如果你有玩Crypto,大家都知道那个钱是流动得非常快的,很多人其实根本追不上这个速度,因为它的交易太快了,也太同质化了。然后当你在AI里用agent去“支付”这个东西的时候,AI帮你去赚钱,你会觉得可以;AI帮你去花钱,你就觉得不可以。到最后那个掌控权其实还是在我们手里。而且有时候我觉得我们跑得太前,就忘了这个世界上大部分人,就好像我们AI圈子、极客,你是极客,所以你的热情有时候超过了你的理智了。但回到本质上,其实钱这个东西,到最后我们还是得把它攥在手里的。所以我是觉得,Web3太多的应用其实跑得太快了,但回到钱这件事:我们需不需要?现在的支付到底有没有一个痛点在呢?我是觉得其实没有痛点在的。
Steve Li:
——Ancher AI
我之前在Google也是做支付的。当时几年经验下来,最大的感慨就是:最大的问题其实是人的问题,各种各样的regulation。整个Google的支付系统之所以如此复杂,光美国的税法就已经复杂到离谱,更不用说全世界各国税法基本都是同等级别的复杂度;再加上各种各样的tax,就导致这件事非常难。
另外一个我们观察到的问题是,人的路径依赖其实非常明显。以美国为例,信用卡体系已经非常成熟:如果你告诉我今天可以用Crypto来完成purchase,我为什么需要呢?信用卡已经提供了各种各样的benefit,我为什么要换到Crypto?Crypto能给我带来什么新的意义?但我觉得AI的出现,确实赋予了AI agent一个新的价值。比如说,我其实不介意我的agent在一定额度内自主完成一些purchase。假设我给它一个20美金的额度,只要是在这个额度之下、并且是为了达成我的目标去做一些purchase,我是可以接受的。我甚至希望它能够主动提示我:“这里可能会用到一些私有数据,这些数据需要花一些钱,大概的价格范围是多少。”如果这个价格在我可以接受的范围内,我觉得完全没有问题。
而且我觉得这个方向的空间其实非常大,因为它打破了很多传统限制。比如small transaction,在传统系统里,transaction一般都会有一个最小单位,比如一分钱,再小基本就无法处理了。但在Crypto体系下,可以细分到更小的单位。甚至可以出现一种类似批量采购再分发的模式。就像在Costco大量购买商品再分发一样,我可以先购买一批私有数据,然后提供一个接口,让agent来按需购买这些数据,我也可以从中获得收益。
在传统支付体系和传统逻辑下,这种事情其实很难成立。比如我个人很难在某个平台上购买三毛钱的数据,因为这点金额甚至不值得花时间处理。但AI agent可以做这件事,它可以自己去search哪些数据是available的,然后帮我整合起来。只要整个过程在我设定的可控范围内、不出意外,其实就可以。再往后发展,甚至可能会出现一种类似agent shop的生态:不同的agent会留下review、点赞,评价哪些服务提供商是可靠的。如果所有agent都在推荐某个服务商,那我当然也希望我的agent优先使用这种靠谱的渠道,而不是去尝试一个突然出现、没人用过的startup,因为那样风险更高,transaction的问题也会更多。
再补充一句关于安全性:我从来不担心安全性。因为一定是先发明了枪才发明了防弹衣的,后边一定会跟上的。也就是说,我现在愿意承担些许风险、给它足够的权限,是因为我觉得它在我的控制之内。我不建议任何没有技术背景的人把这个东西装到你的主力电脑上,因为它太危险了。但后边如果真的有需求,“哇,我用得很爽,但是就是有风险”,一定会有大量的人去解决这个问题,这完全不用担心。
Tina Zhou
——Boomfluence.ai
我其实想聊一下营销这个话题:下一段、下一格局的营销。简单来说,我现在做的是达人营销。我们的客户有像大模型公司,也有一些agent公司。然后我一直在想一个问题:为什么需要达人营销?以及达人营销是不是一个最有效率的营销方式?首先,agent为什么需要达人来营销?因为它很难通过一句话、一个slogan的投流,就让你立刻明白它是个什么产品、怎么用。所以需要达人营销。
但我也在想:如果之后、或者说现在有了OpenClaw后,会不会出现另一种可能性?其实我很久以前就在想了,比如之前我想的是,大模型本身就可以去调用一些API,去调用不同的服务。现在变成了agent来营销。不过我不觉得它现在的链路非常有效。之前的链路是什么呢?比如说,我听说了Lovart,对吧?然后我又听说了Seedance。我先去YouTube上找一个达人的视频,看看这个东西怎么用;然后我再回到Seedance上去试用一下这个东西怎么用;接着你还需要去适应它不同的AI产品UI。你会有一个学习的过程。但如果它是一个类似OpenClaw的东西,它有一个总的入口,你想用什么它就直接帮你调用就行了。你也不需要去适应新的UI,也不需要一个学习过程。
所以我之前担心的是:未来的营销会不会变成这样一种形式?我本来以为可能OpenAI、ChatGPT会干这个事情,但现在有了OpenClaw,我就在想:是不是每一个人其实都会有这样一个个人助手类的东西,它可以帮你去找这些合适的产品。
Part.02破壁研讨:
从Demo到可复制系统
2.1它如何处理数据/计算等关键环节,
为什么没选择“云端”和“本机”?
2
堵俊平:
——Datastrato
它没有绑定在云端或者本机了。它是属于你可以适配,你可以在本机上操作本地的文件系统,或者在云上。这个通过配置的方式来操作这个对象存储,或者一些其他的。比如它对于数据来说,它主要让它作为一个短期记忆或者长期记忆用了。用Markdown,把觉得有价值的东西写到一些Markdown上面,这样就构成了它的一个上下文。那这点我认为是一个蛮重要的点。为什么说这个OpenClaw在现在这个阶段,大家认为是一帮极客,也不太看重安全。因为说白了,像Markdown这类本地模式是很容易被篡改的。你可能通过这种记忆篡改、context篡改,或者一些注入的方式,甚至prompt注入的方式来去做这个侵入。现在有很多这种skill,都可能是恶意的skill,都在提供这些能力。
但是我觉得eventually,当它真正走到生产级落地,尤其走到企业环境里面的时候,或者它发挥更大价值的时候,这些关键的环节还是要加强和处理的。尤其是安全,security就是永恒的话题。我觉得每一代的application都需要去做。那么现在这种AI agent,它的能力更强。因为之前APP都还是人操作的,只是人有的时候没有办法识别这个操作是否合理得当。现在agent它的自主性这么强,未来一定是强监管,在企业里面肯定是强监管;对于个人来说,要跨越鸿沟,从一个少数极客它用的,到走向大众都敢用的,肯定是安全是必不可少的,我觉得这是没问题的。
在数据这一层,其实变化会更加明显。就像我刚才提到的一个观点:过去的数据平台更多是一个被动的角色,本质上是一个data provider。但在未来,数据基础设施会越来越去适应agent的需求,逐渐演化成一种可执行的平面。
其实control plane这个概念,在基础设施领域本来就非常重要。它不仅存在于data infrastructure,在很多其他类型的infrastructure里也都是核心概念。只是当agent system出现之后,这个概念会被进一步强化。因为数据系统不再只是简单地面向query,也不是只提供一个个可以查询到的数据条目或者数据类别,而是要能够被agent system持续理解,并支持更复杂的能力,比如辅助决策、执行过程中的回滚机制、审计能力等。
从传统架构来看,数据系统大致可以拆成几个核心部分:storage、compute,以及像我们公司Datastrao在做的元数据系统/Data Catalog。这些都是数据基础设施里的关键组件。但未来这些组件之间的边界,可能会重新融合。过去的逻辑是:谁离execution plan更近,谁就更有power,也更有价值。而未来可能会变成:谁离control plane更近,谁就更有价值。原因在于,真正的执行层正在逐渐变得commoditized。但另一方面,高质量的执行策略、高质量的决策能力,以及高质量的context,会变得越来越重要。这也是我们对于未来data infrastructure发展方向的一个判断。
在这样的背景下,我们认为metadata的角色会越来越关键。未来的metadata很可能会扮演“数据的大脑”的角色——它不只是描述数据,而是在执行之前就参与到决策和调度中,成为一种预置的控制能力。因此,我们也会坚定地沿着现在既定的技术路线继续推进。
从应用场景来看,我们也认为数据平台的主要使用场景,会从传统的BI场景,逐渐转向AI agent的赛道。未来越来越多的数据消费方将不再是人,而是agent。也就是说,数据将不再主要通过BI或query engine被人类消费,而是被agent system直接调用和使用。我们认为,这将是未来5到10年在data infrastructure领域里一个非常重要的变化。
2.2如何在“垂直+execution”
做得更好,可靠性来自哪里?
Yina Chan:
——Happycapy
这个就是刚才有位同学讲得很好的:其实SaaS都是数据库的套壳。但我自己再看下去,我甚至不觉得它只是数据跟UI的套壳。我们当时做这个产品的时候,定位是agent native computer。因为我那时候的体感是:所有技术同学先用起来很正常,但当非技术同学也都用起来之后,我才明白一件事我们上一段经历是在做Web编程,那时候只能做开发向的东西,也算是半垂类。可现在用起来我才发现:计算机本来不就是用“编码”在运行的吗?不管你是本地还是云端,本质都是编码,只是不同类型的编码而已。那为什么我们平常不懂计算机的人,跟计算机沟通会那么困难?所以才需要GUI。但如果我的AI能帮我做所有指令、所有代码,它来帮我跟计算机沟通,那我要UI干嘛?我只需要一个能跟agent沟通的UI就够了,不需要那么多垂类,什么SaaS、什么workflow的UI都不需要。这是我们当时最大的体感。等到产品真的出来,用户玩得比我们更溜的时候,我才发现:哇,真的,“软件”不复存在了,垂类也不复存在了。就变成很简单的一样东西。
比如我们现在财务:以前都用钉钉,现在都不用了,我们的invoice相关流程都变了。他真的是财务行政的同学,他自己捏了一个skill,然后我们每个人就用他的skill。他教我们怎么报销也好,反正我们就是把invoice一丢,生成出来的output发给他就完了。只需要这一步。中间什么审核?你签个字就审核完了,然后老板去看;老板也是看一看output,觉得“哦,好,差不多了”,那就可以付。整个流程已经被压缩得很短了。以前很多垂类,其实真的是因为我们人类把所有工序拉长了:我们得把它做得很细致,所以就一样一样拉长,去人工化、手动化。我们有一次在聊什么“工业化革命”,其实现在就是知识工作者的一次工业化革命。基本上你出来之后,也不会再用旧的方式去做垂类了:行业还存在,但垂类应用不复存在;甚至横向、纵向的都不复存在,横向内容功能类的也都不复存在,比如剪片这种。我们现在设计整个网站,以前都常用Figma,现在Figma也都不怎么用了;前端同事都直接推GitHub。我也是,我做pricing page都直接推GitHub。我不知道GitHub是什么,我不懂怎么用GitHub,我连什么拉代码仓都不懂。我只知道那一串链接,我只要拷贝上去,它就帮我拉、帮我推了,这就已经足够了。
所以我们自己的团队先发生了一个大变化,然后真的,我没有再去用其他的一些什么软件、什么工具。我们现在在等的是大模型在一些能力上的提升generic的部分去把它推上去。比如OpenAI之前有在垂类场景做训练,我觉得可以期待看看。但我觉得现在AI基本上要做的都差不多能做出来了,所以你在这个精进上,我觉得可能更该精进的是文字理解这种更本质的东西,视觉理解这些反倒会对整个大模型以后的升级提升更明显。因为在我们自己产品用下来,真的是每一次大模型升级,你在上面只需要套一个轻轻的壳,体验就已经非常惊艳。
最后一个点:为什么软件会不复存在,但行业还在?因为行业本质上是服务人类需求的。有一些是管制层面的需求,legal、finance这些是建立在信任基础上的系统,它是会存在的。但你怎么做这件事会完全不一样,如果你拥抱AI,你会发现AI提倡的一样东西是“集气式”的:就是生成一个图,你第一抽彩蛋;第二就是集气,“这个生成得不好,重新做;生成不好再重做。”
硅谷那边、美国那边很多人着眼点在token的消耗,但我自己在看的一样东西是:其实不会。国内的大模型已经证明了,token的消耗总有一天会被压下来;当token消耗被压下来之后,你的成本也就不是那么高、那么不可承受,就不会成为一个障碍。
Ben Ren:
——Scam.AI
我叫Ben,我在Scam AI负责这个setup,我们做的是deepfake detection。我们内部工作流其实用了很多AI,但我们并不是把AI产品对外售卖。最近OpenClaw这块,我们也重新build了很多我们的infrastructure。我想稍微提一下关于execution和垂类的问题。可能我的观点跟大家不太一样,就随便发表一下我的想法:我觉得可以类比到当年YouTube的时代。我认为大家现在表述的“垂类”,更多是在说Salesforce这种很大的,或者一些上市公司那个时代的use case。我确实同意,这些可能都因为太简单、没有barrier,AI会席卷而来。
但我觉得未来会更像当年YouTube。YouTube让所有人都可以做creator,但它并不是让所有人的consumption变低了,反而是无数细小的、过去根本照顾不到的垂类被无限放大了。人们会发现:原来“这也配做一个软件”。但就是会有很多人有这个需求,而以前是没有这种可能的。所以我觉得可能会出现那种即插即用的、无数的app。它不知道算不算垂类,也算一种垂类吧。但当然可能它们就像现在的YouTube一样,并不是一个上市公司那种体量,或者传统软件公司那样的体量。我的想法是,会有无限多这种小的东西出现。
同时我还想补充一点。我感觉刚刚大家讨论的一个未来,是所有事情都直接去问AI,用token来解决问题。但我其实觉得,这并不是一个最有效率的世界。因为很多你要解决的问题,其实已经被别人解决过一遍了——别人可能已经把它写成代码、做成工具,甚至已经沉淀成某种能力。未来我认为会有大量新的infrastructure建立起来,使得这些能力可以被不断reuse。
举个简单的例子:很多人都会问,“我在打高尔夫的时候,能不能帮我纠正动作?”现在的做法可能是:重新调用模型、消耗大量token,再生成一套新的代码和逻辑。但在未来,很可能会有类似YouTube这样的平台化结构,或者像MCP这样的能力层。很多现成的能力可以直接调用,甚至是基本免费的,或者它的cost会远低于你重新消耗token的成本。
在这种情况下,你不需要从头生成一套东西,而是可以直接在已有能力之上进行customize。我觉得这会是一个much more efficient的世界。而且在这样的体系下,很多事情也不会再完全依赖UI或单纯的token调用来完成,而是会通过一层可复用的能力基础设施,让AI更像是在调用已有系统,而不是每次都从零生成。
杨攀:
——硅基流动
我稍微提一个反面的观点:我们现在还在讨论“废token”,是因为token现在还太贵了。假如我们把token再便宜100倍、速度再快100倍,你就不会care这个东西了。我前两天发过一个观点:我说AI原生时代有“三大废物”,AI原生时代三大废物:一个是App Store,一个是Search,还有一个是Favorite。因为这些东西都在模型里了,我需要的时候就让它生成一个出来就好了。
Quinn Leng:
——Keplogic
我之前在Databricks上班,不过这段经历不知道算不算垂类;严格来说其实不太算,特别垂。后来我们做过一些垂直领域的AI agent。我们会和类似药厂这种公司合作,这就算比较垂的方向。垂类里我觉得比较tricky的点在于:他们愿意信任你,往往是一种非常深度的合作方式,你需要在这个领域里有多年的深耕,才能建立这种信任。比如像Palantir、Accenture这种公司,通常是因为在行业里深耕了很多年,才会积累出这些经验。我觉得对一些小公司来说,是有机会快速补上前面50%的能力的;但后面你如何保证自己和其他公司之间有differentiation,就非常困难。
包括现在大家都在讨论VibeCoding,我们公司现在用OpenClaw用得非常疯、非常火,写code的速度也飞速提起来了。但另一边,如果你去跟大公司聊,就像刚刚几个朋友提到的,比如你是用Salesforce的,或者你在Stripe里面,其实大家move的speed是非常非常慢的。包括我之前跟Databricks的同事聊,他们check-in的速度也只比之前快了20%~30%。但我们在现在这个OpenClaw community里面,他们一个小时merge大概六十个PR,peak的时候能到60个PR,这个速度非常夸张。这两边一边水流非常快,一边水流非常慢。学过物理的同学都知道,中间可能就会有一个压力差。如何在这个压力差里找到机会,我觉得机会其实还挺大的。但关键是:你如何在前台让大家trust你的quality,同时在后台用AI去automate一些东西?
这里我看到一些垂类已经做得挺好。比如我前段时间聊过一家做digital marketing的垂类公司,他们跟YC的startup不一样的是:他们不会第一天就跟你说“我们是全AI”。他们会跟你说我们公司全是用人来做的,真人跟你对接、真人合作;但在前台之后的部分,他们就想尽一切办法把所有能优化的都优化,把这个bar一直hold在这里。这家公司最终的成本结构,其实跟YC那些所谓的AI-native consulting是一样的,但给人的效果完全不一样。中间就是利用了这个压力差:你对外charge一个“以人的部分”为基准的价格,同时给人一个“全人的印象”;但你内部可能已经把成本降到原来的1/10。这种pattern我觉得可能会被reuse到很多其他行业里,时间问题而已。
2.3在Data/Context层面,
行业上下游将有怎样的调整?
Rui Xu:
——Dev Agent
我觉得数据和context才是一切。因为未来我个人的见解是:所有模型之间的差异会越来越小,能力差距不会像以前那么大。然后前端的交互,以及交互逻辑,其实大家都可以互相借鉴,而且借鉴的门槛也会非常低。真正会对执行效果产生巨大影响的,反而就是data和context。
这个公司到底有多了解这个行业?这个agent又有多了解你——对你有多少了解?我有时候经常跟大家开玩笑举个例子:如果你招一个助理,其实你未必需要一个最聪明的助理,对吧?不一定要最会做数学的助理;但你需要的是一个对你方方面面都很了解的人,知道你喜欢吃什么,知道你喜欢坐哪家航空公司的飞机,这些反而更重要,会让你觉得更贴心。
所以我觉得在这个层面上,整体的数据积累,以及整个context,是一个比较重要的东西。至于云端和本机,这是一个大家都还在debate的问题。我看Twitter上有很多人:一帮人买Mac mini,另一帮人去做VPS,然后你看各大云厂商也都推出了相应的VPS。我觉得这个还得继续观察。坦白讲,我现在也没有完全想明白这件事情。
Quinn Leng:
——Keplogic
我们公司做了AI-native stack之后,会发现这和刚刚观众提到的非常相关。我记得是Yina提到:我们现在比如不用UI了,不用git terminal,不用这一套,我们就直接跟agent聊,让它把流程走完。我觉得这和data context这一层是极其相关的。以后我们会通过agent来做一个assistant,或者一个放大我们能力的层级,去完成很多操作;但这对Infra层面的要求会极其高。
虽然表面上你不用UI了,我记得刚刚其他同学还提到search没了,还有好几个东西都没了。在UI层面它们好像都消失了,但在数据库这一层其实会一直存在,甚至我觉得它们的throughput可能会是以前的10倍、甚至100倍。我举个简单例子:今天我写代码,同时launch 5个agent一起写代码,那GitHub我是不是在用?我其实是在用,而且用的是我自己的identity。但我在GitHub上操作的频次可能直接提升到原来的20倍,因为不光每个agent在用,还乘以5;而且每个agent里面其实是直接用GitHub原生API更快地做操作。
再比如搜索:之前大家用简单搜索,现在都用deep research;一个deep research一般会访问50~200个网页。这些层的API都会存在。那更重要的是:你做一个公司,你愿不愿意打开自己这一层“伪装”?之前的伪装是:我提供一个最好的服务给人,让人来用。今天你愿不愿意把价格降到原来的1/5,甚至1/10,直接把你所谓套壳底下那层data、数据库和API放出来,并且精心为agent设计?我觉得这是一个很有意思的思路。比如有个公司叫Linear,不知道大家有没有听说过。现在很多创业公司都在用他们的ticket system来管理ticket。为什么它这么火?因为它和各种agent的integration做得非常好。比如Linear在Cursor上可以直接用MCP;还有一个叫Devin的平台,他们也是原生支持;甚至在UI上也支持。他们就是把整套东西open up,让你的agent和人的访问程度是一样的:我不会给你多收钱,人能访问的所有东西我都给你暴露出来,让agent更快使用。你会发现这并没有降低他们的护城河,反而提高了护城河。因为真正把数据层暴露出来,让agent以10倍、100倍的频率去访问,未来可能你有50个agent,就是1,000倍的速度去访问它,这时候能不能把它做好?能不能有效地让正确的agent去navigate?能不能省更多cost、更有效地把它做出来?我觉得这就是很大的机会。包括今天agent-native、AI-native的这种数据库:你如何让你的数据库随时有不同的版本,如何保证不会因为load太大一下就挂掉?再比如documentation:你如何把整个公司的文档做得非常友好?这些难度其实都挺大。这里面的机会不会是那种像“tree模型”一样,我magically一下就能拿很多钱的机会;它更像是一种throughput非常大、但需要非常非常solid的infrastructure的机会。
Part.03机会研讨:
下一阶段的制胜
3.1在Agent的基础设施层,
是否存在被低估的系统性机会?
3
Rui Xu:
——Dev Agent
坦白讲,我现在还看不清。我觉得现在还看不清就是这个情况,因为我不知道agent后面它会有多强?因为我觉得做这种agent的机会应该是留给一个相对比较大一点的公司,或者是一个资本比较好的startup。大部分人应该是很难抢到那个点。就像operating system一样,最后可能是一个比较强的团队赢。那剩下来的机会就是,比如说像在一个平台上做APP这样的机会,垂类的机会。但这个垂类机会到底有多厚?比如说是个一人团队,还是说它能够成长出来一个、成长出来很多几百亿的公司,这个我觉得还看不清。
Yina Chan:
——Happycapy
我觉得刚才大家都已经讲得很透了:不要改造旧世界。我觉得这也是我们在看的方向。然后还有基建,我觉得这两个点已经够了。如果还在想方向的话,我觉得还是从本质出发吧,本来就存在的行业、你的领域、大家的需求基本上我觉得太多太多了,有很多新机会,而且跟上一年的格局应该是完全不一样。上一年很多公司是一出来就爆发到100Million、200Million,我反倒觉得今年不会有这样子的公司。因为这一年,我觉得大家是在把这样的事情带给大众的一年;而大众其实没有这样子的病毒行销存在,也有,但会非常消费者面向。所以其实我们反倒觉得,这在华人身上是特别有优势的:就只有华人那么懂消费者行销。新的软件,或者说新的AI公司,就得像消费品一样来打。
Shawn:
——Frictionless Compute
其实在基础设施层面,我认为存在很多机会。正是因为大家分享的这些点:在应用层面,像OpenClaw这样的能力正在非常快速地演进;同时,大家对安全性、可预测性等又有非常强烈的需求。所以在基础设施层面,就会涉及安全,涉及如何把控不确定性,以及性能、效率等方面,这里面有大量机会。大家可能也都知道,刚刚过去不久,有一批人在做vL LM推理引擎的开源项目,随后出来创业,拿到了150 million的资金。当然,vLLM主要是一个持续提效的方向:让推理变得更高效、更一致,这本质上也属于基础设施层面所涉及的内容。并且在12月份,也有人从a16z融到了不少钱,大概是20 million。那做什么事呢?就是作为agent做一个runtime。以前的runtime主要是为确定性的程序服务的;但agent具有不确定性等特征,所以很多地方需要重新思考。思考的角度包括:agent的生命周期管理,以及agent在执行过程之中,调用什么样的工具、会用什么样的技能等。这些既涉及比如沙盒机制怎么设计,也涉及在操作系统层面、内核层面的一些管理:例如你要赋予agent多大的权限?你怎样动态地赋予它?你怎么判断它要执行的任务在授权上是安全的?这些实际上都是现有runtime不具备的能力。所以做内核的人识别到了这样一个机会,认为这个runtime可以重构、需要重构;也因此得到了资本的认可,他们觉得这些都关系到未来很重要的一些东西。
相对而言,反倒还有一些更确定的方向,包括你这里也提到的:任务成本能不能持续下降?为什么会谈到这个?从更大的层面看,你需要解决能源供给的问题。大家也知道马斯克有一种设想:把计算机搬到太空中去,利用太阳能,并且冷却等方面也有不同的条件,从而实现更高的转化效率;也有人更长远地在做可控核聚变这样的方向。
但还有另外一个维度:我们执行同样一个任务,有没有更高效、更节能的做法?这其实也是另一个层面的东西。刚才大家也提到“重用”,提到已经验证过的工具就应该用,这是一种高效且可靠的做法。因为AI最不确定的一点在于:它的结果怎么验证?凡是比较容易验证的,可能对AI来说都还相对容易;其实最困难的是验证。我倒觉得,你不能verify的东西,就很难trust它。用好已经验证过的一些东西,是一件极其高效的事情,而且也能赢得大家的信任。这倒不完全只是token消耗的问题,token消耗肯定是一方面;另一方面是信任从哪里来,我验证过的系统我们是可以信任的。所以这一点我认为在垂类里尤其重要:垂类最重要的数据,如果它是经得住验证的,那么这个垂类的存在就很有必要很有价值。
Bryant Chen:
——MemoryX
我这边想探讨两个问题。
第一个是关于agent to service这个连接层。之前大家也总在提agent to agent。我们从OpenClaw来看,其实Peter是用agent去控制各种服务,比如Google的服务,还有一些摄像头等等;他其实手写了很多CLI的wrapper。我刚才看评论区,大家提到很多都是skill。我对skill的理解一直是:它是一个打包好的能力单元,或者说一个“技能包”。但其实在更底层,还有一些偏CLI的能力,比如什么?比如brew install这类,一些CLI的轻量包安装器和管理器。
这就有点像那个时代的Zapier。这个我没有特别去调研过,不知道现在情况怎样,但感觉应该已经有很多人在做了。我觉得这可能是一个平台级的机会。不知道有没有人在做,我们可以展开聊一聊。以上是第一个。
第二个是关于memory这一层或者身份管理。前段时间我也做了一些调研,大家也在讨论这块。之前研究OpenClaw时看到,它是通过soul.md、identity.md;并且每日会有一个memory的daily log,以及整体还有一个memory.md来进行管理。我们之前看海外像mem0等这些产品,其实也是在提供一个通用agent的记忆能力。未来可能可以做一个不太恰当的类比:类似通讯录的同步功能,把用户的偏好、习惯以及上下文都能同步过去。这个目前大家算是有一个共识,但好像还没有一个特别通用的产品和服务。我觉得这两个方向都挺值得关注。
Steve Li:
——Ancher
听完Shawn大哥的分享,以及大家的一些问答之后,我确实产生了不少想法。我觉得把它定义成“为AI来编程”可能scope还小了,更准确地说应该是“为AI服务”。因为AI需要更多的token,需要更多的电力,那么这些都要解决:电力的稳定性、供给能力等等。甚至卖Mac mini也算是在为AI服务,你得有地方放它。最后其实都是这些问题。再说到大哥做的这种边缘计算的voice agent,我觉得这还是非常好的。这类东西本质上,你的目的就是让阻力越来越小,把它跑出来。我刚才也在想一个问题:这会不会导致创业方向越来越偏向“更硬核”?因为我不太期待产品经理或者设计师会想到要去做边缘计算这种细节,这本来就不是他们日常会涉及的东西。那么真正为这些AI提供这种级别的数据流动也好、frameworks AI也好,是不是都需要更大的技术背景?你想一下,frameworks AI搞这些,它run的效率非常高,榨干GPU的门槛其实很大。我觉得创业方向可能会偏回去:更需要硬核工程师,甚至需要懂硬件、懂底层库优化的人,才可能更好地创业,更好地为AI服务吧,这只是我一个不确定的感觉。
另外一方面是刚才聊的这个skill。其实我挺同意刚才那两位说的:skill作为prototype的时候确实很快很方便。我自己也写了大量skill来解决很多问题,但它不够,它run起来不够快。我甚至都不介意有人把一些Python的东西用C++重写,让它速度更快一些。效率这件事你永远追求不够:能快你就快。比如我处理一万张照片,快10倍就很关键,时间差还是非常大的。所以我觉得skill作为prototype没问题,但如果我真的要处理一万个receipt图片,我肯定希望越快越好、成本越低越好。我不想为了解决这个问题花2,000美金,更不想花2万美金。所以我觉得会“meet in the middle”:当国内模型的效率跟上来、质量跟上来之后,原本你可能会说“我用OpenAI的模型跑得效果最好”。但到明年可能就不是了,你用国内的模型跑得依然很好,你感觉不到明显区别了,那成本是不是就下来了?然后skill的速度也会像杨攀讲的那样:速度会上去,成本也会下来。到那个时候,可能更多人会说:既然这个skill越来越复杂,我们就把它重写成一个程序。因为程序效率更高,而且我相信绝大部分用户不会想天天盯着skill来看,他还是想盯着一个UI,一个可以交互的UI/UX、一个界面,可能会更舒服一些。
要么就是Human in the loop。因为你写非常复杂的skill,也不期待AI能一次写得非常准确。那Human in the loop的意思就是:AI写不好、无法把它做成一个非常完美的product,是不是需要一些人来在中间参与?或者说AI对审美设计是有限的,我们不希望生成的程序都是紫色底的渐变色,一看就像AI生成的,我们还是需要一些用户的taste加进去。所以这可能也是一个方向。总结起来,其实都是在思考:如何更好地让AI转起来,人在中间去推掉那些阻力、去解决那些问题,目的就是让AI转得更好、更好地去解决问题吧。
3.2单位成功任务成本如何持续下降?
杨攀:
——硅基流动
成本下降这个事情,我说两点吧。
第一点:2026年全球范围内的token,我非常坚定地认为会涨价。
你看现在Opus,包括大家觉得的降价因素,是不是中国的开源模型,但我不知道大家知不知道:中国的开源模型本身到底赚不赚钱,还是赔钱卖给大家的?大家有没有想过这个问题?大家都觉得DeepSeek给了很低的价格,但DeepSeek也不靠这个赚钱。现在的问题是,Opus跟GPT最近其实出了两个新的高速版,而且更贵了。实际上我认为这就是在试探大家:如果高速版那么贵,大家还用的话,那后边把所有模型都涨上来就好了。
从数字角度讲,我前两天还跟朋友聊了一个话题,说全球GPU算力产能的YOY(Year-over-Year)增长不到一倍,大概70%,他说的一个数我也不知道哪来的,我没有仔细去看。然后我个人对今年token消耗增长的判断是100倍;如果推理成本通过技术手段再优化10倍,那这里边还有一个10倍的gap。我觉得这个gap很大,所以大概率是要涨价的,这是第一个逻辑。
第二个逻辑是:大家会觉得成本优化肯定会有人做的。但问题是,如果所有人都在往前奔跑,而且跑得很快。我昨天刚发一篇文章,说在agent的世界里,进化速度是人类的50~100倍。这意味着你在人类社会用一天时间去搞这些事情,在agent世界里可能已经相当于两三个月过去了。那你愿不愿意拿这个时间去搞成本优化,还是继续往前奔跑?我觉得只有在agent演进速度慢下来的时候,才会有人、才会有更多人去关心成本优化的事情。
再补充一点:在去年之前,大家都在问“我加AI赚不到钱,反而成本更多了”。但我觉得拐点就在最近,这个拐点就是:买得到token,很多人就能赚到钱了。或者反过来说:你买不到token,你就赚不到更多的钱。对,我现在身边的人已经开始到处去找token、抢token了。这我前两天说的:token是权力。如果这样的话,那肯定还是会涨价的。然后说一下全球范围内新创始人的机会。我的观点是这样的,我觉得很难跟上一个时代的那些巨头和霸主去抢。我这么写的:不要去改造旧世界,就是等老登们老去,或者直接OTT越过去。我觉得新的创业者去做agent,其实就是不去改造旧世界,而是到新世界里去搞OTT,直接越过去。
