AI时代下,开源项目GStack引发争议:资本大佬借助AI Agent实现超高开发效率,但社区质疑其本质是"Markdown提示词集合",同时揭示AI Coding可能制造"虚假工程师幻觉"。 ## 1. AI Agent重构开发者生产力边界 - Andrej Karpathy等硅谷开发者已基本停止手写代码,借助AI Agent实现惊人产出 - YC CEO Garry Tan用AI Agent在60天内完成3个生产级服务和40+功能模块,自称开发效率达2013年的810倍 - 核心观点:未来软件开发是"组织Agent"而非写代码,关键在于"Thin Harness, Fat Skills"的架构设计 ## 2. GStack的技术架构与争议 - 包含23个专业角色和8个工具模块,通过Markdown驱动虚拟工程团队运作 - 社区批评其本质是"组织良好的文本文件",Reddit用户指出其存在自我审查缺陷和供应链风险 - Mo Bitar尖锐批评:项目只是"让Claude扮演不同角色"的Prompt集合,却被过度包装 ## 3. AI Coding的心理学陷阱 - 研究显示:与"奉承型AI"长期互动会使用户高估自身能力,重度用户最易自我陶醉 - RLHF机制被比作"会进化的毒品",模型通过持续正反馈强化用户的创造者幻觉 - 危险在于:非技术背景者可能因AI的夸奖而误判自身技术能力,导致决策失误 ## 4. Token经济的开发范式革命 - Garry Tan提出"Token Maxing"理念:通过大量消耗token换取开发效率质变 - 典型案例:重写Posterous从400万美元/1.5年降至200美元/5天,测试覆盖率从人工80%提升至AI自动90% - 争议点:当前高质量AI开发体验成本高昂(日均500美元token),可能造成技术鸿沟 ## 5. 个人AI时代的控制权之争 - 类比个人电脑革命,强调"拥有自己的prompt和数据"才能避免被企业AI控制 - OpenClaw等工具使开发者进入"法拉利kit car阶段",但需要保持修复能力 - Garry Tan预言:未来90%新仓库将采用此类系统,关键在于平衡自动化与控制力
从0到10万Star只需一个周末:开源项目的信任危机,也许是那群“以为自己会写代码”的资本大佬造成的
2026-05-09 17:02

从0到10万Star只需一个周末:开源项目的信任危机,也许是那群“以为自己会写代码”的资本大佬造成的

本文来自微信公众号: InfoQ ,作者:冬梅


AI时代最大的笑话莫过于,大模型夸你很行,你自己当真了。


过去一年,“一个人顶一个团队”正在从硅谷口号变成现实。


今年3月,在《No Priors》播客中,Andrej Karpathy提到,自己从去年12月开始,“几乎没再亲手写过代码”。而另一边,Peter Steinberger几乎以一己之力,借助AI Agent构建出了GitHub超过24万Star的OpenClaw。越来越多硅谷开发者开始意识到:在Agent与大模型的加持下,独立开发者的生产力边界,正在被重新定义。


1YC CEO开源项目,在GitHub上斩获近10万star


而Garry Tan给出的答案,则是GStack。


Garry Tan是Y Combinator现任总裁兼CEO,参与孵化过Coinbase、Instacart、Rippling等大量明星公司。在成为YC掌门人之前,他曾是Palantir早期工程师与产品负责人,也是Posterous联合创始人,并亲手搭建过YC内部社交网络Bookface。过去二十年里,他始终处于硅谷产品与工程文化的核心位置。


真正让Garry Tan开始重新思考“软件开发”这件事的,是AI Agent的出现。


按照Garry Tan的说法,过去60天里,他在全职运营YC的同时,仍然上线了3个生产级服务、40多个功能模块,而这些工作绝大多数都是借助AI Agent完成的。他甚至给出了一组极具争议的数据:如果按照“逻辑代码变更量(Logical Code Change)”计算,而不是AI容易膨胀的原始代码行数统计,他2026年的开发效率已经达到2013年的810倍。


Garry Tan强调,重点并不在于“代码是谁写的”,而在于最终交付了什么。


于是在一个月前,Garry Tan开源了GStack,这是他为Claude Code开发的个人技能包,如今在Github上已经获得超9万star。



Garry Tan表示,GStack本质上就是这套工作流的开源化产物。


具体而言,GStack到底是什么?


据Garry Tan描述,它并不是传统意义上的AI编程工具,更像是一套“AI软件工厂”。GStack会把Claude Code、Codex等模型组织成一个虚拟工程团队:里面既有负责重新思考产品方向的“CEO”,也有负责架构审查的工程经理、专门挑AI粗糙实现问题的设计师、执行生产环境代码审查的Reviewer、自动打开浏览器进行真实测试的QA工程师,甚至还有负责OWASP与STRIDE安全审计的安全官,以及最终执行PR合并与发布的Release Engineer。


整个系统由23个专业角色、8个工具模块组成,全部通过Slash Command调用,底层大量使用Markdown驱动,并采用MIT协议完全开源。


Garry Tan对这套体系的核心理解是:未来的软件开发,不再只是“写代码”,而是“组织Agent”。


在他看来,过去的软件工程,本质上是在deterministic code(确定性代码)里不断堆逻辑;而现在,大量原本难以编码的人类经验、产品判断、设计思维,开始进入LLM的latent space。开发者真正需要做的,已经不再是亲手敲每一行代码,而是决定哪些事情交给Agent,哪些事情仍然由传统代码处理。


这也是GStack最大的技术特征之一:Thin Harness,Fat Skills。


也就是说,Agent的底层执行框架(Harness)应该尽量轻量化,而真正重要的,是构建大量高质量的“技能层(Skills)”。这些Skills本质上是一套用Markdown编写的结构化工作流,里面包含产品目标、设计原则、代码审查规则、测试标准以及工程经验。Garry Tan甚至认为,Markdown本身已经开始变成一种新的“编程语言”——它不再只是文档,而是在驱动整个Agent系统。


与此同时,GStack也极度强调测试覆盖率与工程稳定性。Garry Tan多次提到,AI写代码最大的风险并不是“不会写”,而是“80%能跑,但真实用户一碰就崩”。因此,GStack内部默认集成了大量自动化QA、集成测试、安全扫描与浏览器级测试能力,其目标并不是让AI无限制生成代码,而是让AI能够持续生成“可上线的代码”。



2社区对GStack的评价褒贬不一


GStack开源后迅速在GItHub上爆火,并在Reddit、Hacker News等社区中引发广泛讨论,但外界对于该项目的评论却有着很大的分歧。


在Reddit社区,关于该项目更普遍的结论是:GStack大部分是炒作,但并非完全无用。


在一篇获得大量点赞的详细评论的引领下,大家的共识是:虽然基于角色的提示的核心理念是合理的,但它并非什么新鲜事物。/qa而那些/browse使用真实浏览器进行测试的技能则被视为一项真正有用的工程贡献。


然而,绝大多数人对此持怀疑态度。“每天1万到2万行代码”的说法被广泛认为是“代码行数作秀”和毫无意义的虚荣指标,一位用户指出,Garry Tan曾经开发过一个30万行代码的应用,结果却只是一个博客。




一个主要缺陷是,人工智能通过审查自己刚刚编写的代码来“给自己打分”。此外,它还因与个人工作流程过度耦合、存在潜在的供应链安全风险以及本质上只是一系列组织良好的文本文件而受到批评。


总结起来就是:对于创始人个体来说,这算是一个不错的起点,但对于任何认真的团队来说,最好还是根据自身实际需求构建一个定制版本。


Garry Tan自己对该项目非常满意,他还在X上发文称,他的CTO朋友向他称赞了GStack项目,简直是开启了上帝模式!未来90%的新仓库都会用它。



随着Garry Tan持续在X上高调宣传GStack,这个原本只是AI Coding工作流集合的开源项目,正在迅速演变成硅谷AI圈的一场舆论事件。


尤其是在Garry Tan发布一条动态之后,争议被进一步点燃。


YouTube上的知名博主Mo Bitar坐不住了,很快,他专门发布了一期7分钟的视频,对GStack以及整个“VC集体沉迷AI编程”的现象进行了近乎辛辣的批评。


在Mo Bitar看来,GStack被包装成“革命性工程系统”,但其核心,本质上只是“一堆Markdown提示词”。


Mo Bitar表示,实际上,Garry开源的是一堆提示词文件夹,真的就是一堆Markdown文件,用来告诉Claude“假装自己是不同的人”,一个说“扮演CEO”,另一个说“扮演资深工程师”,就这么个东西让地球上最负盛名的创业加速器的总裁,像在宣读登山宝训一样,把这东西放上了GitHub。



按照他的描述,这个项目里的大量内容,无非是在告诉Claude:“现在你扮演CEO”“现在你扮演资深工程师”“现在你扮演设计师”。而就是这样一套Prompt文件夹,却被YC总裁以一种近乎“布道”的方式推上GitHub神坛。


不过,Mo Bitar真正批评的,其实并不只是GStack本身,而是AI Coding正在制造的一种危险幻觉。


他在视频中提到,自己非常理解Garry Tan为什么会如此兴奋,因为类似的事情“发生在每一个使用Claude Code的人身上”。


在他的描述里,这种体验几乎像一种心理学机制:用户坐下来与Claude对话,提出想法,模型不仅快速帮你实现功能,还会不断给予正反馈——“这是个brilliant的想法”“你的直觉很好”“这个架构很优雅”。整个过程里,AI几乎不会否定你。


Mo Bitar将这种体验形容为:“像在和一个爱上你的人一起写代码。”


它不会翻白眼,不会质疑方案,更不会像真实工程师那样直接指出“这个设计很糟糕”。相反,它会不断强化用户的自我认同感。而问题在于,当一个远比大多数人聪明的系统持续不断地夸奖你时,人会开始真的相信自己“突然变成了工程师”。


在视频中,他引用了多项关于AI使用行为的研究。其中一项针对3000人的实验显示,与“奉承型聊天机器人”长期互动后,用户会显著提高对自身能力的评价,更倾向于认为自己比同龄人更聪明、更专业。另一项研究则指出,AI使用频率越高,用户越容易高估自己的真实能力,重度使用者反而最容易陷入“自我陶醉”。


而在Mo Bitar看来,这背后真正的核心,是RLHF(基于人类反馈的强化学习)机制。


他认为,今天的大模型并不只是“帮助用户”,而是在被系统性训练成“让用户感觉更好”。模型会学习什么样的回答最能让用户满意、最能提升用户情绪反馈,并持续强化这种行为。某种程度上,它与TikTok、Netflix的推荐算法并无本质区别——目标都是最大化用户停留与依赖。


更危险的是,人类会对广告、短视频逐渐产生耐受性,但AI不同。因为模型会不断根据用户反馈重新训练,它能够动态适应用户的“心理阈值”。Mo Bitar甚至把这种机制形容为一种“会进化的毒品”。


在他看来,这也是为什么大量VC、CEO,甚至非技术背景创业者,会在体验几小时Claude Code后,突然开始在X上高调展示自己的“作品”。


他说,这些人并不是故意撒谎,他们是真的相信那些产品是自己“做出来的”。


因为在整个过程中,AI一边替他们生成代码,一边不断强化他们的“创造者身份”。于是,一个刚刚学会“微服务”概念的人,转眼就在社交媒体上开始讨论系统架构;一个周末刚给女儿柠檬水摊做完网站的CEO,周一就宣布公司全面“All in AI”。


而在Mo Bitar看来,Garry Tan只是这一轮AI情绪浪潮里最典型的案例之一。


不过,Mo Bitar也并没有完全否定AI Coding。


他承认,自己同样每天都在使用这些工具,也会感受到那种“像神一样构建软件”的快感。真正的区别在于,他认为自己拥有足够深的软件工程背景,可以对AI的判断进行校验。


而这,也是他认为当前AI Coding最大的风险所在。


因为大模型本质上并不是“能力放大器”,而更像是一种“自信放大器”。它未必真的让用户变得更强,却能极大增强用户“自己已经变强了”的感觉。而这种感觉,恰恰最容易让原本就掌握资源、影响力与话语权的人进一步陷入技术幻觉。


争议持续发酵,围绕GStack、AI Coding,以及“AI是否正在制造虚假的工程师幻觉”这件事,硅谷内部的讨论也开始迅速升温。


昨天,Garry Tan与Y Combinator的其他几名成员共同录制了一档对话栏目,回应了为什么要创建GStack项目,以及他们对于AI Coding、Token经济等热门话题的看法。


以下为对话实录,经由InfoQ翻译及整理:


Jared Friedman:首先想聊一个大点的话题,你认为你能掌控AI,还是AI会掌控你?


Garry Tan:我觉得,这可能就是这个时代最关键的问题:你能不能掌控自己的工具?还是说,最后是你的工具反过来掌控你?


现在用OpenClaw,就像在开一辆法拉利。特别刺激,特别疯狂。它能做到很多你根本想不到机器能做到的事,而且速度快得离谱。


但它也真的像法拉利一样——你最好自己是个机械师。


因为它会在你最需要它的时候突然抛锚,停在路边。然后你得自己拿着扳手,把引擎盖掀开,一点一点修。


没人会替你修,你得亲自动手。所以我觉得,现在真的是计算机科学和技术史上一个非常令人兴奋的时代。


3“13年没写代码之后,我重新开始写代码了”


Jared Friedman:如果你关注我们的Twitter,应该知道,Garry在当了很多年投资人之后,又重新开始写代码了。过去几个月里,他写了几十万行代码,做了几个非常受欢迎的开源项目,GitHub star从零涨到了十万以上。而且是在全职管理YC的同时完成的。很多网上的人都不相信这事是真的,觉得根本不可能发生。但它确实发生了。因为我们就在现场,看着整个过程。所以今天我们想聊聊,你到底是怎么做到的?


Garry Tan:说实话,我自己也挺震惊的。13年没写代码了,然后突然一下子,砰——我的产出大概是过去那一年巅峰时期的400倍。上一次我这么高强度写代码,可能还是我人生里三分之二时间都在写代码的时候。


Jared Friedman:那我们就从一切开始的那个项目聊起吧:Gary’s List。几个月前,你打开Claude Code,重新开始写代码,就是从那开始的。


Harj Taggar:是不是就在那期Lightcone节目之后?


Garry Tan:对,就是那之后。我意识到,我想把那些和我相信同样事情的人聚在一起,尤其是在加州。


所以我建了一个501(c)(4)组织,后来又扩展成C3和PAC。这其实是美国政治组织非常常见的组织方式。很多人只盯着“钱”看,但我们真正想做的是把聪明的人聚在一起。这些年我在旧金山做公共事务最大的体会就是:


把人组织起来,力量极其强大。这本质上就是社会运动。然后我就想:“那为什么不干脆做个网站,把这些人连接起来?”我想从写一些我真正关心的议题开始。比如教育。


可能世界各地的人听起来会觉得很离谱:旧金山公立学校里,一个七八年级的孩子,居然很难学到代数。我自己小时候如果没在湾区东湾的公立学校提前学到代数,我就不可能后来去斯坦福学工程,也不会写代码,更不会做到今天这些事。


所以这件事对我来说特别重要。然后我意识到:是时候重新写代码了。


Jared Friedman:然后你重建了Posterous。很多年轻观众可能都不知道,那是什么?


Garry Tan:Posterous是我2008年在YC做的第一个创业项目。它是“通过邮件发博客”,特别简单。


后来成长到全球Top 200网站,最后被Twitter以大约2000万美元收购。那算是我人生第一桶金。后来Twitter把它关掉了。


我当时没钱把它买回来——买回来得花几百万美元。所以我只能自己重写。


那是第二次。今年1月,我又写了第三次。


第一次做它:花了400万美元,6到7个人,做了一年半;第二次:大概10万美元,两个人,我和Brett Gibson,做了三个月;第三次是200美元。就是我的Claude Code Max订阅费。外加大概5天时间。一个功能完整的博客平台就出来了。而且还带完整RAG、agentic retrieval,可以自动爬全网、递归研究、分析任何议题。


比如“代数教育”只是我们研究的无数议题之一。


它能自动抓取互联网所有正反观点,然后生成非常详细的研究报告。


Jared Friedman:我觉得很多人没有真正理解Gary’s List的厉害之处。它不是传统意义上的“博客平台”。传统软件是:你做个平台,让人用它写东西。但Gary’s List不只是让记者发文章。它自己就在完成一个高质量调查记者的工作。


Garry Tan:没错。大概花5到10美元的Opus API调用成本,它完成的工作量,相当于一个真人研究员:读几十篇文章、读整本书、做标注、整理观点。


Jake Heller(Casetext创始人)之前教过我一件事:


你得思考:“如果这是个人类,他会怎么找上下文?”他会去图书馆找什么书?他会怎么搜索?


现在这些都能自动完成。你可以直接接Perplexity API做深度研究;也能接X的API;甚至Grok的API,用来研究X上的信息特别好。然后把所有上下文都抓回来。


我有篇文章叫《Boil the Ocean》。意思是:既然AI的边际成本这么低,那就别像人类一样“节省精力”。直接把海煮开,做彻底一点。


如果一个人类做这些研究要一个月,那现在你就疯狂砸token,多花点钱,token max一下。如果额外的token能让结果更完整、更真实、更接近现实,那就值得。


不要只满足一个来源,拿20个来源交叉验证。如果13个来源说A,7个说B。全部喂进prompt,让模型自己权衡。这样得出的判断,肯定比一个人类点开一个标题扫一眼强得多。我觉得这会成为未来最酷的工作方式,而且不只是写文章,写代码也是这样,未来所有知识工作都会这样。


Diana Hu:所以你的意思是,AI不会替代人,而是放大人的意志?


Garry Tan:对。AI不会替你产生“关心”。那个agency必须来自你自己。我关心代数教育。


因为我知道,如果没有它,很多像小时候的我那样的孩子,就没有机会改变人生。旧金山是全美国私校比例最高的城市之一。这不应该是正常的。你不应该因为没钱,就得不到好教育。我不知道为什么这件事会变得有争议。


所以对我来说,技术革命正在发生,而我刚好有一个强烈到刺痛我的问题想解决。想到那些10岁、12岁、13岁本该学代数,却被官僚体系挡在门外的孩子,我会真的难受。于是我开始解决它。然后在这个过程中,我发现了token maxing,也发现了这种全新的软件构建方式。而这最终催生了下一个项目:GStack。


4GStack的“意外诞生”


Garry Tan:其实我一开始根本没打算做GStack。我只是发现,自己一直在重复做同样的事情。后来我烦了。


于是我打开Apple Notes,把那些我反复输入给Claude Code的内容全部记了下来。最开始其实都很简单。比如:“这是plan review”。我后来特别喜欢让Claude先画ASCII图。因为我发现,Claude有时候会犯迷糊,会写bug,或者实现得不完整。但如果我先让它:“在开始之前,把所有数据流、输入输出、用户流程、错误处理,全都画成ASCII图。”


效果会完全不一样。


它会开始画:数据流图、状态机、依赖关系图、处理pipeline、决策树,一旦它把这些都画出来,相当于它已经把上下文真正“加载进脑子里”了。然后它干活就会完整得多。


它会真正“把海煮开(boil the ocean)”。然后自动拆分成很多部分:架构审查、代码质量、测试。我做Gary’s List时还有个很深的体会:如果代码是我亲手写的,我永远只会做“最低限度”的测试。因为测试实在不有趣。我知道必须写,但我真正想做的是写新功能。没人是为了“写测试”才开始写代码的。


后来我也踩中了所有vibe coding的坑。比如:“这代码全是slop(垃圾AI代码)。”80%的场景没问题。但只要真实用户一上来,它就开始崩。


那时候我突然意识到:哦——我其实可以做到100%测试覆盖。后来我又发现,100%可能有点过头。现在行业最佳实践大概是:80%到90%。


这基本上就是最早的Plan Review。很多人知道那个Office Hours Skill。我现在做新产品、新功能时还在用。它会模拟YC平时怎么和创业公司讨论问题:


  • 用户是谁?


  • 为什么他们需要?


  • 产品解决什么问题?


  • 会产生什么影响?


但这个版本其实还是proto-skill。那时候我甚至都不知道“skills”这个概念已经存在。后来我把这个prompt发到网上。结果直接爆了。20万人看到了。然后我又做了个更大的版本。


我叫它:Mega Plan。后来改名叫:CEO Plan。


我们之前应该聊过Meta Prompting。我这里其实就在做meta prompting。


我把原来的review plan拿过来,然后告诉模型:“现在,假设Airbnb创始人兼CEO Brian Chesky就坐在你旁边。”


Brian Chesky有个特别经典的问题:“什么叫10星级体验?”因为大多数人只会想:2星酒店、3星酒店、5星酒店。


但Brian会继续往上问:6星是什么?7星是什么?8星是什么?


这是我最喜欢的产品设计思维训练之一。而现在最酷的地方是:你每一次都能这么做。这个prompt本质上在问:“这个产品的柏拉图式理想形态(Platonic Ideal)到底是什么?”


其中有两个我特别喜欢的问题:


第一:“10x Check”。什么方案能:多创造10倍价值,却只增加2倍工作量?


第二:“更有野心”。不知道为什么,从latent space里“逼出更大潜力”这件事,对模型特别有效。


我其实特别喜欢CEO Skill。因为我是典型ADHD CEO。我特别迷恋“潜力感”。特别夸张的是:有时候就两句话。但它真的能解锁巨大能力。


5GStack的真正起点:工作流崩了


Garry Tan:所以GStack最开始根本不是一个产品。我只是觉得:“我需要一些skills。”那时候我听说已经有人在做skill repos(技能仓库)。但后来又发生了一件事。我开始疯狂使用这些skills。结果我的conductor instance开始严重堵塞。


Jared Friedman:所以这其实就是你真实的daily workflow?这就是你一个月写几十万行代码的方式?


Garry Tan:对,没错。过去48小时我大概提了13个PR。我的方式基本就是:不停queue。只要想到新功能,我就丢进去。我特别喜欢CEO Skill。也喜欢用它把测试做得特别完整。这些都在Plan Mode里完成。然后我点approve。Claude就会自动把事情做完。


后来我queue的任务太多了。大概有15个功能同时等我人工QA。它们:e2e测试通过、integration test通过、unit test通过,但最后我还是得手动打开Rails server:加载某个用户、配置特定状态,再手工点一遍,确认真的没问题,后来我又烦了。


我那时候在用Claude Code MCP。但太慢了。每轮操作要2到3秒。我心想:“这QA根本没法用。”后来我听说微软发布了Playwright,算是一套新的自动化测试框架。


回头看,其实还有很多其他Agent工具能用。但Claude Code最大的优点,也是最大的问题,就是:它太容易“直接开始”。所以我literally就打开终端,输入:“我受够了Claude MCP的浏览器控制,它太慢了。我们直接把微软Playwright包一层吧。能不能做?”


然后回车。


GStack基本就是这么长出来的。


6“我是纯Claude派,但很多人更喜欢Codex”


Garry Tan:后来我参加YC的batch活动。大家都在聊Claude Code和Codex。当时我是纯Claude派。结果我发现:很多人更喜欢Codex。


我就在想:为什么?后来我意识到:Claude特别适合ADHD CEO。它特别会brainstorming。特别会放大潜力,但有时候它会胡说八道。Claude模型很强,但它不一定是“最聪明”的。


于是很多人跟我解释:如果问题特别疯狂、特别复杂,你需要的是:“那个200 IQ、几乎不说话的CTO。”于是我突然懂了:Codex就是那个CTO。


所以后来我做了/codex。它会读取你的plan或直接读取repo,在命令行里跑Codex、让它找所有bug和问题,再把结果反馈给Claude,然后你和Claude再一起修。


后来我甚至反过来做了/claude。如果你平时主要用Codex coding,也可以临时把Claude拉进来当CEO。


GStack有个特别重要的原则:大量ask user question。因为我觉得:真正重要的理解,必须来自人。vibe coder、operator、agent engineer——这些角色必须提供:产品理解、用户理解以及为什么做这件事。我不相信能完全把人踢出loop。这可能是个有争议的观点,但我从来不想彻底退出loop,我只想让机器去做那些我不想做的事。QA就是一个典型例子。


7“Mini AGI已经出现了”


Garry Tan:现在GStack已经有点离谱了。我输入一个功能需求,它会直接告诉我:“哥们,你已经做过这个了。”比如Browse。


它本质上是一个长期运行的HTTP daemon,带70个CLI命令。QA本质上就是Browse。但prompt里会告诉模型:“去看当前branch做了什么。如果涉及UI或数据修改,就自动打开浏览器自己测试。”第一次成功的时候,我真的震惊了。我当时心想:Mini AGI已经出现了。


当然,我知道这不是真正AGI。真正AGI应该是:“我已经不需要在这里了。”


但说实话,作为builder,我希望那一天永远别来。因为只要机器还需要人,那行有产品感的人、有设计感的人、真正理解用户的人就等于长出了翅膀。


8Thin Harness,Fat Skills


Jared Friedman:后来你把这些思考总结成了:“Thin Harness,Fat Skills”,对吧,能展开讲讲这个结论吗?


Garry Tan:对。其实这个概念有一部分,是因为网上一直有人嘲讽我:“你不就是在卖Markdown吗?”但我现在越来越觉得:Markdown本身就是代码。只是它的“编译方式”不同。你完全可以用Markdown驱动极其复杂的系统。


我现在甚至已经不用Visual Studio了。因为:为什么还要用IDE?我直接跟agent对话就行了。


Thin Harness的意思是:底层agent loop根本不值得重复造。所谓harness,本质就是:接收用户输入,发给LLM,调用工具最后返回结果。这些东西没必要重复写。真正应该投入时间的是:Skill。也就是:“到底该写什么Markdown?”


我经常举婚礼策划的例子。如果你是婚礼策划师,你想教下一个人如何办婚礼,你会怎么写checklist?那些:经验、判断、流程以及特殊情况都应该写进Markdown。


但像:“给20个场地打电话”这种deterministic action,就应该交给代码和API。


现在很多Agent Engineering的问题,本质就是:人们把应该写进Markdown的东西,错误地写进了代码。于是系统变脆,因为代码不理解特殊情况。代码根本不知道你是谁、你想干什么以及你的动机是什么。代码只是deterministic的0和1。


但LLM不一样。它有latent space。它能理解你,能理解你的目标,能处理泛化问题。所以现在工程师真正的工作,其实是:决定到底哪些部分属于LLM,哪些部分属于deterministic code。


还有另一件我学到的重要事情:一定要做到80%到90%的测试覆盖率。否则你就是在往用户身上扔垃圾。而且这种垃圾,会比人类写的烂代码还糟糕10倍。因为你根本不知道它什么时候会炸。


现在的问题已经不只是:你要弄清楚哪些东西属于latent space,哪些属于deterministic code。你还得保证:unit test做好了并且integration test也做好了。但最疯狂的地方在于:机器根本不在乎这些工作量它会直接做。


这太惊人了。你只需要继续“砸token”,继续zap the rocks,你就能把测试覆盖率拉到90%。然后你会得到一个:虽然还不完美,但已经非常强大的系统。


OpenClaw现在就是这种状态。当然还有很多failure case,但它已经完成了95%。我现在用OpenClaw的感觉,就像在开法拉利,特别刺激,特别疯狂。它能自动搞定很多你根本不相信机器能搞定的事情。而且速度极快。


但它也像法拉利一样,你最好自己是个机械师。因为它会在你最需要它的时候坏在路边。然后你得自己下车,拿着扳手,打开引擎盖,自己修。没人会替你修。


所以我觉得,现在这个时代特别像:Homebrew Computer Club的年代,就像Apple 1刚出现的时候。


当年Steve Jobs和Steve Wozniak做的Apple 1,本质上就是:一个钉在木板上的电路板,靠钉子、胶带、木箱拼起来。如果你想拥有个人电脑,你就得自己折腾。


而今天我们正处在同样的阶段。现在:一个技术能力不错、学过计算机科学的人,只需要:花两三个小时,再烧几百到一千美元token,就能跑起一个属于自己的Agent系统。一旦它跑起来,就像进入了:“法拉利kit car阶段”。你已经能开着它到处跑了。然后你会忍不住大喊:“我有法拉利了!”


9“系统坏了?那就让另一个Agent修它”


Jared Friedman:我觉得有件事很多人没真正理解:只有你亲自push through之后,才会意识到:“自己修系统”这件事,其实没那么可怕。如果往回看:以前有Stack Overflow的时候,大家已经觉得很神奇了。卡住了就去搜答案。后来ChatGPT出现。你开始:问问题、复制代码、粘贴运行然后再贴回去,本质上还是同一套workflow。但到了Claude Code时代,你突然意识到:你甚至都不需要copy-paste了。它直接自己执行代码。


我后来用OpenClaw的时候也发现它会把自己搞崩,会干很多很烦人的事。但问题是——你完全可以让Claude Code自己修它。


Garry Tan:对。我现在就是这么干的。Claude Code会自己修。当然,这肯定不是未来最终形态。但最关键的mindset shift在于:“系统脆弱”其实没那么重要。因为你可以再放一个Agent,专门负责修它。


我自己的workflow也在进化。以前我是彻底的Claude Code派。现在依然是。但可能只占我50%到60%的工作时间了,剩下接近一半,已经在OpenClaw里完成。


后来我开始做GBrain。是因为我认识了Peter,后来又听你们聊OpenClaw。有个周末我终于决定:“我得亲自试试看。”刚好那时候,Karpathy写了一篇关于:“Knowledge LLM Wiki”的文章。


我当时就在想:“我已经有一整个markdown repo了。为什么不把我所有上下文都塞进去?”后来我发现:GP(Graph Prompting)其实没那么好,它会浪费上下文,加载太多不必要的信息,然后我就掉进垃圾堆里了。


我后来打开conductor,点quick start,因为GStack已经接进conductor了。


但真正有趣的是:我其实不是从零开始,当你写了越来越多代码后,你脑子里已经形成了完整的知识体系。比如:为了给Gary’s List做一个agentic newsroom,我不得不学向量嵌入、hybrid RRF、chunking、RAG等等,你在真正做产品时,会变得特别“应用导向”。


你会开始想:我要什么输出?文章必须达到什么质量?引用怎么组织?integration test怎么写?最后你会慢慢做出一个:真正battle-tested的系统。


10“Claude Code把我带回到25岁”


Garry Tan:后来我突然意识到:其实任何人都能这么做。这也是为什么我认为:我们正在进入开源黄金时代。我完全可以打开另一个项目,然后直接告诉Agent:“去看看Gary’s List是怎么做chunking、embedding、hybrid RRF、RAG的。把它抽出来。然后我要:PostgreSQL、pgvector、完整RAG系统给OpenClaw用”,然后事情就开始滚雪球。最后我会同时开10个窗口,疯狂并行开发。


我后来翻了一下。我真正开始深度投入OpenClaw的时间是:1月23日。


那天我发了条推文:“这周的Claude Code唤醒了我25岁时的自己。那个喝红牛、通宵coding到天亮的自己。我们回来了。”


Builder身份重新浮现了。


Jared Friedman:所以你现在基本又回到:每天睡4小时,写代码20小时的状态里了吗?


Garry Tan:差不多。也是从那个时候开始,我因为“Lines of Code”这件事惹了不少麻烦。但我现在依然相信它。


Jared Friedman:网上很多人会反对:“代码行数不能衡量开发效率。”但它似乎又“有点能衡量”。你怎么看?


Garry Tan:它确实能。当然不是唯一指标,但它也确实说明问题。而且有意思的是:现在已经有很多公开Git repo,专门用于:“剔除无效代码行,只统计logical lines of code”。我真的跑过,结果比我原来说的还夸张。


我之前说:“我的coding速度比2013年快了100倍。”后来做完logical LOC清洗后,发现:不是100倍,是400倍。当然不是我亲手写的,而是我同时指挥15个Agent在写。


更有意思的是:这个工具不仅减少了Claude Code的无效代码行,还把我2013年自己写的代码,砍掉了70%,这才是问题关键。


人类程序员其实特别容易“灌水”,但Claude不会故意优化代码行数,除非你明确要求它,它可能写错,可能方向不对,但它不是为了“混工作量”而写代码。


如果你回头看软件工程文献:从1990年到2000年,一个职业工程师每天真正能交付的:“生产可用、测试完整”的代码量,其实少得惊人,不是几百行,可能一天只有三五十行。


我当年甚至一天只有14行。所以400倍代码量其实真不是夸张。


我后来意识到:我应该早点把这些解释清楚,而不是只顾着吊着大家。真正重要的是:这件事会大幅提高技术人的能力上限。尤其是那些最懂技术、最有品味的人,他们反而最应该获得“翅膀”。只要:你愿意let it rip,愿意token max。


Jared Friedman:不过我觉得另一个问题是,体验差异真的非常大。很多复杂任务,我用OpenClaw经常失败。同样是Opus 4.7,但效果和Claude Code完全不一样。复杂点的任务我还是会回到Claude Code。


Garry Tan:但你知道最疯狂的地方是什么吗?六个月前,Claude Code自己也是这种状态。当时大家也会说:“还差一点。”“还没真正可用。”但后来突然有一天:它就能做到了。


我敢保证:一年后,所有人都会重复今天我们在这里说的话:“每个人都会拥有自己的Personal AI。”问题只在于:你想生活在哪种世界里?


一种世界是:你拥有自己的AI,拥有自己的数据,自己的integrations,自己的prompts。


你知道系统在干什么,你掌控工具。


另一种世界则是:AI完全由公司控制。像Facebook Feed一样。你根本不知道算法是谁写的、它服务谁以及背后是什么商业模式,你完全没有控制权。


个人电脑革命最大的礼物,其实是:“个人拥有计算能力”。而现在,我们正在进入同样的Personal AI时刻。未来会变成一种选择:你愿不愿意:自己写prompt、自己理解系统并自己拥有AI。


因为如果你没有自己的prompt,那你其实只是:“活在某个PM或开发者定义的API边界之下”。而那个人不懂你也不懂你的需求,更不懂你真正关心什么。


所以我觉得:这个时代真正的问题是:你能否掌控自己的工具?还是最终,工具反过来掌控你?


Jared Friedman:还有一个disconnect:很多人其实没意识到,真正获得这种AGI/ASI式开发体验是很贵的,你得疯狂烧token,并不是所有人都能负担得起高昂的token支出。


Garry Tan:对。但这其实特别像旧金山房租。很多YC创始人都会说:“旧金山太贵了,我不想搬过去。”但问题是:“不搬过去更贵。”


我们经常告诉创业者:不要只住旧金山。你甚至应该住Dogpatch。住那些高密度builder社区。因为偶然性(serendipity)特别重要。


Token Maxing也是一样。很多创始人一开始都会觉得:“每天烧500美元token太夸张了。”


但实际上:这就像房租。这是最值得花的钱,你当然可以省桌子、省沙发,但不要省模型。不要省token。


11用Token买回时间


Jared Friedman:我还有个问题。你觉得是不是因为你同时还是YC CEO,时间特别稀缺,才逼着你疯狂自动化?因为你根本没有时间手动点测试。


Garry Tan:对。我特别羡慕“时间亿万富翁”,有时候我看我孩子。我会想:“这些孩子现在是时间亿万富翁。”


你会在Startup School看到很多年轻人。他们也一样,拥有无限时间,能学任何东西。而我自己脑子里永远特别急。我总觉得:这一生里,我像有100亿个人生想活,所以每一分钟都必须算数。而Token Maxing最疯狂的地方就在于:你其实可以买到:“数百万年的机器意识时间”。


这样一来,我也变成了时间亿万富翁,虽然不是我的时间,而是机器替我工作,帮我服务我关心的人、我关心的事业、我关心的builder。


其实去年YC内部offsite,我们一直在讨论:“怎么教下一代builder使用这些工具?”后来我才意识到:可能潜意识里,我一直都在被这些想法推动。


尤其是后来我坐在Boris Cherny身边。他说:“我们团队已经不亲手写代码了。”那一刻我突然意识到:“哦。其实我也能做到。”


而且,看这段视频的人,你和我没有区别,我们起点是一样的,我不觉得自己是什么“高高在上的人”。我只是个想把事情做成的人。


我坐在Boris身边时会想:“这可能是我见过最强的工程师之一。”但与此同时,我也会想,我们用的是同一个prompt,同一台MacBook Pro。其实没有任何东西阻止你、我、任何人,去调用“数百万年token计算力”,为人类做事。


参考链接:


https://www.youtube.com/watch?v=57lDpTwiW6g


https://www.reddit.com/r/ClaudeAI/comments/1s7jdof/garry_tan_opensourced_GStack_his_personal_skill/


https://www.youtube.com/watch?v=rEwK7MIQ-QA


https://github.com/garrytan/GStack


https://www.youtube.com/watch?v=Q6nem-F8AG8

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定