本文来自微信公众号: 每日天使 ,作者:每日天使,原文标题:《Railway CEO谈Agent原生云基础设施:300万用户、每周10万注册、自建数据中心——Railway这朵慢云如何起飞?》
在AI这个节点上,很多人都在问:谁会是下一代的云基础设施赢家?大家第一反应是AWS、GCP、Azure,或者Cloudflare、Vercel这样的新势力。但还有一匹黑马——Railway,一个六年前就开始做"让部署变简单"的公司,如今悄悄积累了300万用户,每周还在以10万的速度增长。
更特别的是,Railway的创始人Jake Cooper是个"孤独创业者":没有联合创始人,没有融大钱,却自己悄悄建了裸金属数据中心,用三个月就把数据中心成本回本,并且在AI Agent浪潮到来之前,就已经把基础设施的设计哲学指向了那个方向。
这期Latent Space播客是Jake Cooper少有的深度公开对谈,谈到了Railway的增长内幕、Agent原生云的架构哲学、Death PRs的传播效应、Heroku落寞的本质,还有他个人作为独立创始人的精神生存之道。内容相当硬核,但也相当真诚。
导语
2025年,一个叫Railway的云平台突然被大量开发者在X上刷屏:不是因为融到了大钱,也不是因为上了什么榜单,而是因为他们合并了一个"Death PR"——删掉了一大堆基础设施代码,让平台成本大幅下降,然后公开发文庆祝。这种反常规的骚操作,让很多人第一次认真看了一眼这家公司。
他们看到的是:300万注册用户,每周10万新增,自建裸金属数据中心,一个没有联合创始人的创始人——Jake Cooper——正在悄悄把"部署即时即有"这件事做成现实。
在Latent Space最新一期播客中,Jake第一次深入讲述了Railway的完整故事。
Q&A正文
一、六年"慢公司"是怎么突然起飞的?
Q:Railway现在有多少用户?增长是什么节奏?
Jake Cooper:大概300万注册用户,每周新增10万。但我要诚实地说,这个数字很漂亮,但你也知道注册用户和活跃付费用户是两回事。我们真正关注的是有多少人在真正使用平台部署东西。不过增长势头确实是明显加速了,尤其是最近一段时间。
Q:你们花了多久才到这个规模?
Jake:六年。这不是一夜爆红,是六年的慢磨。在最开始很长一段时间里,我们的增长是线性的,甚至是艰难的。我们一直在打磨产品,相信如果产品足够好,口碑会来。然后确实来了,但来的方式不是我预期的——部分是因为AI coding工具的普及,很多用Cursor、Claude写代码的开发者需要一个地方部署他们的项目,而Railway是那个摩擦力最低的地方。
主持人:所以你们是AI编程工具浪潮的受益者?
Jake:是的,但我不觉得这是运气。我们提前就在做这件事——把激活成本压到极低。如果你今天有一个想法,Railway应该让你在五分钟内就能把它跑在生产环境里。这个目标不是因为AI来了才定的,是我们六年前就定的。
二、为什么要自建裸金属数据中心?
Q:你们自建数据中心这件事很少有创业公司做。为什么?
Jake:最初是因为AWS太贵了。当你的流量到一定规模,你意识到自建会有多大的成本优势。我们做了分析,然后就去买服务器、租机房、自己搭网络了。
Q:数据中心多久回本?
Jake:三个月。大概三个月内,数据中心的成本就已经回来了。这个速度比我们预期的要快得多。现在裸金属已经是我们平台流量的绝大多数了。
主持人:你们在数据中心上写了不少东西,比如自研TCP/IP栈优化,甚至到内核层。
Jake:对。我们有一个信条:不管要挖多深,我们都挖。如果为了给用户提供更好的SSH连接不断线体验,我们需要改内核的TCP实现,那我们就去改。这不是大公司的做法,但这是让我们的基础设施体验真正不同的方式。你不能靠抄大厂的作业赢——你要发明。我们承诺自己不抄别人的架构,从第一性原理出发重新设计,读论文,然后自己实现。
三、"Death PRs"是什么?为什么会出圈?
Q:说说"Death PRs",这是什么概念?
Jake:这是我们在内部做的一个实践。我们设了一个专门的GitHub仓库,专门用来合并那些"删代码、降成本"的PR。比如我们发现某个基础设施组件可以用更精简的方式重写,节省了大量成本。我们合并它,然后发推庆祝——"我们今天合并了一个Death PR,节省了XX美元每月"。
Q:为什么叫"Death"?
Jake:因为这些PR在"杀死"多余的复杂度和成本。不是说产品功能在死,而是让技术债和低效的架构去死。这件事本身是内部的工程实践,但我们把它公开之后,开发者社区非常喜欢这种透明度和工程精神。它意外成了我们很重要的一个口碑来源。
主持人:这背后的哲学是什么?是"少即是多"?
Jake:是"你真正在用什么"。我们鼓励工程师去问:我们今天跑的这些东西,有多少是真的必要的?如果不必要,删掉。每删掉一块不必要的复杂度,系统就更可靠、更快、维护成本更低。这个文化来自我们自建数据中心时的训练——当你要为每一瓦电力、每一块硬盘付钱,你会更加认真地对待效率。
四、Central Station:如何用小团队撑起大规模
Q:Railway团队规模不大,但用户量很大。你们怎么做到这个杠杆比的?
Jake:我们内部有一个系统叫"Central Station"。它的核心功能是把所有用户反馈——客服、论坛、社交媒体、GitHub Issues——全部聚合起来,自动分类,然后动态分配给内部最相关的工程师。比如,一个关于网络的bug,系统会知道谁是网络这块的核心人,然后把相关的十条反馈都推给他,而不是让他在Slack的海量信息里自己去找。
主持人:你们是开源这个系统了吗?
Q:你们最近的大事故是什么?
Jake:影响了3000多个用户的一次缓存问题。起因是一个上游供应商写了RFC说会有某种行为,但他们自己没有按RFC实现。我们测试了,没发现问题,因为我们的测试覆盖不到他们的错误实现。Central Station第一时间捕捉到了用户反馈的聚集,我们迅速定位并回滚。但这件事提醒我们:任何时候推向300万用户,边缘情况的多样性都会超出你的预期。
五、什么是"Agent原生云"?
Q:你说Railway在做"Agent原生云",这个词是什么意思?
Jake:我的意思是:AI Agent在工作时,需要的基础设施原语跟普通应用完全不同。Agent需要能随时fork一个生产环境的副本来测试假设,需要能快照某个时刻的完整状态,需要生产环境和测试环境之间没有漂移。
现在的云架构是为"人类工程师手动部署"设计的,不是为"Agent在生产环境里自主迭代"设计的。如果你让一个Agent直接操作你的AWS,而没有安全的fork/snapshot原语,它迟早会删掉你的数据库——不是"如果",是"什么时候"。
Q:Railway的Canvas功能是这个方向的答案吗?
Jake:Canvas是一个可视化的服务编排界面,你可以在上面看到你所有的服务和它们的连接关系。我们想要Agent能在Canvas里操作:它看到一个服务,fork一个副本,做实验,看结果,然后决定是否合并回生产环境。整个循环在Railway内部完成,而不是AI脚本乱跑。这才是真正的Agent安全操作基础设施的方式。
主持人:你之前是AI怀疑论者?
Jake:是的,2023年我基本不信。2024年我开始说"好吧,也许可以"。然后2025年圣诞前后,那两周是一个分水岭。大家回到工位,发现AI能做的事情一下子超越了某个临界点。现在这个感觉是:你拿错了比拿对了更难。就像Vision拿起雷神之锤,它是自平衡的。我现在是深度信仰者。
六、Temporal的爱恨情仇
Q:你们是Temporal的深度用户,但你卖掉了股票?
Jake:(笑)对。Temporal是一个强大无比的工作流引擎,我从Cadence时代(在Uber)就开始用,快十年了。它能让你把整个用户旅程写成一个顶层函数,而底层的持久化、重试、状态管理全由它负责。这个思想太强大了,对Agent时代也同样重要——Agent需要执行长时间任务,需要暂停、恢复、处理异步事件,这就是Temporal的用武之地。
Q:那问题是什么?
Jake:它像喷气发动机——威力无穷,但你必须完全理解它的状态模型。如果有人在不了解Temporal历史回放机制的情况下,往工作流里塞进了一点不确定性的代码,就会导致非确定性问题,然后整个工作流的状态就乱了。我们在Railway内部跑整个部署流水线都是用Temporal,但我们也因此不得不建立专门的测试体系来验证状态机。它的操作复杂度在规模增长后会变成一个实际的负担。
主持人:如果你不用Temporal,你会怎么做?
Jake:我们可能会自己造一个更简单的版本,专门为我们的场景优化。其实我们已经在做一些内部替代方案了。但Temporal本身的概念是正确的——这一点毫无疑问。
七、Heroku的凋零与Railway的使命
Q:Heroku正式宣布告别,你有什么感受?
Jake:这是我的第一个"真实部署体验"的地方。我也有过在bash里专门写Heroku alias的阶段。但Heroku的凋零并不奇怪——当一个业务不是母公司的核心业务,它必然被边缘化。Salesforce的核心是CRM,不是云计算。再好的产品,如果不是战略核心,资源、注意力、人才都会被挤走。这是Meta早期创始人总结的那个规律:专注就是力量,分散就是死亡。
Q:你们不想做"新Heroku"?
Jake:对,我们不想做新Heroku。新Heroku是一个存量市场的概念。我们想做的是:让软件的激活能量降到零。不管是公民开发者、前端工程师、后端工程师,所有那些Docker、Kubernetes、CI/CD、DevOps层的摩擦,都应该消失。你有想法,Railway让它在五分钟内活着。这才是我们的目标。
主持人:你们会做GPU吗?
Jake:现在不。但永远不会说永远不会。当你完全垂直整合,你最终会需要算力。但现在聚焦。你被拒绝做的事情,定义你比你选择做的事情更多。
八、独立创始人的生存之道
Q:你一个人撑了六年,没有联合创始人——你是怎么做到的?
Jake:我喜欢写作。写作对我是一种厘清思路的方式,也是一种对外传播的方式。我在Twitter上发了很多东西,也因此被骂了很多次,比如我说"如果你周末还在加班,说明你的规划出了问题",然后又收回了这句话——因为现在这个特殊时期,如果你方向清晰,多一些投入是值得的。
我自己的节奏是:周一到周五,日出到日落全力工作。周六完全断开,陪自己爱的人。周日下午回来,做下周计划,写笔记,理清头绪。然后下周再冲。
Q:两个联合创始人你觉得为什么是最坏的数字?
Jake:没有平局裁判。你们意见不一致,谁说了算?哪怕你说"他是CEO",在感情和信任上,两个人永远是平等的,所以每次分歧都很难真的一锤定音。三个人至少还有少数服从多数。一个人就是我自己决定。这不是最容易的,但它确实是清晰的。
主持人:对创业者最有价值的一句话?
Jake:大多数建议,消化它,然后扔窗外。如果它真的有价值,它会自己通过你的经验再回来的。别照单全收——每个人的处境都不同。
结语
Jake Cooper和Railway的故事,本质上是一个关于"相信第一性原理"的故事。
在大家都觉得基础设施是成熟市场的时候,他觉得激活成本还远远太高;在大家都烧钱用云服务的时候,他去自己建数据中心;在大家都在讲AI应用层的时候,他说基础设施原语才是Agent时代最关键的东西。
结果六年磨一剑,300万用户不是靠营销来的,是靠一个又一个开发者觉得"这个工具真的很好用"口口相传来的。
视频链接:https://www.youtube.com/watch?v=LzCUYNP5UTI
