本文是Railway创始人Jake Cooper的深度对谈整理,分享了这家独立慢公司靠打磨产品、做Agent原生云实现爆发增长的路径。 ## 1. 六年慢公司的爆发增长 目前Railway拥有约300万注册用户,每周新增10万注册用户,增长近年明显加速。 六年缓慢打磨产品,坚持「把激活成本压到极低」的六年前目标,成为AI coding工具普及浪潮的受益者,开发者用Cursor、Claude写完代码后,Railway是部署摩擦力最低的选择。 ## 2. 自建裸金属数据中心实现成本优势 最初自建是因为AWS成本过高,分析后确认规模下自建有显著成本优势,选择直接采购服务器、租赁机房、自主搭建网络。 自建数据中心仅用三个月就实现成本回本,目前裸金属承载了平台绝大多数流量。 坚持从第一性原理出发重新设计架构,为了体验深挖技术层,比如修改内核TCP实现优化SSH连接稳定性,不抄大厂作业坚持自主创新。 ## 3. Death PRs:靠删代码提升效率的出圈工程实践 Death PR是Railway内部专门收纳「删代码、降成本」请求的实践,杀死多余的复杂度和技术债,而非砍掉产品功能。 公开后意外获得开发者社区认可,成为重要口碑来源,其核心哲学是:只保留真正必要的服务,删除多余复杂度能提升系统可靠性、速度并降低维护成本,该文化来自自建数据中心对成本效率的要求。 ## 4. Central Station:小团队支撑大用户量的效率系统 Central Station可以聚合全渠道用户反馈,自动分类后动态分配给对应领域工程师,避免工程师在海量沟通信息中自行筛选问题。 该系统曾在一次影响3000余用户的缓存事故中,快速捕捉到反馈聚集,帮助团队迅速定位回滚问题。 ## 5. Agent原生云:适配AI Agent需求的全新基础设施设计 当前云架构是为人类手动部署设计的,而AI Agent需要随时fork生产副本、快照完整状态、避免生产测试环境漂移,现有架构无法满足安全要求,无防护下Agent操作云资源大概率会引发生产事故。 Railway的Canvas可视化编排功能是该方向的探索,支持Agent在平台内完成「fork副本-实验验证-合并回生产」的完整安全循环。 Jake原本是AI怀疑论者,2025年圣诞后AI能力突破临界点,成为AI的深度信仰者。 ## 6. 对工作流引擎Temporal的评价:理念正确但复杂度偏高 Temporal是强大的工作流引擎,Jake从Cadence时代就开始使用,它能接管持久化、重试、状态管理,对需要处理长时间任务的Agent时代也非常适配。 Temporal状态模型复杂,用户不理解其回放机制就写入非确定代码,很容易导致状态混乱,Railway全量用它支撑部署流水线,不得不搭建专门的测试体系,规模增长后复杂度负担明显,目前已经在做针对自身场景优化的内部简化替代方案。 ## 7. Heroku凋零的本质与Railway的核心使命 Heroku凋零并非产品问题,核心原因是它不属于母公司Salesforce的战略核心,被边缘化后流失资源、人才和注意力,验证了「专注就是力量,分散就是死亡」的规律。 Railway不想做「新Heroku」,核心目标是消除Docker、Kubernetes等环节的部署摩擦,将软件激活成本降到零,让想法五分钟内就能跑在生产环境。目前Railway选择聚焦现有业务,暂不做GPU业务,「被拒绝做的事比选择做的事更能定义你」。 ## 8. 独立创始人的精神与工作节奏 Jake保持清晰的工作节奏:周一到周五日出到日落全力工作,周六完全断开陪伴家人,周日下午做计划整理思路,写作帮他厘清思路同时完成对外传播。 Jake认为两个联合创始人是最坏的配置,意见不一致时没有平局裁判,难以一锤定音,单人决策虽然更难,但逻辑清晰。 给创业者的建议:大多数建议消化后就放下,真正有价值的内容会通过你的经验重新回来,不要照单全收,每个人的处境都不相同。
Railway CEO谈Agent原生云基础设施:300万用户、每周10万注册、自建数据中心:Railway这朵慢云如何起飞?
2026-05-29 12:06

Railway CEO谈Agent原生云基础设施:300万用户、每周10万注册、自建数据中心:Railway这朵慢云如何起飞?

本文来自微信公众号: 每日天使 ,作者:每日天使,原文标题:《Railway CEO谈Agent原生云基础设施:300万用户、每周10万注册、自建数据中心——Railway这朵慢云如何起飞?》


                      在AI这个节点上,很多人都在问:谁会是下一代的云基础设施赢家?大家第一反应是AWS、GCP、Azure,或者Cloudflare、Vercel这样的新势力。但还有一匹黑马——Railway,一个六年前就开始做"让部署变简单"的公司,如今悄悄积累了300万用户,每周还在以10万的速度增长。


                      更特别的是,Railway的创始人Jake Cooper是个"孤独创业者":没有联合创始人,没有融大钱,却自己悄悄建了裸金属数据中心,用三个月就把数据中心成本回本,并且在AI Agent浪潮到来之前,就已经把基础设施的设计哲学指向了那个方向。


                      这期Latent Space播客是Jake Cooper少有的深度公开对谈,谈到了Railway的增长内幕、Agent原生云的架构哲学、Death PRs的传播效应、Heroku落寞的本质,还有他个人作为独立创始人的精神生存之道。内容相当硬核,但也相当真诚。


                      导语


                      2025年,一个叫Railway的云平台突然被大量开发者在X上刷屏:不是因为融到了大钱,也不是因为上了什么榜单,而是因为他们合并了一个"Death PR"——删掉了一大堆基础设施代码,让平台成本大幅下降,然后公开发文庆祝。这种反常规的骚操作,让很多人第一次认真看了一眼这家公司。


                      他们看到的是:300万注册用户,每周10万新增,自建裸金属数据中心,一个没有联合创始人的创始人——Jake Cooper——正在悄悄把"部署即时即有"这件事做成现实。


                      在Latent Space最新一期播客中,Jake第一次深入讲述了Railway的完整故事。


                      Q&A正文


                      一、六年"慢公司"是怎么突然起飞的?


                      Q:Railway现在有多少用户?增长是什么节奏?


                      Jake Cooper:大概300万注册用户,每周新增10万。但我要诚实地说,这个数字很漂亮,但你也知道注册用户和活跃付费用户是两回事。我们真正关注的是有多少人在真正使用平台部署东西。不过增长势头确实是明显加速了,尤其是最近一段时间。


                      Q:你们花了多久才到这个规模?


                      Jake:六年。这不是一夜爆红,是六年的慢磨。在最开始很长一段时间里,我们的增长是线性的,甚至是艰难的。我们一直在打磨产品,相信如果产品足够好,口碑会来。然后确实来了,但来的方式不是我预期的——部分是因为AI coding工具的普及,很多用Cursor、Claude写代码的开发者需要一个地方部署他们的项目,而Railway是那个摩擦力最低的地方。


                      主持人:所以你们是AI编程工具浪潮的受益者?


                      Jake:是的,但我不觉得这是运气。我们提前就在做这件事——把激活成本压到极低。如果你今天有一个想法,Railway应该让你在五分钟内就能把它跑在生产环境里。这个目标不是因为AI来了才定的,是我们六年前就定的。


                      二、为什么要自建裸金属数据中心?


                      Q:你们自建数据中心这件事很少有创业公司做。为什么?


                      Jake:最初是因为AWS太贵了。当你的流量到一定规模,你意识到自建会有多大的成本优势。我们做了分析,然后就去买服务器、租机房、自己搭网络了。


                      Q:数据中心多久回本?


                      Jake:三个月。大概三个月内,数据中心的成本就已经回来了。这个速度比我们预期的要快得多。现在裸金属已经是我们平台流量的绝大多数了。


                      主持人:你们在数据中心上写了不少东西,比如自研TCP/IP栈优化,甚至到内核层。


                      Jake:对。我们有一个信条:不管要挖多深,我们都挖。如果为了给用户提供更好的SSH连接不断线体验,我们需要改内核的TCP实现,那我们就去改。这不是大公司的做法,但这是让我们的基础设施体验真正不同的方式。你不能靠抄大厂的作业赢——你要发明。我们承诺自己不抄别人的架构,从第一性原理出发重新设计,读论文,然后自己实现。


                      三、"Death PRs"是什么?为什么会出圈?


                      Q:说说"Death PRs",这是什么概念?


                      Jake:这是我们在内部做的一个实践。我们设了一个专门的GitHub仓库,专门用来合并那些"删代码、降成本"的PR。比如我们发现某个基础设施组件可以用更精简的方式重写,节省了大量成本。我们合并它,然后发推庆祝——"我们今天合并了一个Death PR,节省了XX美元每月"。


                      Q:为什么叫"Death"?


                      Jake:因为这些PR在"杀死"多余的复杂度和成本。不是说产品功能在死,而是让技术债和低效的架构去死。这件事本身是内部的工程实践,但我们把它公开之后,开发者社区非常喜欢这种透明度和工程精神。它意外成了我们很重要的一个口碑来源。


                      主持人:这背后的哲学是什么?是"少即是多"?


                      Jake:是"你真正在用什么"。我们鼓励工程师去问:我们今天跑的这些东西,有多少是真的必要的?如果不必要,删掉。每删掉一块不必要的复杂度,系统就更可靠、更快、维护成本更低。这个文化来自我们自建数据中心时的训练——当你要为每一瓦电力、每一块硬盘付钱,你会更加认真地对待效率。


                      四、Central Station:如何用小团队撑起大规模


                      Q:Railway团队规模不大,但用户量很大。你们怎么做到这个杠杆比的?


                      Jake:我们内部有一个系统叫"Central Station"。它的核心功能是把所有用户反馈——客服、论坛、社交媒体、GitHub Issues——全部聚合起来,自动分类,然后动态分配给内部最相关的工程师。比如,一个关于网络的bug,系统会知道谁是网络这块的核心人,然后把相关的十条反馈都推给他,而不是让他在Slack的海量信息里自己去找。


                      主持人:你们是开源这个系统了吗?


                      Q:你们最近的大事故是什么?


                      Jake:影响了3000多个用户的一次缓存问题。起因是一个上游供应商写了RFC说会有某种行为,但他们自己没有按RFC实现。我们测试了,没发现问题,因为我们的测试覆盖不到他们的错误实现。Central Station第一时间捕捉到了用户反馈的聚集,我们迅速定位并回滚。但这件事提醒我们:任何时候推向300万用户,边缘情况的多样性都会超出你的预期。


                      五、什么是"Agent原生云"?


                      Q:你说Railway在做"Agent原生云",这个词是什么意思?


                      Jake:我的意思是:AI Agent在工作时,需要的基础设施原语跟普通应用完全不同。Agent需要能随时fork一个生产环境的副本来测试假设,需要能快照某个时刻的完整状态,需要生产环境和测试环境之间没有漂移。


                      现在的云架构是为"人类工程师手动部署"设计的,不是为"Agent在生产环境里自主迭代"设计的。如果你让一个Agent直接操作你的AWS,而没有安全的fork/snapshot原语,它迟早会删掉你的数据库——不是"如果",是"什么时候"。


                      Q:Railway的Canvas功能是这个方向的答案吗?


                      Jake:Canvas是一个可视化的服务编排界面,你可以在上面看到你所有的服务和它们的连接关系。我们想要Agent能在Canvas里操作:它看到一个服务,fork一个副本,做实验,看结果,然后决定是否合并回生产环境。整个循环在Railway内部完成,而不是AI脚本乱跑。这才是真正的Agent安全操作基础设施的方式。


                      主持人:你之前是AI怀疑论者?


                      Jake:是的,2023年我基本不信。2024年我开始说"好吧,也许可以"。然后2025年圣诞前后,那两周是一个分水岭。大家回到工位,发现AI能做的事情一下子超越了某个临界点。现在这个感觉是:你拿错了比拿对了更难。就像Vision拿起雷神之锤,它是自平衡的。我现在是深度信仰者。


                      六、Temporal的爱恨情仇


                      Q:你们是Temporal的深度用户,但你卖掉了股票?


                      Jake:(笑)对。Temporal是一个强大无比的工作流引擎,我从Cadence时代(在Uber)就开始用,快十年了。它能让你把整个用户旅程写成一个顶层函数,而底层的持久化、重试、状态管理全由它负责。这个思想太强大了,对Agent时代也同样重要——Agent需要执行长时间任务,需要暂停、恢复、处理异步事件,这就是Temporal的用武之地。


                      Q:那问题是什么?


                      Jake:它像喷气发动机——威力无穷,但你必须完全理解它的状态模型。如果有人在不了解Temporal历史回放机制的情况下,往工作流里塞进了一点不确定性的代码,就会导致非确定性问题,然后整个工作流的状态就乱了。我们在Railway内部跑整个部署流水线都是用Temporal,但我们也因此不得不建立专门的测试体系来验证状态机。它的操作复杂度在规模增长后会变成一个实际的负担。


                      主持人:如果你不用Temporal,你会怎么做?


                      Jake:我们可能会自己造一个更简单的版本,专门为我们的场景优化。其实我们已经在做一些内部替代方案了。但Temporal本身的概念是正确的——这一点毫无疑问。


                      七、Heroku的凋零与Railway的使命


                      Q:Heroku正式宣布告别,你有什么感受?


                      Jake:这是我的第一个"真实部署体验"的地方。我也有过在bash里专门写Heroku alias的阶段。但Heroku的凋零并不奇怪——当一个业务不是母公司的核心业务,它必然被边缘化。Salesforce的核心是CRM,不是云计算。再好的产品,如果不是战略核心,资源、注意力、人才都会被挤走。这是Meta早期创始人总结的那个规律:专注就是力量,分散就是死亡。


                      Q:你们不想做"新Heroku"?


                      Jake:对,我们不想做新Heroku。新Heroku是一个存量市场的概念。我们想做的是:让软件的激活能量降到零。不管是公民开发者、前端工程师、后端工程师,所有那些Docker、Kubernetes、CI/CD、DevOps层的摩擦,都应该消失。你有想法,Railway让它在五分钟内活着。这才是我们的目标。


                      主持人:你们会做GPU吗?


                      Jake:现在不。但永远不会说永远不会。当你完全垂直整合,你最终会需要算力。但现在聚焦。你被拒绝做的事情,定义你比你选择做的事情更多。


                      八、独立创始人的生存之道


                      Q:你一个人撑了六年,没有联合创始人——你是怎么做到的?


                      Jake:我喜欢写作。写作对我是一种厘清思路的方式,也是一种对外传播的方式。我在Twitter上发了很多东西,也因此被骂了很多次,比如我说"如果你周末还在加班,说明你的规划出了问题",然后又收回了这句话——因为现在这个特殊时期,如果你方向清晰,多一些投入是值得的。


                      我自己的节奏是:周一到周五,日出到日落全力工作。周六完全断开,陪自己爱的人。周日下午回来,做下周计划,写笔记,理清头绪。然后下周再冲。


                      Q:两个联合创始人你觉得为什么是最坏的数字?


                      Jake:没有平局裁判。你们意见不一致,谁说了算?哪怕你说"他是CEO",在感情和信任上,两个人永远是平等的,所以每次分歧都很难真的一锤定音。三个人至少还有少数服从多数。一个人就是我自己决定。这不是最容易的,但它确实是清晰的。


                      主持人:对创业者最有价值的一句话?


                      Jake:大多数建议,消化它,然后扔窗外。如果它真的有价值,它会自己通过你的经验再回来的。别照单全收——每个人的处境都不同。


                      结语


                      Jake Cooper和Railway的故事,本质上是一个关于"相信第一性原理"的故事。


                      在大家都觉得基础设施是成熟市场的时候,他觉得激活成本还远远太高;在大家都烧钱用云服务的时候,他去自己建数据中心;在大家都在讲AI应用层的时候,他说基础设施原语才是Agent时代最关键的东西。


                      结果六年磨一剑,300万用户不是靠营销来的,是靠一个又一个开发者觉得"这个工具真的很好用"口口相传来的。


                      视频链接:https://www.youtube.com/watch?v=LzCUYNP5UTI

                      AI创投日报频道: 前沿科技
                      本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
                      如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
                      正在改变与想要改变世界的人,都在 虎嗅APP
                      赞赏
                      关闭赞赏 开启赞赏

                      支持一下   修改

                      确定