本文是Railway创始人Jake Cooper的深度对谈整理，分享了这家独立慢公司靠打磨产品、做Agent原生云实现爆发增长的路径。 ## 1. 六年慢公司的爆发增长目前Railway拥有约300万注册用户，每周新增10万注册用户，增长近年明显加速。六年缓慢打磨产品，坚持「把激活成本压到极低」的六年前目标，成为AI coding工具普及浪潮的受益者，开发者用Cursor、Claude写完代码后，Railway是部署摩擦力最低的选择。 ## 2. 自建裸金属数据中心实现成本优势最初自建是因为AWS成本过高，分析后确认规模下自建有显著成本优势，选择直接采购服务器、租赁机房、自主搭建网络。自建数据中心仅用三个月就实现成本回本，目前裸金属承载了平台绝大多数流量。坚持从第一性原理出发重新设计架构，为了体验深挖技术层，比如修改内核TCP实现优化SSH连接稳定性，不抄大厂作业坚持自主创新。 ## 3. Death PRs：靠删代码提升效率的出圈工程实践 Death PR是Railway内部专门收纳「删代码、降成本」请求的实践，杀死多余的复杂度和技术债，而非砍掉产品功能。公开后意外获得开发者社区认可，成为重要口碑来源，其核心哲学是：只保留真正必要的服务，删除多余复杂度能提升系统可靠性、速度并降低维护成本，该文化来自自建数据中心对成本效率的要求。 ## 4. Central Station：小团队支撑大用户量的效率系统 Central Station可以聚合全渠道用户反馈，自动分类后动态分配给对应领域工程师，避免工程师在海量沟通信息中自行筛选问题。该系统曾在一次影响3000余用户的缓存事故中，快速捕捉到反馈聚集，帮助团队迅速定位回滚问题。 ## 5. Agent原生云：适配AI Agent需求的全新基础设施设计当前云架构是为人类手动部署设计的，而AI Agent需要随时fork生产副本、快照完整状态、避免生产测试环境漂移，现有架构无法满足安全要求，无防护下Agent操作云资源大概率会引发生产事故。 Railway的Canvas可视化编排功能是该方向的探索，支持Agent在平台内完成「fork副本-实验验证-合并回生产」的完整安全循环。 Jake原本是AI怀疑论者，2025年圣诞后AI能力突破临界点，成为AI的深度信仰者。 ## 6. 对工作流引擎Temporal的评价：理念正确但复杂度偏高 Temporal是强大的工作流引擎，Jake从Cadence时代就开始使用，它能接管持久化、重试、状态管理，对需要处理长时间任务的Agent时代也非常适配。 Temporal状态模型复杂，用户不理解其回放机制就写入非确定代码，很容易导致状态混乱，Railway全量用它支撑部署流水线，不得不搭建专门的测试体系，规模增长后复杂度负担明显，目前已经在做针对自身场景优化的内部简化替代方案。 ## 7. Heroku凋零的本质与Railway的核心使命 Heroku凋零并非产品问题，核心原因是它不属于母公司Salesforce的战略核心，被边缘化后流失资源、人才和注意力，验证了「专注就是力量，分散就是死亡」的规律。 Railway不想做「新Heroku」，核心目标是消除Docker、Kubernetes等环节的部署摩擦，将软件激活成本降到零，让想法五分钟内就能跑在生产环境。目前Railway选择聚焦现有业务，暂不做GPU业务，「被拒绝做的事比选择做的事更能定义你」。 ## 8. 独立创始人的精神与工作节奏 Jake保持清晰的工作节奏：周一到周五日出到日落全力工作，周六完全断开陪伴家人，周日下午做计划整理思路，写作帮他厘清思路同时完成对外传播。 Jake认为两个联合创始人是最坏的配置，意见不一致时没有平局裁判，难以一锤定音，单人决策虽然更难，但逻辑清晰。给创业者的建议：大多数建议消化后就放下，真正有价值的内容会通过你的经验重新回来，不要照单全收，每个人的处境都不相同。

2026-05-29 12:06

Railway CEO谈Agent原生云基础设施：300万用户、每周10万注册、自建数据中心：Railway这朵慢云如何起飞？

每日天使

本文来自微信公众号：每日天使，作者：每日天使，原文标题：《Railway CEO谈Agent原生云基础设施：300万用户、每周10万注册、自建数据中心——Railway这朵慢云如何起飞？》

在AI这个节点上，很多人都在问：谁会是下一代的云基础设施赢家？大家第一反应是AWS、GCP、Azure，或者Cloudflare、Vercel这样的新势力。但还有一匹黑马——Railway，一个六年前就开始做"让部署变简单"的公司，如今悄悄积累了300万用户，每周还在以10万的速度增长。

更特别的是，Railway的创始人Jake Cooper是个"孤独创业者"：没有联合创始人，没有融大钱，却自己悄悄建了裸金属数据中心，用三个月就把数据中心成本回本，并且在AI Agent浪潮到来之前，就已经把基础设施的设计哲学指向了那个方向。

这期Latent Space播客是Jake Cooper少有的深度公开对谈，谈到了Railway的增长内幕、Agent原生云的架构哲学、Death PRs的传播效应、Heroku落寞的本质，还有他个人作为独立创始人的精神生存之道。内容相当硬核，但也相当真诚。

导语

2025年，一个叫Railway的云平台突然被大量开发者在X上刷屏：不是因为融到了大钱，也不是因为上了什么榜单，而是因为他们合并了一个"Death PR"——删掉了一大堆基础设施代码，让平台成本大幅下降，然后公开发文庆祝。这种反常规的骚操作，让很多人第一次认真看了一眼这家公司。

他们看到的是：300万注册用户，每周10万新增，自建裸金属数据中心，一个没有联合创始人的创始人——Jake Cooper——正在悄悄把"部署即时即有"这件事做成现实。

在Latent Space最新一期播客中，Jake第一次深入讲述了Railway的完整故事。

Q&A正文

一、六年"慢公司"是怎么突然起飞的？

Q：Railway现在有多少用户？增长是什么节奏？

Jake Cooper：大概300万注册用户，每周新增10万。但我要诚实地说，这个数字很漂亮，但你也知道注册用户和活跃付费用户是两回事。我们真正关注的是有多少人在真正使用平台部署东西。不过增长势头确实是明显加速了，尤其是最近一段时间。

Q：你们花了多久才到这个规模？

Jake：六年。这不是一夜爆红，是六年的慢磨。在最开始很长一段时间里，我们的增长是线性的，甚至是艰难的。我们一直在打磨产品，相信如果产品足够好，口碑会来。然后确实来了，但来的方式不是我预期的——部分是因为AI coding工具的普及，很多用Cursor、Claude写代码的开发者需要一个地方部署他们的项目，而Railway是那个摩擦力最低的地方。

主持人：所以你们是AI编程工具浪潮的受益者？

Jake：是的，但我不觉得这是运气。我们提前就在做这件事——把激活成本压到极低。如果你今天有一个想法，Railway应该让你在五分钟内就能把它跑在生产环境里。这个目标不是因为AI来了才定的，是我们六年前就定的。

二、为什么要自建裸金属数据中心？

Q：你们自建数据中心这件事很少有创业公司做。为什么？

Jake：最初是因为AWS太贵了。当你的流量到一定规模，你意识到自建会有多大的成本优势。我们做了分析，然后就去买服务器、租机房、自己搭网络了。

Q：数据中心多久回本？

Jake：三个月。大概三个月内，数据中心的成本就已经回来了。这个速度比我们预期的要快得多。现在裸金属已经是我们平台流量的绝大多数了。

主持人：你们在数据中心上写了不少东西，比如自研TCP/IP栈优化，甚至到内核层。

Jake：对。我们有一个信条：不管要挖多深，我们都挖。如果为了给用户提供更好的SSH连接不断线体验，我们需要改内核的TCP实现，那我们就去改。这不是大公司的做法，但这是让我们的基础设施体验真正不同的方式。你不能靠抄大厂的作业赢——你要发明。我们承诺自己不抄别人的架构，从第一性原理出发重新设计，读论文，然后自己实现。

三、"Death PRs"是什么？为什么会出圈？

Q：说说"Death PRs"，这是什么概念？

Jake：这是我们在内部做的一个实践。我们设了一个专门的GitHub仓库，专门用来合并那些"删代码、降成本"的PR。比如我们发现某个基础设施组件可以用更精简的方式重写，节省了大量成本。我们合并它，然后发推庆祝——"我们今天合并了一个Death PR，节省了XX美元每月"。

Q：为什么叫"Death"？

Jake：因为这些PR在"杀死"多余的复杂度和成本。不是说产品功能在死，而是让技术债和低效的架构去死。这件事本身是内部的工程实践，但我们把它公开之后，开发者社区非常喜欢这种透明度和工程精神。它意外成了我们很重要的一个口碑来源。

主持人：这背后的哲学是什么？是"少即是多"？

Jake：是"你真正在用什么"。我们鼓励工程师去问：我们今天跑的这些东西，有多少是真的必要的？如果不必要，删掉。每删掉一块不必要的复杂度，系统就更可靠、更快、维护成本更低。这个文化来自我们自建数据中心时的训练——当你要为每一瓦电力、每一块硬盘付钱，你会更加认真地对待效率。

四、Central Station：如何用小团队撑起大规模

Q：Railway团队规模不大，但用户量很大。你们怎么做到这个杠杆比的？

Jake：我们内部有一个系统叫"Central Station"。它的核心功能是把所有用户反馈——客服、论坛、社交媒体、GitHub Issues——全部聚合起来，自动分类，然后动态分配给内部最相关的工程师。比如，一个关于网络的bug，系统会知道谁是网络这块的核心人，然后把相关的十条反馈都推给他，而不是让他在Slack的海量信息里自己去找。

主持人：你们是开源这个系统了吗？

Q：你们最近的大事故是什么？

Jake：影响了3000多个用户的一次缓存问题。起因是一个上游供应商写了RFC说会有某种行为，但他们自己没有按RFC实现。我们测试了，没发现问题，因为我们的测试覆盖不到他们的错误实现。Central Station第一时间捕捉到了用户反馈的聚集，我们迅速定位并回滚。但这件事提醒我们：任何时候推向300万用户，边缘情况的多样性都会超出你的预期。

五、什么是"Agent原生云"？

Q：你说Railway在做"Agent原生云"，这个词是什么意思？

Jake：我的意思是：AI Agent在工作时，需要的基础设施原语跟普通应用完全不同。Agent需要能随时fork一个生产环境的副本来测试假设，需要能快照某个时刻的完整状态，需要生产环境和测试环境之间没有漂移。

现在的云架构是为"人类工程师手动部署"设计的，不是为"Agent在生产环境里自主迭代"设计的。如果你让一个Agent直接操作你的AWS，而没有安全的fork/snapshot原语，它迟早会删掉你的数据库——不是"如果"，是"什么时候"。

Q：Railway的Canvas功能是这个方向的答案吗？

Jake：Canvas是一个可视化的服务编排界面，你可以在上面看到你所有的服务和它们的连接关系。我们想要Agent能在Canvas里操作：它看到一个服务，fork一个副本，做实验，看结果，然后决定是否合并回生产环境。整个循环在Railway内部完成，而不是AI脚本乱跑。这才是真正的Agent安全操作基础设施的方式。

主持人：你之前是AI怀疑论者？

Jake：是的，2023年我基本不信。2024年我开始说"好吧，也许可以"。然后2025年圣诞前后，那两周是一个分水岭。大家回到工位，发现AI能做的事情一下子超越了某个临界点。现在这个感觉是：你拿错了比拿对了更难。就像Vision拿起雷神之锤，它是自平衡的。我现在是深度信仰者。

六、Temporal的爱恨情仇

Q：你们是Temporal的深度用户，但你卖掉了股票？

Jake：（笑）对。Temporal是一个强大无比的工作流引擎，我从Cadence时代（在Uber）就开始用，快十年了。它能让你把整个用户旅程写成一个顶层函数，而底层的持久化、重试、状态管理全由它负责。这个思想太强大了，对Agent时代也同样重要——Agent需要执行长时间任务，需要暂停、恢复、处理异步事件，这就是Temporal的用武之地。

Q：那问题是什么？

Jake：它像喷气发动机——威力无穷，但你必须完全理解它的状态模型。如果有人在不了解Temporal历史回放机制的情况下，往工作流里塞进了一点不确定性的代码，就会导致非确定性问题，然后整个工作流的状态就乱了。我们在Railway内部跑整个部署流水线都是用Temporal，但我们也因此不得不建立专门的测试体系来验证状态机。它的操作复杂度在规模增长后会变成一个实际的负担。

主持人：如果你不用Temporal，你会怎么做？

Jake：我们可能会自己造一个更简单的版本，专门为我们的场景优化。其实我们已经在做一些内部替代方案了。但Temporal本身的概念是正确的——这一点毫无疑问。

七、Heroku的凋零与Railway的使命

Q：Heroku正式宣布告别，你有什么感受？

Jake：这是我的第一个"真实部署体验"的地方。我也有过在bash里专门写Heroku alias的阶段。但Heroku的凋零并不奇怪——当一个业务不是母公司的核心业务，它必然被边缘化。Salesforce的核心是CRM，不是云计算。再好的产品，如果不是战略核心，资源、注意力、人才都会被挤走。这是Meta早期创始人总结的那个规律：专注就是力量，分散就是死亡。

Q：你们不想做"新Heroku"？

Jake：对，我们不想做新Heroku。新Heroku是一个存量市场的概念。我们想做的是：让软件的激活能量降到零。不管是公民开发者、前端工程师、后端工程师，所有那些Docker、Kubernetes、CI/CD、DevOps层的摩擦，都应该消失。你有想法，Railway让它在五分钟内活着。这才是我们的目标。

主持人：你们会做GPU吗？

Jake：现在不。但永远不会说永远不会。当你完全垂直整合，你最终会需要算力。但现在聚焦。你被拒绝做的事情，定义你比你选择做的事情更多。

八、独立创始人的生存之道

Q：你一个人撑了六年，没有联合创始人——你是怎么做到的？

Jake：我喜欢写作。写作对我是一种厘清思路的方式，也是一种对外传播的方式。我在Twitter上发了很多东西，也因此被骂了很多次，比如我说"如果你周末还在加班，说明你的规划出了问题"，然后又收回了这句话——因为现在这个特殊时期，如果你方向清晰，多一些投入是值得的。

我自己的节奏是：周一到周五，日出到日落全力工作。周六完全断开，陪自己爱的人。周日下午回来，做下周计划，写笔记，理清头绪。然后下周再冲。

Q：两个联合创始人你觉得为什么是最坏的数字？

Jake：没有平局裁判。你们意见不一致，谁说了算？哪怕你说"他是CEO"，在感情和信任上，两个人永远是平等的，所以每次分歧都很难真的一锤定音。三个人至少还有少数服从多数。一个人就是我自己决定。这不是最容易的，但它确实是清晰的。

主持人：对创业者最有价值的一句话？

Jake：大多数建议，消化它，然后扔窗外。如果它真的有价值，它会自己通过你的经验再回来的。别照单全收——每个人的处境都不同。

结语

Jake Cooper和Railway的故事，本质上是一个关于"相信第一性原理"的故事。

在大家都觉得基础设施是成熟市场的时候，他觉得激活成本还远远太高；在大家都烧钱用云服务的时候，他去自己建数据中心；在大家都在讲AI应用层的时候，他说基础设施原语才是Agent时代最关键的东西。

结果六年磨一剑，300万用户不是靠营销来的，是靠一个又一个开发者觉得"这个工具真的很好用"口口相传来的。

视频链接：https://www.youtube.com/watch?v=LzCUYNP5UTI

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定