斯坦福大学开发AI模型SleepFM，通过分析一晚多导睡眠图数据，可预测130种疾病风险和寿命，准确率超75%，未来或推动可穿戴设备健康监测革命。 ## 1. 突破性AI模型与预测能力 - SleepFM基于65000人、585000小时的多导睡眠图数据训练，可预测未来6年内130种疾病风险，全因死亡率预测准确率达84%。 - 在神经系统和循环系统疾病（如痴呆85%、心梗81%）中表现尤为突出，远超0.5的随机猜测基准线（C-Index>0.75）。 ## 2. 数据来源与技术门槛 - 数据来自斯坦福睡眠诊所（1999-2024）和BioSerenity机构（2004-2019），包含脑电、心电、肌电等多模态生理信号。 - 当前依赖专业多导睡眠图（PSG），需贴电极监测，但团队计划向可穿戴设备（如智能手表）简化应用。 ## 3. 临床价值与资源再利用 - 全球每年数百万人因睡眠呼吸暂停接受PSG检查，SleepFM可将其数据转化为心脏、大脑及寿命风险评估报告，无需额外检测。 - 模型已开源，未来或通过算法迁移使消费级设备实现类似功能，推动无创实时健康监测。 ## 4. 未来展望与局限性 - 研究证实代谢状态在睡眠中显化，穿戴设备精度提升后或能早期预警疾病（如发送风险提示）。 - 当前技术门槛高（需PSG），但作者强调其作为"教师模型"可指导简化设备开发，逐步接近科幻场景。

2026-04-06 20:56

斯坦福最新研究：睡一觉，AI 就知道你还能活多久

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的

z通过一晚上的睡眠，AI模型就能监控最多130种疾病。

老年痴呆、高血压性心脏病、中风、前列腺癌、乳腺癌、二型糖尿病等等，它都能预测到。

这听起来就很像多年前，那场硅谷大骗局，一滴血验证几百项生化指标。但睡眠听起来比血液，在不靠谱这方面，有过之无不及。

一般来说，睡眠的监控，顶多就是每天早上醒来，我们可能会习惯性地看一眼连接手表的App，昨晚深睡了几小时？评分是多少？

好一点的手表，可能还有睡眠呼吸频率、HRV等结合不同算法，来呈现更详细的睡眠数据。

但如果现在有人说，这一夜看似平静的睡眠数据里，其实藏着你未来几年的健康命运，你会不会觉得这是天方夜谭，但又充满好奇。

就在最近，斯坦福大学团队在顶级医学期刊《Nature Medicine》上发表了一项重磅研究，他们开发了一个名为SleepFM的AI基础模型，只是通过阅读我们一个晚上的睡眠数据，就能预测未来患130种疾病的风险，甚至包括我们还能活多久。

SleepFM这个睡眠评估模型，目前已经在GitHub上开源。科幻电影里才会上演的体检情节，AI把它照进了现实。

具体是怎么一回事，一起来看看这个模型是怎么训练出来的。

斯坦福的研究团队给AI「喂」了65000多名参与者、总计时长超过585000小时的睡眠记录。这个庞大的数据库让SleepFM学会了人类无法察觉的生理「语言」。

六万多名参与者的信息主要来自斯坦福大学的睡眠诊所，作为主力军，该研究诊所贡献了约35000名参与者。这些数据记录，也并非一时半会收集的，而是从1999年一直覆盖到了2024年，整整跨越了25年。

还有来自商业医疗机构BioSerenity的数据，数据包含了美国240个睡眠中心的近19000份记录，同样时间涵盖了2004年到2019年的长周期数据。

此外还有一些公共数据集，增加模型对不同人群的适应性；以及专门用来评估模型能力的测试集等。

这些长达25年的数据积累，让研究人员有机会做一场时间验证。他们用2020年以前的旧数据训练AI，然后让它预测2020年以后患者的情况。如果数据积累不够久，根本不可能验证「提前6年预警疾病」这种超长周期的预测能力。

有了海量且长周期的数据，这里就得泼一盆冷水了。他们使用的数据，和我们手环上那几个简单的数字根本没法比，他们用的是在睡眠门诊里，常用的分析工具——多导睡眠图（PSG）。

SleepFM框架描述，图A为多导图的设置情况，以及来自不同睡眠中心的数据统计。图B和图C是将不同模态的数据，例如心电图EKG、脑信号BAS、肌电图EMG等信号，通过神经网络编码，转成深度学习模型能训练的特征，并预测最后的结果。图D为临床应用的评估结果。

在这个庞大的实验中，SleepFM学习的是最复杂的生理信号组合，即多导睡眠图中包含的丰富数据，包括记录大脑在想什么的脑电图、记录心率变化的心电图、以及捕捉身体肌肉运动的肌电图、和记录呼吸信息的气流信号等。

普通人不可能天天带着这些线睡觉，这是目前的门槛所在。但另一方面，也正是因为数据如此丰富，SleepFM才能做到普通设备做不到的事。

基于这些跨越时间的数据，斯坦福团队通过回顾性实验，让AI预测患者随后6年的真实电子病历记录。

在斯坦福内部测试集上，针对不同疾病大类（如循环系统、神经系统、肿瘤等）的整体预测表现。横轴列出了循环系统、精神障碍、神经系统甚至肿瘤等十多个大类。图中每一个黑点代表一种具体的病，位置越高，说明AI预测得越准（C-Index和AUROC越高）。可以看到，它在神经系统和循环系统疾病上的表现尤为突出，远超及格线（虚线表示）。

结果令人非常吃惊。仅凭一个晚上的睡眠数据，SleepFM成功预测了130种疾病风险（准确度指标C-Index>0.75），它的准确度远超预期。在斯坦福睡眠中心的内部测试集上，预测结果准确的均在75%以上。

全因死亡率（预测寿命）：准确度84%。

痴呆症：准确度85%。这意味着在记忆开始模糊的几年前，大脑在睡眠中发出的电信号就已经变了。

心力衰竭与心肌梗死：准确度分别为80%和81%。

慢性肾病：准确度79%。

其中，评估用的C-Index和AUROC都是用来给AI模型打分的指标，衡量它预测疾病到底准不准。简单来说，数值越接近1，说明模型越厉害；接近0.5则说明模型在瞎猜。

C-Index(Harrell's Concordance Index)，中文名是一致性指数，它衡量的是模型对病人风险排序的准确性。

AUROC(Area Under the ROC Curve），中文名：受试者工作特征曲线下面积，论文中是衡量，AI能否准确区分出，哪些人在做完睡眠检查后的6年内会得病，哪些人不会。

模型在外部独立数据集（SHHS）上的测试结果。结果显示，在针对中风（Stroke）、心力衰竭（Congestive HF）、心肌梗死以及心血管疾病死亡等6项关键指标的预测中，AI依然保持了极高的准确率（大部分AUROC>0.8）

从这个角度来看，能证明它确实掌握了「核心医术」，不是对这65000人的电子病历死记硬背。

但是，既然都要去医院贴满电极做PSG，这个AI还有什么用？虽然是一晚上，但是要监控心电图、脑电图、肌电图，这跟我想的「睡一觉」完全不一样。

睡眠研究常用多导图设备（PSG）

斯坦福在论文最后给出的结论提到，首先是SleepFM这个模型，在同类型的多导图预测疾病的模型中，目前是做得最好，预测最准确的一个模型。

另一方面，他们提到这也是一种存量价值。意思是，根据他们的统计，目前全球每年有数百万人因为打呼噜（睡眠呼吸暂停）去做PSG检查。

但是在过去，这堆复杂的数据医生看完PSG的「呼吸指标」后，这份检查就没用了。现在有了SleepFM，同样的一次检查，不需要病人做额外的工作，就能得到一份关于心脏、大脑和寿命的深度风险报告，这是对现有医疗资源的极致利用。

此外，他们也没有给多导图之外的监控数据使用，判死刑。具体来说，SleepFM模型像是一个可穿戴设备的教师，而我们现在的智能手表所采用的分析算法，可以说是一个学生。

即使未来去掉了脑电图，只剩下智能手表能测到的心电和呼吸信号，这个经过大师级训练的AI，依然能利用它学到的通用规律工作。

就像论文作者所展望的，SleepFM能为未来基于可穿戴设备的无创、实时健康监测，铺平道路。

这么看下来，基于多导图的睡眠数据，还是要比那滴血更靠谱一点。论文作者在X发文说，多导图能获取的数据，比消费级的穿戴设备确实要多，但使用更便携的穿戴设备，是他们未来工作的方向。

有网友评论说，

这项研究最终将指向这样一个事实：几乎所有疾病都与代谢有关，而个体的代谢状态最能体现在睡眠中。

在消费级穿戴设备的传感器精度进一步提升，配合这种经过临床大数据训练的AI算法，我们的智能手表，将来或许真就能成为一个全天候的AI医生。

到那个时候，它不仅能记录我们的入睡时间，而且能在身体发出细微求救信号的第一时间，发送一条也许能改变命运的提醒，「检测到早期风险信号，建议及时就医或改善生活习惯。」

在这个未来到来之前，最好的健康建议依然没变：今晚，早点睡吧。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定