本文来自微信公众号: APPSO ,作者:发现明日产品的
z通过一晚上的睡眠,AI模型就能监控最多130种疾病。
老年痴呆、高血压性心脏病、中风、前列腺癌、乳腺癌、二型糖尿病等等,它都能预测到。
这听起来就很像多年前,那场硅谷大骗局,一滴血验证几百项生化指标。但睡眠听起来比血液,在不靠谱这方面,有过之无不及。
一般来说,睡眠的监控,顶多就是每天早上醒来,我们可能会习惯性地看一眼连接手表的App,昨晚深睡了几小时?评分是多少?

好一点的手表,可能还有睡眠呼吸频率、HRV等结合不同算法,来呈现更详细的睡眠数据。
但如果现在有人说,这一夜看似平静的睡眠数据里,其实藏着你未来几年的健康命运,你会不会觉得这是天方夜谭,但又充满好奇。
就在最近,斯坦福大学团队在顶级医学期刊《Nature Medicine》上发表了一项重磅研究,他们开发了一个名为SleepFM的AI基础模型,只是通过阅读我们一个晚上的睡眠数据,就能预测未来患130种疾病的风险,甚至包括我们还能活多久。

SleepFM这个睡眠评估模型,目前已经在GitHub上开源。科幻电影里才会上演的体检情节,AI把它照进了现实。
具体是怎么一回事,一起来看看这个模型是怎么训练出来的。
斯坦福的研究团队给AI「喂」了65000多名参与者、总计时长超过585000小时的睡眠记录。这个庞大的数据库让SleepFM学会了人类无法察觉的生理「语言」。

六万多名参与者的信息主要来自斯坦福大学的睡眠诊所,作为主力军,该研究诊所贡献了约35000名参与者。这些数据记录,也并非一时半会收集的,而是从1999年一直覆盖到了2024年,整整跨越了25年。
还有来自商业医疗机构BioSerenity的数据,数据包含了美国240个睡眠中心的近19000份记录,同样时间涵盖了2004年到2019年的长周期数据。
此外还有一些公共数据集,增加模型对不同人群的适应性;以及专门用来评估模型能力的测试集等。
这些长达25年的数据积累,让研究人员有机会做一场时间验证。他们用2020年以前的旧数据训练AI,然后让它预测2020年以后患者的情况。如果数据积累不够久,根本不可能验证「提前6年预警疾病」这种超长周期的预测能力。
有了海量且长周期的数据,这里就得泼一盆冷水了。他们使用的数据,和我们手环上那几个简单的数字根本没法比,他们用的是在睡眠门诊里,常用的分析工具——多导睡眠图(PSG)。

SleepFM框架描述,图A为多导图的设置情况,以及来自不同睡眠中心的数据统计。图B和图C是将不同模态的数据,例如心电图EKG、脑信号BAS、肌电图EMG等信号,通过神经网络编码,转成深度学习模型能训练的特征,并预测最后的结果。图D为临床应用的评估结果。
在这个庞大的实验中,SleepFM学习的是最复杂的生理信号组合,即多导睡眠图中包含的丰富数据,包括记录大脑在想什么的脑电图、记录心率变化的心电图、以及捕捉身体肌肉运动的肌电图、和记录呼吸信息的气流信号等。
普通人不可能天天带着这些线睡觉,这是目前的门槛所在。但另一方面,也正是因为数据如此丰富,SleepFM才能做到普通设备做不到的事。
基于这些跨越时间的数据,斯坦福团队通过回顾性实验,让AI预测患者随后6年的真实电子病历记录。

在斯坦福内部测试集上,针对不同疾病大类(如循环系统、神经系统、肿瘤等)的整体预测表现。横轴列出了循环系统、精神障碍、神经系统甚至肿瘤等十多个大类。图中每一个黑点代表一种具体的病,位置越高,说明AI预测得越准(C-Index和AUROC越高)。可以看到,它在神经系统和循环系统疾病上的表现尤为突出,远超及格线(虚线表示)。
结果令人非常吃惊。仅凭一个晚上的睡眠数据,SleepFM成功预测了130种疾病风险(准确度指标C-Index>0.75),它的准确度远超预期。在斯坦福睡眠中心的内部测试集上,预测结果准确的均在75%以上。
全因死亡率(预测寿命):准确度84%。
痴呆症:准确度85%。这意味着在记忆开始模糊的几年前,大脑在睡眠中发出的电信号就已经变了。
心力衰竭与心肌梗死:准确度分别为80%和81%。
慢性肾病:准确度79%。
其中,评估用的C-Index和AUROC都是用来给AI模型打分的指标,衡量它预测疾病到底准不准。简单来说,数值越接近1,说明模型越厉害;接近0.5则说明模型在瞎猜。
C-Index(Harrell's Concordance Index),中文名是一致性指数,它衡量的是模型对病人风险排序的准确性。
AUROC(Area Under the ROC Curve),中文名:受试者工作特征曲线下面积,论文中是衡量,AI能否准确区分出,哪些人在做完睡眠检查后的6年内会得病,哪些人不会。

模型在外部独立数据集(SHHS)上的测试结果。结果显示,在针对中风(Stroke)、心力衰竭(Congestive HF)、心肌梗死以及心血管疾病死亡等6项关键指标的预测中,AI依然保持了极高的准确率(大部分AUROC>0.8)
从这个角度来看,能证明它确实掌握了「核心医术」,不是对这65000人的电子病历死记硬背。
但是,既然都要去医院贴满电极做PSG,这个AI还有什么用?虽然是一晚上,但是要监控心电图、脑电图、肌电图,这跟我想的「睡一觉」完全不一样。

睡眠研究常用多导图设备(PSG)
斯坦福在论文最后给出的结论提到,首先是SleepFM这个模型,在同类型的多导图预测疾病的模型中,目前是做得最好,预测最准确的一个模型。
另一方面,他们提到这也是一种存量价值。意思是,根据他们的统计,目前全球每年有数百万人因为打呼噜(睡眠呼吸暂停)去做PSG检查。
但是在过去,这堆复杂的数据医生看完PSG的「呼吸指标」后,这份检查就没用了。现在有了SleepFM,同样的一次检查,不需要病人做额外的工作,就能得到一份关于心脏、大脑和寿命的深度风险报告,这是对现有医疗资源的极致利用。
此外,他们也没有给多导图之外的监控数据使用,判死刑。具体来说,SleepFM模型像是一个可穿戴设备的教师,而我们现在的智能手表所采用的分析算法,可以说是一个学生。
即使未来去掉了脑电图,只剩下智能手表能测到的心电和呼吸信号,这个经过大师级训练的AI,依然能利用它学到的通用规律工作。
就像论文作者所展望的,SleepFM能为未来基于可穿戴设备的无创、实时健康监测,铺平道路。
这么看下来,基于多导图的睡眠数据,还是要比那滴血更靠谱一点。论文作者在X发文说,多导图能获取的数据,比消费级的穿戴设备确实要多,但使用更便携的穿戴设备,是他们未来工作的方向。
有网友评论说,
这项研究最终将指向这样一个事实:几乎所有疾病都与代谢有关,而个体的代谢状态最能体现在睡眠中。
在消费级穿戴设备的传感器精度进一步提升,配合这种经过临床大数据训练的AI算法,我们的智能手表,将来或许真就能成为一个全天候的AI医生。
到那个时候,它不仅能记录我们的入睡时间,而且能在身体发出细微求救信号的第一时间,发送一条也许能改变命运的提醒,「检测到早期风险信号,建议及时就医或改善生活习惯。」
在这个未来到来之前,最好的健康建议依然没变:今晚,早点睡吧。
