王小川2026开年首次亮相:带着新模型,深聊AI医疗赛道的“解法”
2026-01-13 19:43

王小川2026开年首次亮相:带着新模型,深聊AI医疗赛道的“解法”

本文来自微信公众号: 腾讯科技 ,编辑:徐青阳,作者:值得关注的


王小川认为2025年是医疗AI爆发的元年。


但2025年全年,百川智能创始人、CEO王小川几乎很少在公众面前出现。在2026年开年,王小川与百川智能模型技术负责人鞠强,一起开了一个小范围的沟通会,并发布了最新的医疗大模型Baichuan-M3。


被问及为什么这么久不说话,而在这个节点和大家沟通,王小川开怀一笑:“当时转型不做通用大模型被骂惨了,现在要和大家重新沟通起来。”


低调背后,2025年的百川智能经历了一场“战略大转型”。


2025年3月,百川智能裁撤了其成立之初就在布局的金融B端业务组,并传出团队规模从500人缩减至不足200人的消息。这种“断臂求生”的举动引发了市场对百川财务状况和商业化路径的质疑。


在2025年4月的周年全员信中,王小川坦诚创业前两年的失误:“战线拉得太长,不够聚焦”。他反思公司过早进入商业化、组织过于复杂,导致在通用模型竞争中消耗过多。


AI医疗是他坚定的方向,但行业内仍存在争议:医疗数据的高度敏感性、严苛的合规性要求以及医院端的付费意愿,能否支撑起一家独角兽公司的估值?


2025年全年,百川智能明确了“为生命建模型”的路径,模型发布几乎全部围绕医疗和推理增强展开。王小川不止一次表示,“医疗模型是大模型皇冠上的明珠。AI医疗的未来不是造工具,而是‘造AI医生’。”


今天的沟通会上,王小川和鞠强也正式详细介绍了最新的Baichuan-M3医疗大模型,在全球最权威的医疗AI评测HealthBench中以65.1分的综合成绩位列榜首。首次在医疗领域实现了对GPT-5.2的全面超越。在OpenAI引以为傲的低幻觉领域,M3也实现了超越,幻觉率3.5全球最低。


在“后DeepSeek时代”,强化学习的技术红利正由代码领域向医疗赛道加速扩散,OpenAI、Anthropic以及蚂蚁阿福等国内外巨头纷纷下场布局。


无法避免地面对竞争问题,王小川说“护城河核心肯定在于模型能力的绝对领先,在医疗这一严肃领域,只有领先一代的技术水平才能建立行业信任。”


与倾向于“泛健康”概念或院内信息化老路的路径不同,百川选择切入高价值的非共识场景,将主战场定位于“院外”,通过AI弥补医患信息差并推动决策权的合理让渡。


关于行业对于医疗模型最难逾越的数据难题,王小川提出了一个反常识的暴论,“单纯有数据没用,关键是怎么用。大家总把数据当回事儿,但是这是错的。核心不是找数据来“喂”模型,而是找顶尖的医生来帮我们建立一个‘评价体系’。”


最早与百川智能一起被称为“AI六小虎”的大模型企业,有两家已经成功IPO。因为转型被骂惨了的王小川也很乐观:“他们确实踩在通用模型技术红利和政策支持上,AI医疗虽然成熟会晚一点,但我们后面的路径,肯定也是奔着上市去的。”


以下为对话实录:


01 AI医疗的主战场在“院外”


Q:你们是怎么看待AI给医疗行业带来的变革的?核心要解决的是什么问题?


A:我们认为,AI的到来,特别是大模型技术,对医疗来说是一场巨大的变革。我们现在面临四个核心的痛点:


第一,好医生不够。以前的互联网医疗,像好大夫、春雨,本质上是做“连接”,像滴滴、美团一样。但医疗这个行业,供给是不足的,光靠连接解决不了根本问题。


第二,是医患关系不平等。医疗是一个很特别的行业,患者是受益方,但决策方却是医生。你可能排队三小时,医生跟你讲几分钟,听得模模糊糊,方案也搞不懂,最后让你自己选。


我们认为AI可以在医患之间扮演一个填补“gap”的角色。不是说让医生下岗,手术、检查还得他们做,但我们希望AI能帮助患者“明明白白地去看医生”,把决策权慢慢还给患者。


第三,咱们国家没有全科家庭医生,大家有病就往三甲医院跑,导致大医院不堪重负。有了AI,普通人有了小毛病可能自己就先问AI了,这就可能把医疗的阵地从医院延伸到“居家”,真正把基层的医疗能力“强”起来。


第四,现在生命科学(Life Science)发展很快,AI能帮助我们更好地建立人体模型,比如虚拟细胞、数字人。通过AI长期陪伴收集的真实数据,我们能做的就不仅仅是“入院即入组”的临床科研,而是“看病即入组”,这对促进医学发展有巨大潜力。


Q2:你们提到要把决策权还给患者,这是要取代医生吗?


A:不是要取代医生,而是要重新定义医患关系。我们认为,决策权和诊疗权是两件事。医生的诊疗权,比如开刀、做检查,是无可替代的。但决策权,现在更多是在医生手里,未来应该逐步让渡给患者。


我们希望AI能把复杂的医学信息解释清楚,让患者有足够的信息去做出最适合自己的选择。比如医生给了两个方案,一个保守一个激进,你选哪个?AI可以帮你分析清楚利弊,让你自己做主。


我们跟一些医生聊,他们其实也挺恐慌的。但我们认为,这其实是解决了一个社会上巨大的权力让渡问题,这个趋势是必然的。


Q3:为什么你们认为AI医疗的主战场在“院外”而不是“院内”?


A:我们认为,未来巨大的增量或者说服务对象,是在院外,不在院内。院内以后会更聚焦在执行层面,比如做手术、输液。而大量的专业过程,比如诊断、咨询、决策,会发生在院外。


以前大家做信息化,都是围绕医院、医生转,帮医生写病历、做质控。我们觉得这都不是“第一性”的方向,有点“隔山打牛”。但是最终你得帮到患者。


美国的OpenEvidence有45%的医生在用,ChatGPT马上也要接健康档案,都是直接让AI产生作用。我们跑了一年多,越来越觉得,如果还按老路子在院内做,又能怎么样呢?


所以我们强调,AI要直接产生作用,而且主战场在院外。这跟张文宏院士担心的那种“AI进病历系统”不是一个路子。我们认为,医疗最终是为患者服务的,出发点应该是这个。


直接服务于个人,效率是最高的。


Q:你们最新的M3模型,相比之前有哪些关键的技术进步?


A:M3相比M2,我们觉得主要有三个点的进步:


强化学习系统从“半动态”升级到“全动态”:M2的时候,我们的虚拟患者是动态的,但那个评价AI表现的“医生模型”是固定的。这就导致M2模型训到后期,能力上不去了,因为“考官”的水平不够了。到了M3,我们把“考官”也做成了动态的。你的模型变强了,教你的这个“挑错的医生”也会变得更强,能从更难、更细的维度指出你的不足。这样,模型的能力就能持续往上走。


真正严肃地对待“幻觉”问题:很多公司发模型只说自己能力多强,但从不公布幻觉问题。我们做医疗的,把降低幻觉当成持续关注的方向。M3我们研发了一个叫“Fact Aware”的强化学习算法,能在不依赖外部工具的情况下,从模型训练的根儿上就去抑制幻觉,而且还没把推理能力搞下去。


获得了端到端“原生”的问诊能力:我们认为问诊是医疗模型的一种原生能力,不是靠一个prompt让它“扮演”医生就能行的。市面上很多AI医生,你跟它聊,感觉它只是在“表演”,没有医生那种思维。我们贡献了新的算法(SPAI),让模型能在长对话的环境里做强化学习,最终让模型获得了很强的、符合医学范式的原生问诊能力。


Q:你们能详细解释一下M2的“半动态”和M3的“全动态”有什么区别吗?


A:你可以把我们训练模型的过程想象成一个“虚拟临床世界”。在这个世界里,有两方:一方是“虚拟患者”,另一方是检验AI模型表现的“医生思维模型”。



在M2的训练中,左侧的“虚拟患者”是完全动态的,它会基于真实世界的病例和文献,来模拟各种各样的病人,和AI模型进行对抗。但右侧的那个“医生思维模型”,也就是“考官”,是我们训练好的一个固定模型,它挑错的能力是固定的。


这就带来一个问题:当我们的AI模型(M2)越来越强,把这个固定“考官”能出的所有难题都学会了之后,它的能力增长曲线就变平了,因为“考官”的水平已经限制了它的发展。


所以到了M3,我们最重要的升级就是把右侧的“考官”也变成了动态的。也就是说,当你的AI模型能力变强了,教你的这个“考官”也会跟着变强,它会从更困难、更细粒度的医学思维原则上去指出你的不足。这样一来,M3就能在强化学习的过程中持续变强。这就是从“半动态反馈”到“全动态反馈”的演进。


Q:什么是“满血问诊”?听起来很厉害,它和别的AI医生到底有什么不一样?


A:“满血问诊”是我们提的一个概念,它和市面上那种“角色扮演”的AI医生完全是两码事。一个真正的、会问诊的AI,它得有临床医生的思维。我们把它总结成一个“SCAN”框架:


•S(Safety)-安全分层:一上来先考虑最危险的情况是什么,问问题先排除掉。


•C(Clarification)-病情澄清:要把病人模糊的描述,比如“肚子疼”,问成具体的、可量化的临床证据,比如“疼了多久?”“哪个位置?”“多大的痘?”


•A(Association)-关联追问:一个发烧,不能光想着是不是感冒,一个真正的好医生会关联到神经系统、关节系统等其他问题,进行跨系统的追问。


•N(Negative)-阴性症状挖掘:主动问你“有没有”某个症状,确认“没有”本身也是重要的诊断信息。


市面上很多AI医生,因为它问得不够充分,最后只能给你一个很模糊的建议,比如“你尽快去看医生”。而“满血问诊”就是要通过深度追问,收集足够的信息,给你一个真正靠谱的、可行的建议。


Q:医疗AI里,到底是语言模型重要,还是影像这种多模态更重要?


A:我从第一天起就不认同多模态是主战场的说法。我们坚定地认为,语言是智力的中轴。你看GPT出来,大家最震撼的是它掌握了“智力”,而智力的核心就是符号、逻辑和推理。医疗的核心是“决策问题”,不是看图说话。


影像识别这些,我们叫“感知模型”,它们很重要,但只是“树上的叶子”,不是主干。影像模型输出结果后,最终还是要变成符号化的语言,进入到我们称之为“认知模型”的语言模型里,去做最终的推理和决策。所以,我们虽然也在做影像模型,而且也做到了SOTA的水平,但我们始终认为,这相对于M3这样的认知模型来说,只是一个更小的课题。


02商业化考虑暂时不是第一优先级


Q:你们的产品“百小应”具体是怎么体现你们的理念的?


A:“百小应”这个产品,你下载进去后,会先让你选角色:你是“医生”还是“患者”。虽然是同一个M3模型在背后支持,但给你的体验是完全不一样的。


如果你是医生:它给你的东西会非常专业,像一篇医学论文,有标准化的描述、诊断建议,还会引导你搜文献。我们特别强调“循证”,每一句话的引用都保证是真实存在的,不会有幻觉。


如果你是患者:它会把专业的医学语言翻译成你能懂的大白话,帮你把各种方案的利弊分析清楚,让你自己能做决策。更重要的是,它会主动、深度地追问你,帮你把自己的情况理清楚。


我们的目标就是,医生用着觉得专业、靠谱,患者用着觉得易懂、能做主。这个产品形态和定位,在全球我们觉得都是独一无二的。


Q:你们打算怎么赚钱?最终的买单方是谁?


A:我们认为,只要你真能帮患者创造价值,商业模式不是最需要担心的事。我们计划今年上半年就开始入场,但第一天不会收费。


未来的可能性很多。我们既可以直接向C端患者收费,比如对一些高价值的决策辅助功能;也可能跟药企、器械厂商合作,把我们的服务和他们的产品打包成一个解决方案,让患者买单,或者让药械企业买单。


在中国,最大的支付方是医保,但我们认为,未来的趋势是让C端的受益方(患者)成为决策方,也成为买单方,实现战略统一。


我们想把患者吸引过来,解决他们的问题,至于这个方案由谁来买单,可以是患者自己,也可以是生态里的其他伙伴。


Q:你们的产品会侧重哪些病种和科室吗?


A:我们的理念是在做全覆盖,但目前的重点会放在儿科、慢病和肿瘤这几个领域。


Q:现在做AI医疗的公司也挺多的,比如阿福,百川的护城河是什么?


A:我们的护城河有三个:


模型技术得足够好。医疗这个领域,用户一定会选技术最牛的那个。我们会持续保证模型能力的领先。


切入点不一样。我们更愿意切一些严肃、高价值、但非共识的场景。大厂做事通常要从共识的地方切,而“大创新靠小厂”,我们作为创业公司,敢于在认准的变革性方向上深耕。


产品形态独一无二。我们即将发布的产品,在形态上会和大家现在看到的不一样,更能体现我们对医疗痛点的理解。


Q12:如何获取用户的心智和信任?


A:这需要三件事同时发生。第一,需要有一定的宣传和广告投入,让大家知道你。第二,需要得到医生的认可。我们希望我们的产品,医生会愿意推荐给他的病人用,因为他觉得这个东西真的能对病人有帮助。这是“专家点头”。第三,也是最重要的,产品自己要能打,能靠口碑效应说话。当用户发现,这个AI真的能查出一些之前被误诊多年的问题,或者医生没发现的问题,这种信任就建立起来了。


Q13:怎么看中美在发展AI医疗上的优劣势?


A:跟美国比,中国的优势在于,我们优质医生更稀缺。你待在北京没感觉,但在广大的基层和农村,医生水平是严重不足的,有的村医诊断准确率只有26%。


这个巨大的空白地带,恰恰是AI可以大有作为的空间。


Q:你们有上市的计划吗?怎么评价公司现在的状态?


A:我们有上市计划,也许会定在2027年。我们认为AI医疗是AI皇冠上的明珠,对国计民生的意义重大。但它需要更长的成熟时间。


我们希望用这一两年的时间,把商业模型打磨得更优,希望走得更稳健一些。


回顾去年,我们最重要的事就是专注医疗,把技术基础夯实了,发布了M2和M2 Plus模型。今年的核心就是把模型迭代出的能力落地到产品上,一个是帮助患者做决策的能力,另一个是居家陪伴的健康看护能力。我们认为,代码之外,医疗是AI最重要的应用场景。


03医疗大模型的数据和合规难题


Q:训练医疗大模型,是不是得有海量的医院内部数据才行?


A:这是行业里一个巨大的误区。我们认为,单纯有数据没用,关键是怎么用。市面上号称有500个医疗垂直大模型,很多都是拿了一堆数据去训,但根本不知道什么叫模型。大家总把数据当回事,但这个认知可能是错的。


Q:你们怎么训练模型?


A:我们的核心不是找数据来“喂”模型,而是找顶尖的医生来帮我们建立一个“评价体系”。我们投入了巨大的资源,请了很多医生,来帮我们定义“什么是好的问诊”。他们生产的不是标注数据,而是一个能评价AI模型好坏的系统。


你可以理解为,我们先用AI和专家知识,造了一个非常牛的“考官”,然后再让这个“考官”去训练我们的“考生”(M3模型)。这个范式跟别人是不一样的。所以,核心是算法,是“懂这事儿”,并且真的在做这事儿。


Q:那像“阿福”那样,有很多用户反馈数据,会能让模型变得更好吗?


A:用户反馈当然有价值,但要看用在什么层面。它能帮你优化产品体验,比如哪个按钮不好用。但它并不能直接推动核心模型算法的进化。


你看现在Anthropic、Gemini发展也很快,他们也没有像ChatGPT那么大的C端用户量。所以,这事儿本质上还是技术驱动的。有用户量,最大的红利是做生态,比如转化保险、甚至线下洗牙店等,而不是技术本身。


Q:你们会考虑做硬件或终端来获取更多数据吗?


A:目前不会。我们认为核心还是在模型和算法上,而不是通过硬件去采集数据。单靠聊天,通过我们强大的问诊能力,就已经能获取足够支撑决策的信息了。


Q:AI医疗怎么规避法律法规的“红线”?比如误诊责任怎么算?


A:我们非常清楚红线在哪里。今天的法规很明确,下诊断、开处方必须是医生。所以我们不会去碰这条红线。我们的产品定位是辅助决策,不是替你决策。我们是在红线内,去做现在没人做的、但价值巨大的事,比如填补医患沟通的空白、帮你分析不同方案的利弊。


我们认为,AI医疗的发展会像自动驾驶一样,可能有L2、L3、L4这样的阶段。但我们目前的思考,并不是要去取代医生。医生在院内的很多工作,比如手术、查体,是AI做不了的。


我们要做的是填补空白,而不是去越线。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定