老牌语音AI公司思必驰提交IPO,但大模型让语音成为基础能力,传统语音AI公司价值存疑,本文分析其生存困境与行业变化。 ## 1 思必驰IPO在即,但增长慢盈利难 思必驰5月25日向科创板递交IPO申请,2023-2025年营收从5.39亿元增至6.88亿元,两年复合增长率仅12.98%,增长偏缓。 其三大业务中车载是基本盘(2025年占总营收40.08%,市占率22%),智慧办公增长最快,智慧物联有所收缩;毛利率从53.69%升至63.24%,但过去三年累计亏损3.74亿元,核心因业务多为项目制,难以标准化复制,额外成本高。 ## 2 传统语音赛道原有壁垒清晰 过去二十年语音AI是典型技术壁垒赛道,采用模块化流水线架构,识别准确率、复杂场景适配都需要长期工程积累,思必驰等传统语音厂商都吃到了产业红利。 ## 3 大模型颠覆语音行业底层逻辑 大模型凭借数百万小时级训练数据(远超传统语音厂商数千到数万小时的积累),语音能力已快速追赶甚至超越传统厂商:OpenAI Whisper Large-v3在真实复杂场景的识别稳定性优于思必驰方案(思必驰车载噪音场景WER为12.3%)。 传统语音的模块化架构被大模型整合,语音正在从独立产品变成巨头提供的基础能力,美股传统语音服务商股价已大幅下跌,SoundHound AI、Cerence跌幅分别达61.39%、56.84%。 ## 4 产业趋势倒逼传统语音厂商重构价值 目前已有巨头直接向车企、终端厂商提供内置语音能力,比如OpenAI合作梅赛德斯-奔驰、豆包接入特斯拉中国车载系统,思必驰等传统语音AI公司亟需找到自身新的不可替代价值。
思必驰要上市了,但AI语音的护城河没了
2026-05-29 21:56

思必驰要上市了,但AI语音的护城河没了

本文来自微信公众号: 硅基观察Pro ,作者:硅基君


5月25日,思必驰向科创板递交IPO申请。


作为国内最早一批AI公司,思必驰已经走过近二十年。但从业绩来看,这家老牌AI公司的增长并不算快。2023年至2025年,公司营收分别为5.39亿元、6.01亿元和6.88亿元,两年复合增长率仅12.98%。


某种程度上说,思必驰正处在一个有些尴尬的时间点。


过去十几年,语音技术一直是人工智能领域最典型的技术壁垒型赛道。Cerence、SoundHound、思必驰等公司,都受益于这一轮产业红利。


但大模型出现之后,行业的底层逻辑正在被改写。OpenAI、谷歌、阿里、字节等巨头,正在把语音能力变成一种基础能力。


于是一个问题摆在了所有传统语音公司面前:当语音成为大模型的标配之后,它们还剩下什么价值?


今天,我们就来聊聊思必驰,以及传统语音AI公司的未来。


/01/


毛利率虽高,但仍然很难赚钱


从收入结构看,思必驰主要有三块业务:车载业务、智慧办公和智慧物联。


其中,车载业务是公司的基本盘。2025年,该业务收入达到2.76亿元,占总营收的40.08%。


所谓车载业务,本质上是为汽车厂商提供语音交互解决方案。目前,思必驰已经进入比亚迪、奔驰、大众等多家车企供应链,车载语音装机量市占率达到22%。


第二块业务是智慧办公,包括语音转写、会议记录、自由对话等软件服务,以及智能吸顶麦、AI办公本等硬件产品。2023年至2025年,该业务收入从1.8亿元增长至2.43亿元,是近几年增长最快的板块之一。


相比之下,智慧物联业务则有所收缩。2023年至2025年,该业务收入从1.97亿元下降至1.69亿元,占总营收比例也从36.63%下降至24.51%。


从盈利能力看,思必驰的毛利率并不低。


随着软件收入占比提升,公司毛利率从2023年的53.69%提升至2025年的63.24%。


但高毛利并没有转化成利润。


过去三年,公司分别亏损1.36亿元、1.58亿元和0.8亿元。同期,期间费用率高达76.3%、79.5%和68.7%。


而这背后,与国内软件服务行业长期面临的商业化困境有关。


思必驰的大部分业务仍然带有较强的项目制属性。无论是车载语音、智慧办公还是物联网方案,每新增一个客户,往往都伴随着额外的研发、适配、测试、部署和维护成本。


尤其是在车载场景,不同车企、不同车型甚至不同操作系统之间都存在明显差异,很难像标准化软件一样实现大规模复制。


不过这并不是思必驰最大的问题。真正的问题在于,当通用模型的多模态能力足够强,语音供应商的价值又在哪里?


/02/


大模型,正在吃掉AI语音公司


从去年以来,美股软件股开始暴跌。


其中,受到冲击最大的板块之一,就是传统语音服务商。


2025年以来,SoundHound AI从年内高点22.17美元回落至约8.56美元,跌幅为61.39%;Cerence从27.5美元高点跌至11.87美元,跌幅约56.84%;声网从6.99美元高点回落至4.25美元,跌幅接近39.20%。


股价下跌背后,一个越来越明显的共识正在形成:语音技术本身,正在失去独立价值。


过去二十年,语音行业一直建立在一条相对清晰的产业链上。


传统语音AI的标准链路是典型的模块化流水线:ASR(语音转文字)、NLU(意图识别)、Dialog Manager(对话管理)、TTS(语音合成),以及不同的场景需求。


过去很多语音AI公司有价值,是因为每一层都很难。比如,识别口音、抗噪声、低延迟、唤醒词、车内声场、电话线路压缩音质、多人打断、语音合成自然度,这些都需要长期工程积累。


思必驰、云知声、SoundHound、Cerence,都是这一时代的受益者。


但大模型出现之后,这套逻辑开始发生变化。一方面,模型智能提升,带来了更强的多模态能力。另一方面,大模型也把这些原本分散的模块重新整合成了一个统一系统。


从目前来看,大模型的语音能力正在快速追赶甚至超越传统语音厂商。


过去,语音行业最核心的指标是WER(词错误率),即每100个词里识别错多少个词。WER越低,意味着识别准确率越高。


传统语音系统在理想环境下通常可以将WER控制在5%以内,但一旦进入车载噪音、电话线路、多人对话等复杂场景,错误率往往会明显上升。


比如,2025年思必驰方案在新闻播报等相对干净场景下,WER约为4.8%;而在车载噪音环境下,则上升至12.3%。


相比之下,OpenAI开源的Whisper Large-v3不仅在标准测试集上实现了更低的错误率,在会议、电话、多人讨论等真实场景中,也表现出较强的稳定性。


背后的原因并不复杂。


传统语音公司长期依赖高质量标注数据。这类数据虽然精准,但获取成本高、规模有限,很多企业积累十几年的行业语料,总规模也不过数千到数万小时。


而大模型可以利用公开视频、播客、电话录音、会议记录、字幕数据以及用户反馈进行训练。以Whisper为例,其训练数据规模达到约68万小时,远远超过传统语音系统。


更大的数据规模,不仅让模型接触到了更多真实世界的复杂场景,也让其具备了更强的上下文理解能力。


过去的语音系统更像是在识别关键词,而大模型能够结合前后语境理解用户真正想表达的内容。即便出现停顿、口误或表达不完整,也能通过上下文完成纠错和补全。


换句话说,传统语音模型是在实验室里成长起来的,而大模型是在真实世界里成长起来的。


这种变化正在快速传导到产业层面,并带来了一个问题:


如果OpenAI、Google、Amazon、字节跳动和阿里都能够提供低延迟、高准确率的语音交互能力,那么客户自然会问:为什么还需要单独采购一家语音供应商?


某种程度上说,语音能力本身就越来越像一种基础设施,而不是独立产品。


这样的趋势已经开始出现。


2023年OpenAI就与梅赛德斯-奔驰达成合作,将ChatGPT接入其MBUX车载语音系统。谷歌也开始用Gemini全面替代原有Google助手,并逐步将其内置到Android手机、Google TV、智能手表等终端中。


国内同样如此。豆包进入特斯拉中国区车载系统,通义千问则逐步接管天猫精灵背后的语音能力,并向智能家居终端延伸。


这些变化也给思必驰带来了一个更严峻的问题:


当语音逐渐从独立产品变成基础能力,那传统语音AI公司还剩下什么价值?

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定