国内的AI大模型，为什么应该做系统型超级应用？-虎嗅网

在差不多10个月前写的《开源大模型LLaMA 2会扮演类似Android的角色么？》和《AI个体户的崛起：普通人“屁胡”的机会、模式和风险》等文章里提出过AI产品落地的的三段论：大模型、系统型超级应用、长尾工具。

事隔10个月回头再看，AI发展的走势基本与此相同。其中大模型、长尾工具大家谈论比较多，这次还是专注于系统型超级应用。

核心原因是从各种新闻来看国外在这方面已经开始高歌猛进，像一个局点一样，但国内则相对安静，似乎被错过了。可这里才是AI应用的重镇。拿移动互联网作类比，安卓是重要也更基础，但其实可能没有微信重要。

什么是系统型超级应用呢？

系统型超级应用这类产品太复杂，实在不好理解，单纯类比操作系统也还是不行，所以这次换个路数，我们拿一个最近受众比较多的App“豆包”以及背后的大模型来做类比，在产品形态、业务模式等各方面说明下这类产品。

豆包APP自身可以看成系统型超级应用的面向C端的部分，但系统型超级应用不是豆包APP。

系统是指操作系统，超级应用是指功能没边界。

前者对各种硬件设备进行抽象，靠驱动程序接入各种硬件。

后者对应用进行开放，在它之上可以开发Office，PS等各种应用。

两边是被隔离的，做应用的时候不需要关注硬件差异，可以无差别地使用硬件的功能或者计算机的计算能力。

系统型超级应用首先具备这种系统特征。

那什么是超级应用呢？微信如果没有小程序、支付等一系列子功能而是只局限于IM，单是人多那不能被称之为超级应用。超级应用一个特征固然是用户庞大，更关键的是通过二次开放应用商店，在功能上没有边界。

拿豆包这一簇产品做下类比，首先豆包大模型把各种算法完整进行封装，比如识别、语音合成、大模型等，提供了一种AI的通用计算和算法调度能力，这是通用能力部分。其次你会发现它现在至少在一边开放了技能商店（火山方舟/扣子）。APP的具体功能由技能来定义。

这个地儿不适合用“APP”这个词形容可自定义的功能，确实用技能更合适。就好比一个机器人它上一秒钟还不会开直升飞机，但装载新技能后下一秒就可以了。对机器人而言这是一种技能。

另一边如果参照操作系统其实是要投射到不同硬件上，这点豆包这一簇产品现在好像就覆盖了手机和电脑，但这种基于自然语言的应用对端上硬件的资源要求是非常低的，甚至可以放到只有1M内存的设备上。这靠开放平台来覆盖会更适合，下面会说。（其实这里还得区分特征是属于应用的运行时还是属于纯粹的云服务，小程序是微信的运行时技能，但有点复杂不展开了。）

我们总结下这种系统型超级应用的构成，基本上是三位一体：

这里面容易被低估的可能是类似火山方舟这个位置的产品（CUDA大概是在这个位置），早期这个位置的产品绝对赔钱，很多时候还得靠降价来反哺它（看发布会豆包大模型把价格订到：0.0008元/千Tokens，这确实是敢下狠手，比我在用的便宜很多很多。干的就是上面说的事）。但其实这里是通路也是标准，培养粘性和链接的地方。看报道，火山方舟在持续升级从模型训练、推理、评测到精调的全方位服务，还有插件以及工具链。打点其实是对的。

基于这个可以预测接下来OpenAI的行为，它大概率会补自己直接的C端应用（不是简单套壳）。从GPT-4o的发布来看，OpenAI内部似乎已经统一了认识：往应用方向整。这样磕下去，科技巨头里面估计会多一个，并且大概率会和Google直接碰撞，除非再有首席科学家起义。

系统型超级应用的打法

我为什么看着好像还算了解这类产品呢？

因为我一度曾经带团队设计了完整的这种超级应用以及其打法，那产品和现在的豆包至少有60%的相似度......（但实在干不动。别的都好说，这类产品太费钱了，再加上上代技术也没那么成熟，最终搞不动了。）

这类系统型超级应用几乎必然是To B和To C两线同时着手。特别不单点极致，一般人可别整，十死无生。

没有C端的标杆，没人相信你能干好，对于这种基于新技术的新品类也没人知道你在说啥。所以就需要一个豆包这样的C端应用做Pilot。看报道提到豆包APP月活2600万，豆包大模型日均处理1200亿Tokens文本，生成3000万张图片。这是很可怕的数字，智能音箱峰值的时候，每年出货也就只有近4000万台，活跃用户更是远逊（有的不足销量的10分之1）。（当年我们的C端产品叫:TA来了，说实话我觉得比豆包还好听一些，但用户数实在不行。）

而为了把这种能力投射到更多的设备里面就必然需要构建开放平台，既输出能力也负责管理各种技能（应用运行时的技能平台和MaaS形式的输出，前者只在用户量级上来了才有意义）。

还要有一些共同依托的能力，否则没有根基。当年是一堆算法比如声学的（可复制性最差，现在好像还没解决），识别的，NLP的（过去可复制性也很差，现在基于大模型解决了），现在是豆包大模型这样的新一代模型。里面看起来各种算法都打包进去了。

很多人可能没注意的是包括大模型的这套算法核心计算其实在云上，端上要求的计算量极低，主要运行声学算法等。前面提到你甚至可能在一个只有1M内存的终端设备上把这种AI能力集成进去。也就是说这种能力可以下探到语音无屏的开关这类小设备。

这导致这种超级智能应用先天的优势就是多设备投射，进行沉浸式计算。这时候各种设备平权，不是以手机为中心。

当前看起来豆包这些新一代超级应用还没去干这个事，确实也没到这个时点，其它所有硬件设备加起来创造的日活的和可能也不如APP的十分之一。

这种系统型超级应用要想干好，基础能力和杀手型的技能都不能缺。

基础能力搞不好有点浮沙筑高台，房子很难盖起来。（大模型还是很给力，一定程度上解决这问题。）

技能搞不好有点像要盖大房子但梁不给力，过去智能音箱搞不好核心就这问题。

什么是基础能力呢？

这是领域本身定义的。比如如果是需要面向C端，TTS音色这个看着不重要的就和大模型的内容生成一样重要。GPT-4o在补这个，豆包大模型也在强化这个。

在APP里什么可以成为一个比较Killer的技能呢？

播音乐的这类功能的支撑度总是不够强壮，之前景鲲带着小度在家往教育做垂直应该就是尝试解决这个问题。

当年我们做过类似《Her》的尝试，很有趣的是豆包也选了它。

但新一代模型的效果实在好很多，从端点检测的精度到语音识别再到TTS（音色）再到内容生成。新一代技术比过去流畅太多了。

这里面有个叫《暧昧对象》的技能，真的差不多可以做陪聊天的服务了。（忘记是团队那个产品同学认为最有用的就是陪聊天，比放音乐有用，这是对的，奈何当年算法不给力，做完连贯性不过关。）

这一组算法最终的效果是个乘法问题，每个都0.8最终一乘体验就变成0.5分。现在的识别精度，音色的流畅度和大模型的通用内容生成乘在一起应该还能剩下90分以上。如果不是你知道它是人工智能的情境下，已经很难分得清这是人还是AI。

上一波人工智能创业里面，NLP公司心心念念的《Her》真的有人要做出来了，还附赠了和之前尝试但不好使的声音复刻功能（《黑镜》那种男朋友没了，现在看连声音至少能做出一个70分的陪你聊天的“他”了）。这比匹配意图偶尔还得扣槽这种土鳖方式的开放式聊天实在是好太多了。

做过这个的可以试试，体验下国内最新进展。

上面我们拿豆包APP以及背后的豆包大模型做例子分解了一下系统型超级应用的特征以及前者的商业模式。

但系统型超级应用可不只局限于豆包以及背后大模型所代表的B端、C端，而是有着更宽广深远的空间，更关键的其实是行业。最先能收支平衡的有可能也是行业。

字节跳动这种公司走OpenAI的路没啥问题，但看起来好像所有做大模型的都跑这条路上来了。这就是标题说的国内AI大模型路可能走偏了。类似OpenAI这个地儿恐怕也没那么大容量。从上面分解中也能看出这模式夸张的难度和资源需求。

系统型超级应用可复制到更宽的领域么？

有两个新闻可以放在一起看：一个是DeepMind发布AlphaFold3，号称为疾病治疗和药物研发开辟全新路径；一个是Xaira公司融了10亿美金。

这是什么呢？这是垂域大模型。（其实我不知道他们细节，也许没想的那么大，但不关键。）

显然，Deepmind并没有因为OpenAI乱了阵脚，继续在自己的路上死磕。但很可能收支平衡比OpenAI还快。

因为它真的影响行业，重塑价值创造的过程。很多科学家会因为AlphaFold的调用次数和开放程度而造反，这反映的正是影响力。哪个国内的AI大模型有这种行业影响力？

每一个这种垂域模型不太可能是一个单独的裸的模型，在落地的时候总是要和现实的信息进行连接。

这点上我之前拿Watson举过例子。

虽然沃森不成功，但这种简单架构上已经清楚地表明这是行业的系统型超级应用。

Watson固然是不成功，但真做出来呢？

那是真的会解决医疗行业的根本问题的，比如医疗资源不足的问题。

这才是新质生产力。

想象一下，这些模型一旦达到AlphaGo在围棋里面的程度，那整个行业就要围着这个模型转了。对应行业会发生剧烈重整。

为什么提这个呢？

因为AI行业国内真干大模型的同学的选择好像都挤一块去了。

受OpenAI刺激，很多团队都跑去干类似ChatGPT的大模型，然后自己从头搞又特别费劲，所以往往会借助开源。在这个基础上（相对通用的类似chatGPT模型）包装出行业大模型。好处是瞬间可以出好多，坏处是不解决行业深层次问题，最终很可能变成上波的赚方案的钱，然后收支失衡。（参见：《为什么说这些倒腾AI的方式会把自己搞死》）

真正的垂域大模型，哪怕把法律搞清楚也是有用的。但门槛确实还是太高，直接拿通用大模型上能靠谱么，我不咋看好。可现在看真做垂直的反倒是不多。

垂域大模型和AGI

以前也写过一点这个话题（《ChatGPT 和AlphaGo下围棋，谁赢？垂域大模型有戏么？》），现在仍然维持原来的观点：在专门的领域尤其是价值比较高，有很多专业信息和知识的领域ChatGPT这种代表AGI的模型是很难PK掉垂域模型的。

我是靠常识做这个判断，很不权威。

常识是说一部分数据内蕴了各种知识和规则，把这些数据的种类覆盖的越全，这个模型的相应的事能力也就越强大。通用大模型能力再强，没有这部分信息，也会瓮中之脑一样空有智商。何况模型训练过程中总是可以产生很多的Know-How，这会进一步增加差距。

在很长一段时间里可能会是一个通用大模型，上面承载几个类似豆包/火山方舟/豆包大模型这样的超级应用（比如搜索方向也可能出新的超级应用）还有一些垂域大模型共同为不同的系统型超级应用提供引擎。

小结

ChatGPT属于开局的点，我们把它刨除在外。那AI大模型真正的局点其实是这些系统型超级应用，不是小团队做的辅助工具。那谁在做这东西呢？也可能是我真的不知道，但如果确实没有行业性的，而是都围在了通用模型上，那可能会在AI的局点上缺席了不少东西。那不管对于VC还是真的从业者其实遗憾的事情。

本文来自微信公众号：琢磨事（ID：zuomoshi），作者：老李话一三