苹果WWDC,AI小模型的批发时代
2024-06-17 10:19

苹果WWDC,AI小模型的批发时代

本文来自微信公众号:共识粉碎机(ID:botaijin),原标题《AI观察20240613:苹果,小模型批发时代》,作者:Andy Liu,题图来自:视觉中国


1. 我们调研了一些小模型公司以及端侧场景,发晚了两天。


2. 苹果讲了一个按Query难度分发模型的模式:


  • 3B小模型:大多数场景,包括自动回复、改写、语法检查、Summary都用端侧的小模型跑。


  • 苹果大模型:推测在几十B左右,按目前的芯片能力可以跑通,估计不会是7B,因为7B的模型不会比3B有非常大的性能提升,尤其是跑在苹果的Private Computing Cloud上面。


  • GPT-4o:在Private Computing Cloud上面做安全处理,然后脱敏数据再调用GPT-4o,计算跑在Azure上面,除了可以做对话,还可以做邮件等场景复杂(不涉及个人信息)的写作辅助。


  • 在Windows Copilot等应用产品中,也多见大小模型混用的场景。


3. 苹果PCC的价值:



  • PCC是苹果的private节点,这主要是通过加密、IP隐藏、无状态化、收紧特权权限、环境加固实现的,涉及个人隐私的数据(如个人生活照片、Message和邮件)通过加密进去了就不会再去外部环境了。


  • 而GPT-4o不会部署到PCC节点里面(OpenAI不会把模型给苹果),所以GPT-4o只能处理非Personalized处理后的数据和相关的request。编排层是PCC和手机端联动模式(如果纯放在云端加密传输,延迟增加,用户体验不好,所以放在终端可能性很大)


  • 要保证和大模型交互端到端的隐私数据安全,尽最大可能保证被攻击面的缩小。整体来看,苹果这套PCC的方案非常复杂,涉及到芯片、软件、云端、终端整套的硬件、软件的安全方案,还要考虑到最后的用户体验的优化,对于其他手机厂商来说,要复刻出来难度非常大。


4.  3B的小模型能做什么场景:


  • 我们首先说一个结论,小模型处理问题的难点不在于长度,而在于任务难度


  • 所以在苹果所列的场景里,因为其场景主要是Summarize,3B模型已经可以胜任。


  • 包括更复杂的邮件场景,类似Outlook Copilot这样一次处理几十封邮件,在现有的3B+64K context window也可以跑了。


  • 在未来,特别是GPT-5出来后,小模型可以直接在B卡上通过蒸馏的方式完成,用更强的大模型、更高质量的数据,来帮助训练小模型,端侧的能力也会进一步提高。


5.  未来可以想象得到:每个人都有一个属于自己的小模型


  • 我们未来很可能会见到每一个用户都有一个7B规模的Personal SLM,用户可以将行为与数据上传到iCloud上,然后经过脱敏定期Finetune属于自己的模型。


  • 如果我们抽象来看,这就像是一个推荐系统算法,只是推荐系统算法是一个很稀疏的模型,只有不到10层,大部分的用户数据都存储在第一层,通过激活不同的参数来实现个性化推荐。


  • 那在小模型时代,可以只存储你自己的参数,Predict Your Next Token,预测用户的下一个行为。


  • 这就像自动驾驶场景,端侧公司有着最闭环的驾驶数据(用户数据),而且可以更安全地做到脱敏。


6. 未来的Personal Agent流量入口在手机不在Super App:


  • 这几天我们又与十几位Top Research一起讨论了下Persenoal Agent的未来。


  • 除了上面提到的Personal SLM外,大家都非常认同未来手机厂商做Personal Agent,是因为数据以及权限上的巨大优势,几乎是碾压现在App应用厂商自己做的Personal Agent。


  • 这也让苹果在未来的应用生态上又拔高了一个身位。


7.  苹果与OpenAI合作了什么?


  • 目前来看苹果大概率没有付钱给OpenAI,从现有的调用模式来看,GPT-4o应该也不在Private Computing。


  • 整个的合作形式,相当于苹果给ChatGPT开了一级入口,苹果免费用ChatGPT的用量。


  • ChatGPT得到了近似于预装的机会,未来有升级到付费版的可能性。


  • 如果苹果11亿DAU里面,有2亿DAU是ChatGPT付费版用户,那相当于OpenAI获取500亿美元的营业流水,苹果抽成100亿美元,然后Azure拿到200亿美元的GPU租金。


  • ChatGPT有200mn MAU的话,DAU估计在50mn左右,用了不到3万张H卡算力支持推理。如果iOS端全部用GPT-4o,能做到200mn DAU的话,相当于人数4倍*单人算力10倍,要到百万张卡的算力才行。如果未来用到Personal SLM的话,数字就更难估算了。


本文来自微信公众号:共识粉碎机(ID:botaijin),作者:Andy Liu

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP