算力卡不住大模型的脖子
原创2023-04-28 17:45

算力卡不住大模型的脖子

出品|虎嗅科技组

作者|齐健

编辑|陈伊凡

头图|6penAI

 

“ChatGPT的爆发确实早于我们的预期。”

 

ChatGPT问世之后,戴文渊和身边的同行们都迅速投入到了相关产品的研发中,一时间,围绕ChatGPT讨论最多的话题是:如何复现ChatGPT,以及围绕芯片算力的问题怎么解决,甚至是如果要实现一个AGI(通用人工智能,Artificial general intelligence),除了GPT还有没有别的方法。

 

虽然从2018年谷歌推出的上一代预训练语言模型BERT开始,戴文渊和他的第四范式已经在研究AI大模型了,但直到GPT-3出现时,整个产业界才作出判断:大模型将会到达一个举足轻重的位置。

 

作为国内最早一波AI产业逐浪者,第四范式创始人兼CEO戴文渊将ChatGPT形容为“横空出世”——这比他之前预想的时间节点要提前了一点。他清晰地记得6年前,AlphaGo给行业带来的震撼,并在采访中不断提及,GPT的进化速度比AlphaGo更加迅猛。


第四范式创始人兼CEO戴文渊

 

正在等待港交所IPO过会的第四范式,是国内为数不多的AI独角兽公司。其业务主要聚焦在B端市场的AI智能决策。今年2月底,第四范式在B端市场推出了聚焦企业软件开发和应用的大模型产品“式说”。

 

戴文渊坦言,虽然他们很早就开始研究BERT、GPT等AI大模型,但在GPT模型的商业化投入方面确实是追随者。“作为AI科学家,对GPT这样的技术我们肯定不能错过。但作为一名创业者,在三四年前,我还看不到基于GPT能力的商业化产出。”因此,多数AI公司或研究团队,在当年对GPT的态度都停留在“研究”而非“研发”。

 

AI从诞生的那一刻就是要提供“服务”的,其天生就具备商业属性。在大模型刚刚冒头的前几年,国内大模型研发的第一梯队中,也曾传出某公司CEO认为大模型看不到商业价值,差点把整个团队裁撤的流言。而像OpenAI这样执着于一款短期看不到商业价值的产品的公司,在成功之后自然也更具传奇色彩。

 

近日,在第四范式媒体开放日上,虎嗅与第四范式创始人兼CEO戴文渊进行了一次对话。以下是部分对话实录:

 

GPT爆发的速度比AlphaGo快得多

 

虎嗅:ChatGPT出现之后,许多AI从业者都进入了一种“应激反应”,他们或是在大模型里看到了重新创业的机会,或是在做新的布局。ChatGPT诞生,给你的刺激是什么?

 

戴文渊:业内有一些人是从BERT模型诞生就在关注大模型,直到GPT-3出现后,我们已经可以预见未来生成式预训练模型会有爆发的一天,但没想到会这么快。

 

ChatGPT出现之后,马上就建立了市场信心,这是ChatGPT给我们带来最大的帮助。从去年9、10月份时,很多人还认为生成式AI不靠谱,但ChatGPT出来了以后,整个市场就开始了从0到1的转变。再往后,很多人就开始推出产品,在市场上推动商业化路线了。

 

虎嗅:在ChatGPT爆发的这三个月当中,你和同行们都在讨论什么?

 

戴文渊:同行之间聊得更多的是技术,以及关于整个产业的问题。比如说如何复现一个GPT3.5?有没有可能做出GPT-4?以及算力的问题。到现在讨论得更多的是,我们如果要实现AGI,是不是一定要用GPT去实现,还有没有别的方法?

 

虎嗅:你的客户都在讨论什么?


戴文渊:在过去的几个月中,大家的认知都在迅速提升。去年12月问得最多的是“你听说过ChatGPT吗?”到今年2月,问的是“ChatGPT我们能不能应用它?”

 

在产业端,有些激进的人甚至还不知道ChatGPT能做什么,就已经迫切地要在业务中落地ChatGPT了,那个时候是 “市场在等产品”。差不多到2月,公司就必须把产品做出来,因为客户都在等你。

 

这其实有点像当年的AlphaGo。AlphaGo刚出来的时候,市场也不知道它是什么,GPT这次的发展速度比AlphaGo快得多,AlphaGo出来后的一年,很多人都还是“我不知道它是什么,我只关心对我有没有用”的状态。

 

然而这次,这种状态只持续了一个多月。大家很快就知道GPT大概能做什么,并且每天都会发现GPT能做的事情比想象得多。这次AI爆发的速度比AlphaGo快得多,带来的机会也更多。

 

通用大模型不是通往AGI的唯一方法

 

虎嗅:近期,国内厂商密集发布大模型产品,各种大模型之间差别大吗?

 

戴文渊:不能说没有区别,但都是基于GPT做的。虽然中国目前没有OpenAI,但可能还会有更多的大模型。

 

对于我们自己来说,不是去对标OpenAI,也并不是说OpenAI能做什么我就一定要做什么。比如我们的大模型也有画画的能力,但在画画能力上超越OpenAI并不是我们所考虑的。我们更重视发展那些经过我们的思考和判断后,发掘出来的用户需要的能力。

 

虎嗅:国内厂商密集发布大模型背后,也陷入互相挖人的竞争中,要组建一个AI大模型团队,什么最重要?

 

戴文渊:我觉得从顶层去看这个问题的话,最重要的不是去竞争某个人或某几个人,而是有一群志同道合的人一起,这样的团队才会有战斗力。如果某个团队全是靠双倍工资挖来的人才,那他的战斗力可能也会比较有限。

 

如果一个团队有共同的愿景,共同的目标。那这些人其实是挖不走的。对我来说,打造团队最重要的是“认同”。大家能否认同我们正在做的事,以及你是不是特别想把这件事情做成。

 

虎嗅:算法、算力和数据,这三大要素你认为应该如何排序?

 

戴文渊:数据最重要,但是这个问题要辩证地来看,数据充分到一定的程度以后,再多就不一定那么重要了。比如说《红楼梦》看过一百遍了,再多看两遍也没那么重要了。

 

其次是算力。大模型在算力方面是有门槛的。但是对于大厂,或者有一定资金实力的AI公司来说,大家还是能做到这个“牌桌”前的。作为中国公司,我觉得算力需要考虑的问题是有没有国产替代方案。

 

最后是算法,虽然我认为算法未来可能会有改变,但目前来看Transformer在很长一段时间内是比较固定的。但模型结构会有一些变化,例如模型的稀疏化。

 

虎嗅:现在大模型训练很多用的都是英伟达的芯片,现在业界更多讨论的是没有英伟达之后呢?

 

戴文渊:一段时间以来,中国大多数GPU公司走的路线,是通过牺牲显存、网络带宽的方式来追求计算能力的提升,迫近或者超过英伟达。但是对于大模型来说,我们其实需要这三者(计算能力、显存、网络带宽)的折中,这是一个技术路线的问题。从追求极致的算力,调整为追求三者的平衡。目前可能还需要一点时间,这段时间里国产GPU的性能可能跟英伟达有差距,但这个差距可能比想象中小。

 

通常情况下如果CPU的性能相差2倍,那么软件运行速度就会慢2倍。但是GPU性能相差2倍,大模型的参数量不会缩小2倍,会少1倍多。导致的结果是假设我用了比你差2倍的GPU,我能跑1000亿参数,你可能能跑1000亿多一点的参数。但对于大模型来说,1万亿参数和1000亿参数有本质的区别,“1000亿”和“1000多亿”,其实感受不到本质的区别。

 

虎嗅:听下来,这三者里所以大模型最容易构筑壁垒的地方是数据吗?

 

戴文渊:这个问题首先要理解通用模型和专用模型,通用模型就是培养了一个大学生,等到他开始工作了,在某一个领域积累专业的知识与数据,当他在一个行业或领域钻得足够深,就是专用模型。

 

所以数据的壁垒更适用于在垂直行业和领域,你的数据充分了,别人的数据没有充分,就形成壁垒了。

 

行业和领域的概念也有所不同。比如Photoshop是一个领域,或者说OA(办公自动化)系统、CAD(计算机辅助设计)软件是一个领域,在这个领域的数据会形成壁垒。

 

如果你用AI改造了一个软件,那么这个软件逐渐会变成一个领域模型。不仅仅是软件,也是一个模型。

 

从某种角度来说,我们认为可以通过改造越来越多的领域来实现一体AGI的路线。当你把全部领域都改造完了以后,就形成了AGI。很难想象通过一个大模型最后把所有领域的问题都解决了,那样的话模型量就太夸张了,可能现在的计算体系架构下,要付出难以接受的代价。

 

To C不是大模型落地的最佳场景

 

虎嗅:B端和C端谁会更快落地大模型?

 

戴文渊:在我看来To C和To B各自有各自的机会,短期来看To B可能会落地更快。

 

因为To B软件在交互上更需要,也更容易升级。To C软件的用户体验经过十几年的打磨,已经逼近用户体验的上限,而B端的企业级软件往往要面对更加复杂的策略和执行,堆砌十几层菜单和成千上万的功能也不算多。

 

比如抖音,他作为一个短视频平台,用户的操作只需要向上滑就好了,改成对话的形式,体验说不定还下降了。反观B端软件,我和一个合作伙伴聊天时,他给我们展示所使用的软件,下拉菜单甚至已经超过了屏幕的大小。这就给升级创造了条件。


 

To C可能是在生产力方面更有价值,比如AIGC制图,影视加工这些。可能本来要请很多技术人员,现在可以用AI代替了,那你的成本就比别人低,效率更高,或者SKU(品类)更多,这是To C的机会。

 

虎嗅:第四范式的大模型产品,目前的开发、版本迭代情况如何?与其他大模型产品有何异同?

 

戴文渊:“式说”的定位是“基于多模态大模型底座的软件开发平台”,主要面对企业开发,与其他大模型一样具备语言能力,但是更偏向于基于AI大模型重构企业软件,也就是AIGS(AI-Generated Software)。

 

我们认为,如果你要实现一个功能,通过鼠标点菜单点三下才能完成的,那么这次操作的体验基本上不会比通过语音交互来实现更好。所以用新型的交互模式去替代老的交互模式,会使B端软件的体验获得一个很大的提升。

 

你可以回忆一下自己企业内的报销系统、HR系统、OA系统,我们公司现在的报销系统也挺难用的。但是你试想一下,如果你在报销过程可以用聊天的方式完成。

 

你说:“我要报销”,然后你把发票拍给软件,大模型识别这是餐厅发票。

它问:“跟谁吃饭了?”

你答:“跟张三吃饭了”

它说:“我接收了。”

结束。

 

这种体验显然比现在的报销系统要强得多,这是用户体验方面的提升。

 

另一方面是开发迭代周期的提升。原先是菜单式的功能和界面开发,每次升级都是几个月起。而现在新的交互模式,入口被一个万能对话框取代了,界面已经不重要了。ChatGPT每天都在提升,但是你感受不到它的界面发生了什么变化。

 

以前是界面层面的升级,现在是数据层面的升级。数据层面的升级都是以天计的,像抖音增加一个特效,也不需要改抖音的界面。

 

这么看就是用户体验也提升了,开发者体验也提升了。

 

虎嗅:第四范式的大模型里提到了思维链COT的概念,它在大模型中是以什么形式存在的?

 

戴文渊:我们日常用到的软件,都是由一个个功能组成的,但我们用软件去完成任务的时候,不只用到一个功能。比如Photoshop,你在Photoshop里调图片亮度,这是一个功能,调对比度,也是一个功能。但是如果你想“把照片P好看点”,它就不是一个功能了,而是通过一个个功能叠加实现的任务,最后按照顺序执行,实现“把照片P好看点”。

 

这个利用不同功能,一步步完成任务的过程,就是思维链COT(Chain of Thoughts),是一个多步推理的过程。COT相当于是大模型当中的数据。你可以把AI想象成一个每天站在软件使用者背后的人,每天就看他干什么,看多了也就学会了。“式说”就是在用户使用过程当中,让AI去收集他的思维链,以思维链为数据,然后再来做微调和反馈,从而形成AI能力。

 

基于大模型的思维链,就需要AI有很强的推理能力。虽然没有Photoshop软件的能力,但AI有操作的能力,所以即便AI没见过这个软件,也可以利用COT去学习它的使用方法。

 

虎嗅:我们通常去评价一个大模型产品好不好,是看效果,那么大模型的落地效果要怎么量化?

 

戴文渊:最明显的量化指标就是“降本增效”。我举一个B端的例子,比如原来IT部门去迭代一个软件,需要10个人开发半年,现在可能两个人开发两天就搞定了。不说最后效果,就开发效率提升这件事就非常直观。对于企业来说,同样的人力情况下,本来只能开发2个功能,现在可以开发200个功能。

 

虎嗅:你一直提到B端的应用,安全对于ToB产品来说特别重要。现在各国家和地区也都在提及ChatGPT产品对数据安全的威胁,AI大模型在训练、应用过程中,如何保障数据安全?


戴文渊:在今天这个时间节点上,数据安全最关键的,特别是敏感数据的私有化部署,这个东西暂时是绕不开的。可能在过去可以基于技术做一些数据的可信交换,但是现在不是把数据给你,是把数据给GPT。

 

我们现在也在研究一些基于GPT的可信的联合计算,比方说基于GPT的联邦学习。这样的方向,我觉得未来是可期的。

如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定