三次误判后,扎克伯格这次终于做对了
2023-09-04 18:05

三次误判后,扎克伯格这次终于做对了

本文来自微信公众号:甲子光年 (ID:jazzyear),作者:李晗、刘杨楠,编辑:栗子,题图来自:视觉中国

文章摘要
本文介绍了Meta(前身为Facebook)在AI领域的发展历程,包括其尝试开发操作系统、错过移动互联网机会以及在元宇宙项目中的亏损。然而,Meta最近发布的开源大语言模型LLaMA2给公司带来了曙光,同时也展示了Meta对开源社区的理解和合作。文章还探讨了Meta创始人扎克伯格的三次“误判”以及他对AI的野心。

• Meta发布的开源大语言模型LLaMA2在开源社区中获得了广泛关注和支持

• Meta通过开源模型降低了大模型私有化部署的门槛,受到企业欢迎

• Meta在AI领域的转型和投资取得了一定的回报,营收增长幅度首次达到两位数

“今天,我们一起发起了一场运动。”


2007年5月24日下午3点,在Facebook第一次开发者大会上,年轻的扎克伯格向台下上千名开发者发出一则“革命宣言”。这是扎克伯格第一次在公众场合上台演讲,他在台下把这句开场白练习了无数遍。


当时,Facebook已经从校园走向社会,面向所有互联网用户开放,一举站上社交媒体金字塔尖的宝座。但扎克伯格不满于此,他开始尝试触达计算机世界更高的宝座——操作系统。


Facebook将其开发者大会命名为F8,指代Facebook经常会举办的“通宵黑客马拉松活动”——将工程师们聚在一起,用8个小时完成一个不切实际的想法。同时,F8的英文发音和fate(命运)相似,仿佛暗藏了扎克伯格认为Facebook命中注定将成为时代霸主的野心。


但遗憾的是,决定开发操作系统后的十几年里,Facebook定下的大计划几乎没有一次能圆满完成——社交媒体操作系统折戟;错过移动互联网的先机;在元宇宙的一片虚火中全力押注,最终血本无归。这家曾经的社交媒体巨头在一次又一次误判中跌落尘埃。


今天,Meta又找到了“AI”这根救命稻草,并已经开始看到曙光。


7月,Meta发布了2023年Q2季度财报,多项数据超市场预期。财报显示,Meta在2023年Q2季度中,总营收为320亿美元,同比增长11%;Q2季度每股收益为2.98美元,同比增长21%,创2021年四季度以来新高;净利润为77.88亿美元,同比增长16%。这是Meta自2021年四季度以来,营收增长幅度首次达到两位数。


但坏消息是,元宇宙给公司带来的亏损仍在扩大。 据财报显示,元宇宙所在的Reality Labs(现实实验室)部门,在2023年Q2季度亏损达到37.3亿美元,Q1季度亏损额达39.92亿美元。 Meta的元宇宙部门已经连续两年亏损百亿美元以上,2022年共计亏损137.17亿美元,2021年亏损101.93亿美元。Facebook改名Meta之后,已经在元宇宙项目里亏损了约316亿美元,股价直接性损失了约三分之二。


Meta也在尝试将其大模型整合至原先的社交媒体产品矩阵中,但将AI植入社交媒体由此带来的财务增长或许并不是大模型最好的商业模式。可以说,此时此刻无论巨头还是创业者,都没有为大模型找到一个长久且行之有效的商业模式。


那么,Meta究竟能否凭借LLaMA重回巅峰?


一、“羊驼热潮”:一场来自Meta的反击


经过半年发酵,人们对大模型的狂热终于逐渐冷却,开始考虑“下一步”该怎么走。


学术界依然“岁月静好”,继续探索如何治好大模型胡说八道的毛病,以及大模型之外,人工智能还有哪些更值得想象的未来。


而商业世界就是另一番景象了。巨头们打得面红耳赤,生怕错过定义下一个时代的机会;创业者们削尖脑袋,拼命寻找尚未被巨头占领的处女地,试图出奇制胜。


但在围绕大模型的新一轮商业竞争中,Meta作为科技巨头却显得颇为“佛系”。


OpenAI去年11月底发布ChatGPT,但当时的Meta还因元宇宙血亏而身陷裁员阵痛。今年1月,Meta似乎才反应过来,着手训练更轻巧的语言模型LLaMA。


2月25日,Meta“不小心泄露”了LLaMA模型(英文中,llama译为“羊驼”)。LLaMA模型有70亿、130亿、330亿和650亿四种参数规模,训练语言高达20种。


在对比测试中,LLaMA模型在仅130亿参数规模上,就已经可以“在大多数基准上”胜过参数量高达1750亿的GPT-3,且能在单块V100 GPU上运行;而其650亿参数的模型已经可以媲美谷歌的Chinchilla-70B和PaLM-540B。


整个训练数据集在token化之后大约包含1.4万亿个token。其中,LLaMA-65B和LLaMA-33B是在1.4万亿个token上训练的,而最小的模型LLaMA-7B是在1万亿个token上训练的。


LLaMA给出了一条独立于GPT路线的新思路——更大规模的训练数据+更精巧的算法能够降低模型对参数和算力的依赖。


2022年3月,来自DeepMind的Jordan Hoffmann等人在论文《Training Compute-Optimal Large Language Models》中提出“Hoffmann定律”:用20倍于模型参数规模的训练数据来训练大模型,效果最好。而LLaMA模型的训练数据量正好约为参数规模的22倍。


LLaMA的出现已经让外界对Meta刮目相看。但所有人都没想到,Meta的大招还在后面。


时隔5个月,7月19日,Meta携手微软推出开源大语言模型LLaMA2。发布当天,扎克伯格在Facebook上传了一张和微软CEO萨蒂亚·纳德拉的合照。照片中二人面带微笑,甜蜜相拥,背后蓝天白云、绿草茵茵,一派祥和。有网友调侃道:“我想知道OpenAI感觉如何?”


图片来源:扎克伯格Facebook主页


Meta还发布了一篇长达76页的论文,详细说明了LLaMA2诞生的全过程,包括模型详细信息、训练阶段、硬件、数据管道和注释过程。NVIDIA高级人工智能科学家Jim Fan称赞这篇论文是“一部杰作”。至少从行动上看,Meta的开源很有诚意。


LLaMA2将“大模型应该开源还是闭源”的争论推向了高潮。


开源与闭源之争几乎伴随了整个计算机技术的发展历程。从PC时代的Windows与Linux之争,到移动互联网时代,苹果iOS与谷歌安卓二分天下,每一次开源生态崛起,都会带来一场市场的重新洗牌。


在美国大模型厂商中,谷歌是闭源阵营,OpenAI前期开源,后期迫于商业压力也转向闭源,以API付费的方式向开发者提供服务。


种种迹象表明,Meta发布的开源模型已经开始冲击闭源玩家。


LLaMA2发布一周内,Meta就收到了超过15次的下载请求,开源社区star数量直逼3万颗,基于LLaMA2微调的模型与插件也如雨后春笋般冒出。


同时,LLaMA2也降低了大模型私有化部署的门槛,很受企业欢迎。LLaMA2构建在Meta自己开发的PyTorch框架上,PyTorch可以大幅减小模型的体积,让模型变得更轻巧,极大降低了运行大模型的硬件门槛,个人用户甚至在普通电脑上也可以部署运行LLaMA2。


以上均得益于Meta对模型本身的精巧构思,而比模型设计更“精巧”的,是Meta对开源社区的深刻理解。


Meta聚拢了很多合作伙伴共同向客户及开发者提供LLaMA2模型,阿里云、Amazon Sagemaker、Databricks、Microsoft Azure以及IBM的WatsonX都已支持LLaMA2使用,开发人员可以在单个GPU上微调70B的模型,采用成本被大大降低。


最近一项题为 “大型语言模型的挑战和应用”的研究指出,经过微调的闭源模型和开源模型之间存在能力差距。但借助LLaMA2,社区可以缩小差距,开发出可与OpenAI的GPT模型相较量的竞争对手。


值得注意的是,Meta给LLaMA2的“免费商用”设置了一个意味深长的限制条件。根据LLaMA2的授权政策,如果企业的月活用户数超过7亿,必须从Meta申请许可证,Meta会对此类授权严格设限。


Meta并未明确解释设置这项政策的实际原因,但从“月活7亿”的门槛来看,基本上把现在的巨头挡在了门外。产品月活超7亿的公司有YouTube(25亿)、苹果(18亿)、微软(14亿)、三星(10亿)、领英(9亿)、Snapchat(7.5亿)等,而这些正是Meta的主要竞争对手。


通常意义上,开源和闭源有着明确的“分工”。开源承担推动技术繁荣的理想与信念;闭源则负责为商业公司构筑技术壁垒,谋取更多利润。但Meta似乎试图在开源的理想主义和闭源的利益为先之间寻找一个平衡点——一边高举开源大旗,繁荣创新;一边和竞争对手划清界限。


不得不说,和2021年“All in”元宇宙相比,Meta这次的战术显得更加明智。某种程度上,这更像是蛰伏已久的Meta,向所有人发出的一次“反击”。


一直以来,以社交媒体起家的Meta常被人诟病缺乏科技基因。在今年5月举办的“白宫AI峰会”甚至没有邀请Meta。有记者询问原因时,一名匿名官员回应道:“目前在该领域处于领先地位的公司,才会收到邀请”。


LLaMA2发布后,Meta和背后的扎克伯格或许终于能扬眉吐气一回。毕竟,为了这一天,扎克伯格已经带着公司在AI这条路上跑了10年。


二、Meta AI的十年:研究的巨人,产品的矮子


2013年,谷歌、微软、百度、DeepMind四家公司为一场竞拍争红了脸。


竞拍对象是一家名为DNNResearch的公司,这家公司没有任何产品,也没有生产计划,全公司甚至只有3名员工和几篇论文。


而这3名员工,就是真正让大厂们垂涎已久的对象。他们分别是多伦多大学教授Geoffrey Hinton(杰弗里·辛顿)与他的学生Alex Krizhevsky(亚历克斯·克里泽夫斯基)、llya Sutskever(伊尔亚·苏茨克维)


彼时,师徒三人已经是人工智能领域传奇般的存在——他们合作设计了卷积神经网络(CNN)架构AlexNet。AlexNet在LeNet(LeNet-5,最早的卷积神经网络之一)的基础上加深了网络的结构,结合GPU强大性能直接横扫2012年ImageNet挑战赛,一举打破深度学习的寒冬。


最终,谷歌以4400万美元拿下了DNNResearch。如今回看,这场竞拍正是即将到来的深度学习革命的前奏。


错过杰弗里·辛顿这张王牌后,扎克伯格开始带领Facebook着手组建自己的AI王牌部队。他找到了另一位出色的AI梦想家——Yann LeCun(杨立昆)


上世纪80年代,Yann LeCun就创造了卷积神经网络,被誉为“卷积神经网络之父”。上文所说的AlexNet,便是在他的研究成果LeNet之上发展而来。


2013年10月,扎克伯格亲自给Yann LeCun打了一通电话:“我们公司已经走过了十年,需要考虑下一个十年。我们认为人工智能将会扮演一个非常重要的角色。”他诚挚邀请Yann LeCun帮助Facebook建立一个世界顶级的人工智能实验室。


Yann LeCun同样提出了很多要求——实验室必须独立开放,研究成果完全开源,他本人要继续在纽约大学任教等等。二人一拍即合,Facebook入局AI已是箭在弦上。


2013年末,由Yann LeCun主导的FAIR实验室(Facebook's Artificial Intelligence Research)宣告成立。


Yann LeCun一直提倡产学合作制度,这也让FAIR有着浓厚的学术氛围。根据实验室华人成员田渊栋介绍,FAIR实验室目标就是发高质量文章、做有力的前沿工作,且研究氛围非常自由,没有产品压力。自由包容的研究氛围也为FAIR吸引了大量的学术大牛,诸如何恺明、田渊栋、Edward Grefenstette等。


之后几年,Yann LeCun携手一众学者将FAIR打造成与DeepMind、OpenAI齐名的全球顶尖AI实验室。


FAIR将相当一部分研究精力都集中于攻克推理、预测、计划、无监督学习等基础问题,开发了诸如深度学习框架PyTorch、深度卷积生成对抗网络(DCGANs)等技术工具。


以深度学习框架为例,2017年,FAIR实验室陆续开发学习框架PyTorch、Caffe2,一举打破了谷歌在框架领域称王的局面。仅在发布一年后,PyTorch的论文提及数量猛增194%,份额直逼TensorFlow 。


此外,FAIR也始终保持着开放的态度,坚持对外发布前沿的研究成果,并尽可能地对外开源研究代码、数据集和工具。据Hugging Face创始人Clement Delangue介绍,截至2023年8月,在Hugging Face上,Meta共有689个存储库,相比之下,谷歌有591个,微软只有252个。


可以说,Meta是目前为止开源数量贡献最多的科技大厂。


“Facebook在FAIR之前没有任何研究实验室,这是第一个,在那之前,该公司非常专注于短期工程项目,期限为6个月,甚至更短,”Yann LeCun曾回忆道。


“在Facebook的头五年里,我对创建研究实验室说‘不’,”首席技术官Mike Schroepfer在Facebook的一篇帖子中写道。“2013年,人们发现人工智能对于Facebook的长期未来至关重要,所以我们必须想办法解决这个问题。”


成立五年后,FAIR的影响力已渗透到整个公司。该小组在门洛帕克、纽约、巴黎、蒙特利尔、特拉维夫、西雅图、匹兹堡和伦敦设有实验室。他们与学术机构合作,发表了无数论文和研究,该小组在五周年时间表