GPT-5,被5万张H100卡脖子
2024-01-22 15:08

GPT-5,被5万张H100卡脖子

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,原文标题:《GPT-5被5万张H100卡脖子!Altman急筹数十亿美元,欲取代英伟达建起AI芯片帝国》,题图来自:视觉中国

文章摘要
OpenAI计划推出GPT-5,但训练它需要5万张昂贵的H100 GPU芯片,因此Altman正在筹集数十亿美元建立全球晶圆厂网络,以确保芯片供应。OpenAI意图与英特尔、台积电等巨头竞争,并解决目前的GPU短缺问题。

• 💰 OpenAI正在筹集数十亿美元,计划建立全球晶圆厂网络,以确保训练GPT-5所需的H100 GPU芯片供应。

• 🏭 Altman希望建立一个自给自足的半导体供应链帝国,与英特尔、台积电等公司竞争,以满足未来对AI芯片的需求。

• 💡 通过与中东投资者合作,Altman试图确保OpenAI的芯片供应,避免被英伟达等公司垄断,并推动AI技术的广泛应用。

Sam Altman正在筹集数十亿美元,建立一个全球性的半导体晶圆厂网络。


这一事件背后的原因很可能是,OpenAI已经无“芯”训练“GPT-5”了。


此前,据英国《金融时报》报道,OpenAI正在开发一种新的AI模型,该模型将是GPT-4的“重大升级”,预计将于今年晚些时候发布。


训练GPT-4,用了大约25000块A100 GPU 。而训练GPT-5,还需要5万张H100。如今,英伟达的H100售价为2.5万至3万美元。


英伟达的AI芯片,基本垄断了市场,这一命脉怎能掌握在他人手中?



果然,最近外媒接连曝出,Sam Altman正在和中东投资者以及台积电谈判,展开合作关系,以训练和运行AI模型的芯片。


算力货币决定着OpenAI的前途绝不能被英伟达把握在手里。Altman这次是下定决心了。


训练GPT-5,OpenAI对芯片的需求只会越来越大


Altman的野心是,随着AI技术的广泛应用,在未来几年建成一个自给自足的半导体供应链帝国。


所以,OpenAI也有意跟英特尔、台积电和三星等行业巨头竞争了?


比起亚马逊、谷歌、微软等大厂,Sam Altman显然有更宏大的计划:建立一个AI芯片工厂网络。


Altman应该是很确信,现在的台积电、三星、英特尔之类的代工厂,在未来几年内,肯定无法满足市场对AI芯片的需求。


现在,Altman正在筹集数十亿美元,希望建立一个遍布全球的AI芯片工厂网络。


现在,他正在和多家潜在的大型投资者进行谈判,包括总部设在阿布扎比的G42和软银集团。


显然,在AGI时代,芯片会供不应求。Altman现在十分担心,随着AI技术的日益普及,现有的芯片供应将无法满足大规模部署的需求。



目前生产的AI芯片,远远落后于预期的需求。只有立刻行动,才能确保在十年内能有充足的芯片供应。


然而,建立一个全球性的芯片工厂网络需要庞大的投资,并且需要耗时多年。


而且,与行业中其他公司不同的是,建设和维护半导体工厂的成本要高得多。一个先进工厂的建设成本,可能高达数百亿美元。


亚马逊、谷歌、微软都倾向于设计自家的定制芯片,将制造外包,也是因为建造和维护半导体的晶圆厂的成本实在太高了。


毕竟,建造一家最先进的晶圆厂可能需要数百亿美元的投资,而建立这样的设施网络可能需要数年时间。


根据彭博社的报道,仅在OpenAI与G42的谈判中,涉及金额就接近80亿到100亿美元。


OpenAI新金主:中东土豪


OpenAI的前任金主是微软。现在为了筹资,Altman联系上了中东土豪们,比如阿联酋的一些投资者。


其中一位,就是阿布扎比最富有、最有影响力的人物之一——谢赫·塔赫努恩。


谢赫·塔赫努恩是阿联酋最有权势的人之一,是总统谢赫·穆罕默德的兄弟,还是阿联酋的国家安全顾问。


他还负责监督迅速扩张的商业帝国,并担任阿布扎比若干最强国家投资基金的主席。其中包括8000亿美元的阿布扎比投资局和另一家国有投资实体ADQ。


另外,他还担任国际控股公司和G42的主席。前者是一家庞大的企业集团,已迅速成为阿联酋最大的上市公司;而G42是一家雄心勃勃的AI公司,已经和微软、OpenAI建立起了合作伙伴关系。


目前还不清楚Altman具体的筹款金额,但要与市值接近1.5万亿美元的英伟达竞争,保守来说至少会花费数十亿美元。


别的不说,Sam Altman的社交手腕,是真的达到了人类天花板级别。


建厂要花费的是天文数字


咱们来盘一盘,要建起一座晶圆厂,Sam Altman究竟需要花多少钱。


开发2nm或3nm工艺技术的成本,高达数十亿美元,并且随着工艺节点的缩小,这一成本还在上升。



同时,一个能够大规模生产3nm或2nm芯片的现代晶圆厂,如今成本可达300亿美元。


并且,晶圆厂的成本还在迅速上升,比如一台低数值孔径(Low-NA)极紫外(EUV)光刻设备的价格约为2亿美元,而高数值孔径(High-NA)的光刻机,预计售价在3亿至4亿美元之间。



一个领先的晶圆厂要想生产最先进的AI和高性能计算(HPC)芯片,这种设备怎么也得备上若干台。


AI浪潮中,英伟达坐收渔翁之利


现在,谷歌、亚马逊、Meta、OpenAI和微软都在使用英伟达的GPU来训练AI、向客户部署模型。仅Meta一家,就计划在年底前为服务器安装340000块H100。


可以说,英伟达垄断了目前的AI算力市场,并且手持定价权,这使得其收入飞速增长。


像Graphcore这样的芯片初创公司,已经很难与英伟达的主导地位竞争了,这是由软件和硬件之间的相互作用造成的。仅仅制造一个更快的芯片,已经是远远不够的,何况这本身就相当困难。


显然,各大科技公司都很早就开始布局了。


亚马逊、谷歌和微软这样的大科技公司是这么做的——设计自己的定制半导体产品,将生产过程外包给其他公司。


现在,各家都到了收获的季节。去年11月底,微软就推出了首款AI芯片,同时,微软也在和AMD加紧合作;2023年春季之前,Meta也推出了自家芯片;谷歌和亚马逊,则分别研发TPU和Trainium芯片多年。


OpenAI曾怒甩5100万刀狂买AI芯片


去年12月,Altman就被曝出正在进行“芯片交易”,而这也疑似成为OpenAI宫斗的导火索。


当时有外媒曝出,OpenAI在2019年与AI芯片初创公司Rain AI签订了一份价值5100万美元的意向书,会在Rain AI的芯片上市后购买芯片。


Rain AI正在研发一种“类脑”NPU芯片,能大幅降低AI算力的成本,预计将在12月流片,并于2024年10月开始供货。



而且值得注意的是,Sam Altman作为Rain AI的股东,本人也亲自斥资,投入了100万美元。


根据一位不愿意公开身份的人士透露,Sam Altman之前被OpenAI前董事会解雇,部分原因就是他的其他投资与OpenAI纠葛的关系。


RainAI开发的神经形态处理单元(NPU),能模仿人类大脑的功能,有希望提供比当今的GPU更高的处理能力和能源效率。


这个NPU“类脑”芯片,号称比GPU高出100倍的计算能力,而在训练方面的能效,甚至比GPU高出10000倍。


Rain的目标是提供一种芯片,既能用于模型和算法的训练,又能用于之后的推理运行。


根据Rain的说法,这种芯片将允许AI模型根据周围环境实时定制或微调。


从这个角度来看,它并不是当下英伟达H100之类GPU的直接竞品。


相关人士表示,这些功能对OpenAI来说是一个强大的吸引力,OpenAI希望利用这些芯片来降低数据中心的成本,并将自己的模型部署在手机和手表等设备中。


如果能够开发成功,OpenAI自然不会再受制于英伟达。


其实,Altman布局得很早。


早在2018年,他就领导了Rain的种子轮融资,一年后,OpenAI通过了这份价值5100万美元的芯片购买意向书。


当然,Altman的计划也不是一帆风顺的。


此前Rain的领导层曾改组,公司的投资者也发生了变化。一个负责监管国家安全风险投资的跨部门政府机构,要求沙特阿拉伯附属基金Prosperity7 Ventures出售其Rain的股份,之后,硅谷的Grep VC收购了这些股份。


这一切变动,都可能会增加Rain将新型芯片技术推向市场的难度,也使OpenAI的5100万美元订单的兑现日期,变得不太清晰。


总的来说,与Rain的这项交易也显示,OpenAI愿意花费大量资金,来确保自己的AI项目所需的芯片供应。


现在,从Rain AI购买的价值5100万美元的AI芯片,只是OpenAI在AI芯片上巨额投入的一小部分而已。


OpenAI的野心,正在悄悄部署


年前,OpenAI就任命了前谷歌TPU的负责人为硬件主管,并且正在招聘“数据中心设施设计专家”。



消息称,由芯片工程师Richard Ho领导生成式AI创业公司的新部门,帮助优化合作伙伴的数据中心网络、机架和架构。



“他在TPU的创建中也发挥了重要作用。也曾在DE Shaw工作并设计过ASIC。到目前为止,他更多地负责软件硬件集成、DC设计和加速器芯片选择。但OpenAI最近也聘请了不少编译器和内核方面的专家。”


另外,Altman还曾与包括芯片设计公司Arm在内的半导体高管进行过讨论,商讨如何尽早设计出新的芯片,为OpenAI降低成本。


OpenAI的GPU短缺有多严重?Altman:都先别用ChatGPT了


去年一整年,Sam Altman都在抱怨OpenAI已经陷入了严重的GPU短缺。


生成式AI爆发仍旧没有放缓,对算力提出了更高的要求。很多公司都在用英伟达性能极高的H100来训练模型,但H100非常昂贵。


马斯克就表示,GPU如今比drug还紧俏。


Sam Altman表示,OpenAI已经严重受到GPU限制,不得不推迟了众多短期计划(微调、专用容量、32k上下文窗口、多模态)


甚至,因为GPU的短缺,Altman都不希望有很多人使用ChatGPT。


我们的GPU非常短缺,使用我们产品的人越少越好。


如果人们用得越少,我们会很开心,因为我们没有足够的GPU。



OpenAI许多用户都在抱怨API的可靠性和速度,对此Sam Altman解释道,原因也是GPU太缺了。


训练GPT-5,需要5万块H100,但此前曾有报道称,英伟达最好的芯片H100,将在2024年之前就会售罄。


如果市场上GPU跟不上,将会阻碍OpenAI提升和训练新模型的能力。


如今到处奔走的Altman,能为建立晶圆厂筹到数十亿甚至数千亿美元的资金吗?能维持厂子的运营吗?


目前我们只知道,他的举动有可能改变整个代工市场的格局。


参考资料:

https://www.tomshardware.com/tech-industry/artificial-intelligence/openais-sam-altman-raises-billions-to-build-chip-empire-report

https://the-decoder.com/gpt-4-successor-reportedly-a-major-upgrade-openais-altman-in-talks-with-tsmc-for-ai-chips/

https://www.ft.com/content/1cdaadc3-b384-4f50-88ff-291c062c8376


本文来自微信公众号:新智元 (ID:AI_era),作者:新智元

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定