英伟达400亿美元收购ARM受阻，不妨考虑VMware？-虎嗅网

本文来自微信公众号：CSDN（ID：CSDNnews），作者：马超，题图来自：视觉中国

目前半导体行业的发展可以用冰火两重天来形容，传统的桌面及移动SOC（System on a Chip，系统级芯片）市场已经基本停止增长，而云计算成了各大巨头的兵家必争之地。

在行业整体突飞猛进的基础上，技术之魂帕特·基辛格从VMware回归后，英特尔便开始了史无前例的颠覆式革新，最近他们展示的全新一代计算结构Alder Lake，为x86的未来创新带来了全新的性能分配方案，也让英特尔彻底摘掉了“牙膏厂”的帽子。

另外一家半导体公司英伟达，在今年新品发布会上，也如期拿出了首款CPU芯片Grace，剑指AI云，不过英伟达早于去年欲收购ARM的计划如今受阻，一定程度上也影响了其在云计算领域的脚步。

个人认为英伟达应该对于帕特·基辛格的老东家VMware给予更多的关注，一旦他们用400亿美元收购ARM的交易被监管机构叫停，此时如果能将VMware收入囊中也很可能帮助他们在云数据中心方面变得更强。

毕竟放眼英特尔与英伟达的双“英”大战中，先搞定虚拟化平台的一方将获得极大的竞争优势。

一、Alder Lake vs. Grace，巨头也能起舞

在竞争中，新品的诞生明显都从竞品身上得到了很多有益的灵感，比如Alder Lake本次最大的升级就是引入了能效核与性能核的设计，虽然能效核与性能核这个概念听起来比较陌生，但从本质上看这个概念与ARM的big.LITTLE大小核架构没有什么大的差别，设计思路都是让小核去处理那些对算力要求比较低的问题，大核则专注于处理计算密集型的任务。

不过大小核技术在移动SOC的应用非常容易实现，在手机熄屏待机时用小核工作，而当用户进行游戏或者观看视频时则启动大核，两核中核心各负责一摊，界限分明井水不犯河水，应用效果很好。

但是大小核技术之前一直被认为不适合于云计算场景。由于绝大部分云场景都依赖于SIMD单指令多数据的硬件加速技术，而一般来说传统的小核都不支持AVX512等SIMD指令集，这也让大核在云计算的应用中几乎要全程待命，没有时间休息，所以英特尔在Alder Lake之前一般使用睿频技术也就是通过调节主频来进行能耗的优化。

但这次不一样了，英特尔对小核的优化简直令人瞠目结舌，Alder Lake的小核拥有5000个条目的分支目标缓存区，实现更准确的分支预测；并将指令缓存扩充到64K；簇乱序执行解码器，可在保持能效的同时，每周期解码多达6条指令，直接支持了AVX指令集，并且还能在性能保持一样的情况下，将能耗控制在前代的40%，这样也就让小核几乎可以应对绝大多数云场景，只有少量计算密度极大的场景下才需要大核下场参与，做到这么极致的程度引入大小核的设计完全没问题。

由于Grace和M1都是基于ARM架构的处理器，我们明显能从英伟达的Grace身上看到苹果M1的影子，由于ARM属于RISC精简指令集阵营，指令都是定长的，这使得ARM处理器在指令解码等方面天然比x86更具优势，x86的处理器做到6路解码基本就已经到了能耗极限，但是ARM处理器则可以轻松达到这一目标。根据黄仁勋在大会上的介绍，Grace最大的创新点在于把CPU与GPU之间的通信速度提升了近10倍，“这是一万名工程人员历经几年的研发成果，旨在满足当前世界最先进应用程序的计算需求，其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”

类似于DMA控制器在磁盘与内存之间搭建了一条快速通道一样，Grace体系中GPU核心与CPU核心之间的通信不需要CPU的调度，也不需要占用数据总线的带宽，之前CPU必须将数据从其内存的区域复制到GPU使用的区域，而在Grace的加持下，CPU只需要告诉GPU在内存的某位置有30MB的向量数据，然后就可以去做其它事了，GPU则可以通过Grace复制通道迅速开始计算任务。

这方面的威力我们可以从苹果的正确示范中得到启示，在苹果M1中显卡与内存加在一起只有16G，对比上一代MAC PRO内存128G，光是显存都有16G，不过搭载M1的入门版MAC在进行图像处理等需要CPU与GPU进行协同的运算任务时，至少比上一代顶配的MAC性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理，从而大大提高了CPU与GPU的通信效率，因此英伟达的技术路线肯定也是非常有道理的。

但是这种颠覆式的革新，背后也有隐忧，想在云计算的领域立足恐怕还有很长的路要走。

二、想腾云，虚拟化是必须迈过去的坎

无论是Grace还是Alder Lake想在云计算领域有所作为都必须要迈过虚拟化的坎，比如Grace打通内存、显存的方案，在云计算这种多租户共存的场景下困难很多，在内存、缓存共享的方案下，CPU和GPU必须轮流访问主存储器，这就意味着他们要争夺数据总线的使用权，那么不同租户之间的界限如何划分就成了一个很值得讨论的问题。

在实践中单独一个GPU按照不同租户划分虚拟化能力的方案，都还不完全成熟，而如何将Grace这样的CPU与GPU的融合计算处理器进行虚拟化更不会是一个容易解答的问题。

Alder Lake大小核也是同样的问题，假如用户购买了一台1核的云主机，那么到底买的是大核还是小核呢？如果是大小核的综合体那么如何进行调度呢？为了解决调度难题，Intel在Alder Lake处理器中引入了Thread Director技术，Alder Lake处理器中集成了一个专用的MCU，用来监控当前处理器内核的运行情况，能够监测到每个线程的特征，比如它运行什么样的指令集、它的性能需求如何等等。

在收集完信息之后，它会将收集到的信息反馈给操作系统，而操作将会把这些信息与自己线程调度器相结合，判断是否应该将线程转移到别的核心上。如果与操作系统结合的好，那么一轮信息采集工作仅需要30微秒就能完成，而传统的调度器可能需要100多毫秒才能判断出结论，不过明显可以看到这是一项需要与操作系统进行深度结合的技术，没有软件方面支持，Thread Director发挥不出来效果。从目前的情况看Thread Director已经与Windows 11进行了结合优化，但是在云服务器领域Windows的份额几乎可以忽略不计，而Thread Director如何与虚拟化平台结合以实现资源的隔离，我目前还没有看到任何有关的动作。

对于打造软、硬结合IT生态的重要性，英伟达和英特尔都有很深刻的认识，比如英伟达还与Grace同时发布了Transformers框架Megatron、合成模型Omniverse、药物研发加速库Clara Discovery模型等软件产品，这些技术与英伟达的CUDA联合使用效果是非常好的，当然可能也是因为英伟达的产品全线都太香了，后来还引发了一个真假老黄的史诗级乌龙。

英特尔这次也适时推出了oneAPI的整合框架，基于oneAPI开发软件，无需考虑是CPU还是GPU还是TPU的问题，oneAPI会自动让你的代码在最适合的设备上运行。

但是在云计算虚拟化软件的生态方面VMware是当之无愧的王者，他们的ESXi/vSphere技术栈在管理的虚拟化CPU和GPU融合计算平台方面，与英特尔和英伟达都有着巨大的互补性。在云计算领域中“数千万台”服务器将在云端或者边缘运行人工智能，并将通过GPU加速，这是一个上百亿美元的巨大市场，而VMware以其特有虚拟化软件优势，能否成为巨头们下一个竞相收购的对象值得我们观察。

本文来自微信公众号：CSDN（ID：CSDNnews），作者：马超