一个GPT的幽灵在Gemini上空徘徊
2023-12-09 18:11

一个GPT的幽灵在Gemini上空徘徊

本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:骆轶航,题图来自:视觉中国

文章摘要
Google发布Gemini系列大语言模型挑战GPT-4,宣称在学术基准测试中性能超越GPT-4。然而,Gemini在实际应用中存在一些问题,如对时间、几何题和手势动作的理解能力不足。同时,Gemini的宣传视频存在夸张和造假的情况。

• 💥 Gemini Ultra在学术基准测试中超越GPT-4,展示出其在复杂理解和推理方面的潜力。

• 🤔 Gemini存在宣传视频的夸张和造假问题,误导了对其能力的评估。

• 🌍 Google与OpenAI在大语言模型领域形成强烈竞争,Gemini的发布是对GPT系列的直接挑战。

1. 每次Google在生成式人工智能领域祭出大招,都能让人感到一种隐秘且巨大的情绪力量:隐忍、不甘与较量。


2. 在5月的Google I/O上,Google发布PaLM系列模型,即被视为是对彼时风头正盛的GPT-4的强劲挑战。年底毫无预警地祭出Gemini系列大语言模型(包含移动版Nano、基础版Pro和高级版Ultra),在关键性能和基准评测指标上针对GPT的意图更加直接。


3. Google官方声称:在被大型语言模型研究和开发广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项超越了目前GPT–4代表的最先进水平。Gemini标榜“原生多模态”,这让它一开始就在文本、图像、音频、视频和代码等组合模态上进行预训练,故而可能在复杂理解和推理方面有更强表现,特别是解决数学和物理问题。


4. Google不遗余力地强调上述优势——OpenAI走的是“渐进式多模态”的路,先基于文本语料,代码跟进,再图像视频音频,最后把这些能力组合在一起训练。而Gemini从一开始就在多模态语料上训练,再用多模态数据调优,比OpenAI训练GPT的方法“先进”一些。


5. “先进”的多模态训练,理论上能带来更强劲的性能。公布的Gemini Ultra学术基准评测结果大面积超越GPT-4的细节似可说明。但学术基准测试本身就是理论的一部分,并不能真正体现应用的效果。不少人挤兑中国一些大语言模型热衷于基准测试“刷分”,我们该一视同仁,Google的做法与国内大模型冲着超越GPT刷分,本质上没有什么不同。


6. 目前社交平台X上实测Gemini Pro(Bard聊天机器人目前只支持Pro版)的用户已经贡献了不少吐槽。比如它混淆了2023年和2022年的奥斯卡奖获得者,也不会用Python写入两个多边形的交集这种简单函数。我们还发现它识别不出叶子的数量,以及做不对简单的求锐角几何题。即便Gemini Pro对标的是GPT-3.5,它也还是差了点意思。


7. 被人们指出的另一个突出问题是Gemini的宣传视频“造假”:Gemini Ultra对一组手势动作很快做出反应,说这是一个石头剪子布的游戏,但它未被视频显示的功能文档却给出了至少两条提示:“我在做什么?”,“提示,这是一个游戏”。其它的一些测试甚至需要更多的提示问题辅助生成结果,但这个过程在Gemini的官方视频里被省略掉了。以至于大多数不太较真的人高估Gemini的理解能力和反应速度,这不能不说是个误导。


8. 我到现在都记得2017年我在Google I/O的现场,台上的Google员工演示如何通过Google Assistant语音助手直接预订一家餐厅,下面掌声雷动,我也跟着拍巴掌,觉得太棒了。但一个月后即传出这是一个事先准备好的桥段。Google没有造假,但它通常太希望展示其AI能力的无与伦比,太急切地呈现自己的AI乐观主义,以至于经常缩略呈现了背后的过程,也就事实上夸大了效果。


9. 说白了,Gemini视频的夸张呈现,只是说明Google太在意Gemini比GPT强了。它很着急,加上人们对任何跟ChatGPT较劲的任何大模型,特别是巨头的“杰作”,通常都比较苛刻。当然,人们对Google是最苛刻的——毕竟OpenAI选择用Google发明的Transformer架构搞出了划时代的GPT模型,动机之一就是摆脱Google无所不在的AI压制,那谁还不希望看见Google露怯呢。


10. 某种程度上,Google是OpenAI在这个星球上唯一的孪生。包括Meta的LLamA架构都是开源的,以马斯克老师对开源的偏爱,Grok未来大概率也得开源。中国的大语言模型也在不同程度上都走了开源道路。只有OpenAI和Google是坚定闭源的,这就让Google在大语言模型上的进展,本能地与OpenAI形成了强绑定关系。


11. 还有一个戏剧性的张力:每次OpenAI有围绕GPT的大动作,舆论都会喊Google出来挨一回落后就要挨的打。然后Google差不多一定会在OpenAI出招之后的一到两个月,祭出一个新的大招,证明一下你大爷还是你大爷。然后再憋几个月,OpenAI再出招,Google再被喊出来挨打。格局真就会因此改变么?


12. 某种程度看,Google在生态建设上还是比OpenAI落后了一个身位。毕竟这个世界上已经有几百万个开发者自己做的GPTs了。而Google最早要到明年初才能向开发者和企业客户提供强化训练反馈后的Gemini Ultra,让人们在上面开发自己的应用。到那时恐怕GPT Store都已经正式推出来了。我一直有点困惑,Google当年难道不是靠Android的开源夺得苹果半壁江山的么?这次怎么把这个角色让给Meta了?


13. 我真的不是要怪Google,我更期待Google证明自己。我们这群在1990年代末接触互联网的人,对Google是有一些很微妙的特殊感情的。而Google也必须证明自己的AI First战略能结出真正的果实。只是GPT的幽灵在Google徘徊,是一个事实。谁都可以试图摆脱这个幽灵,唯独Google不行,这是它无可选择的对手。


14. 其实Google今天围绕Gemini所做的一切,某种程度上能让我们中国的大语言模型开发者心有共鸣:大家的头顶上都徘徊着GPT的幽灵,这就让大家都试图通过某些努力,证明自己在某些方面比GPT做得更好。


15. Google在Gemini基准测试中采用了一切小“技巧”(采用更复杂的思维链提示和结果选优,而测试GPT只用5次反馈且无提示词)获得了碾压GPT的成绩,类似的测试方法我们是不是听起来很熟悉?中国的大语言模型研发者有没有一种老乡见到了老乡的戚戚然的感觉?


16. 我们经常喜欢将智谱、百度和Minimax的努力与OpenAI做对比,但换一个思路,其实大语言模型的较量,何尝不是百度、智谱、Minimax、Google、Meta、Anthropic和Grox们一起在围攻OpenAI的光明顶?从这个意义上,中国大模型和美国除OpenAI之外的大模型在一个阵营一个战壕里,是抱团也是互相学习的对象。大模型的百草我们这些神农尝多了,就发现我们中国的大模型不是比美国的大模型差,只是不如ChatGPT,就这样。


17. Google这次训练Gemini的另一个值得圈点的地方,是它完全采用了自家的芯片集群——TPU进行的训练。Google官宣TPUs v4和 v5e在通过AI优化过的基础设施上实现了这一大规模训练,可扩展性强且推理最高效。这恐怕是我们听说的一款性能还算强劲的大语言模型,不依赖英伟达的算力和软硬件架构而修成正果的。当然人家TPU是自产自销的,但我看到了“替代英伟达”这件事在大模型训练实操上的可能性和可行性。这对中国的大语言模型训练意味着什么,不言自明。


18. 此外,Gemini Nano也是一个亮点,这是一款尺寸最小的Gemini模型,优先用于G家自产的Pixel 8手机上。“端侧大模型”是近期的一个话题,其实它更接近“小模型”。中国智能手机厂商OPPO、vivo和小米近期都有发布自己的端侧模型,联想则从AI PC的维度也切进了事实上的同一个领域。这次Google加入了这个阵营,应该是一个信号,这件事值得努力,有的做。


19. 其实很神奇。从Google这次Gemini模型的发布,我看到了Google与一众我们熟悉的中国大语言模型开发者同样的境遇和努力:那种隐忍、不甘和较量,那种偶尔展露的在一些基准测试关键指标上跟OpenAI较劲的小手段和小心思,那些试图建立自己生态的步步为营,那种试图摆脱英伟达算力的尝试,以及基于移动优势在端侧模型的努力……面对OpenAI,大家都是一样的。


20. 一个GPT的幽灵,在Gemini的上空徘徊,也在我们每一个中国大语言模型的上空徘徊。


本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:骆轶航

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP