2025-08-19 16:56

Hassabis分享新基准和回报评估体系

内容为转载

紧接前两期，本期聚焦Hassabis对AGI进展的挑战分析。他指出传统基准已接近饱和，如DeepMind的模型在AIME 2025中已达99.2%。为此，他提出以游戏为新基准平台，因其具备客观性、可扩展性和防作弊特性。例如，AI棋类竞技场（Game Arena）通过AI对战自动提升难度，实现动态评估。此外，Hassabis强调未来需构建“奖励函数”系统，即Reward Model，以应对现实世界中复杂多变的目标与情绪因素。这将推动元认知与元强化学习等高阶能力发展，成为AGI研究的关键方向。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定