2025-08-19 16:56

Hassabis分享新基准和回报评估体系

内容为转载
紧接前两期,本期聚焦Hassabis对AGI进展的挑战分析。他指出传统基准已接近饱和,如DeepMind的模型在AIME 2025中已达99.2%。为此,他提出以游戏为新基准平台,因其具备客观性、可扩展性和防作弊特性。例如,AI棋类竞技场(Game Arena)通过AI对战自动提升难度,实现动态评估。此外,Hassabis强调未来需构建“奖励函数”系统,即Reward Model,以应对现实世界中复杂多变的目标与情绪因素。这将推动元认知与元强化学习等高阶能力发展,成为AGI研究的关键方向。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定