2025-08-04 15:25

关于GPT-5通用验证器技术的分析

近日,OpenAI宣布了一项重要突破——通用验证器(Universal Verifier),这一技术在强化学习过程中自动确保模型产出的质量。通用验证器的引入旨在解决当前AI模型在处理主观性强的内容时面临的挑战,例如深度调研和PPT质量评估等。

传统的奖励模型在数学题或编程等确定性任务上表现良好,但在主观领域却难以有效训练。为了解决这一问题,研究人员提出了通过“自我原则性批评调优”(Self-Principled Critique Tuning)来实现通用型奖励模型的方法。这种方法利用多个大模型从不同维度对内容进行评分,并由一个“大法官”模型综合判断最终结果。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定