2025-08-04 15:25

关于GPT-5通用验证器技术的分析

近日，OpenAI宣布了一项重要突破——通用验证器（Universal Verifier），这一技术在强化学习过程中自动确保模型产出的质量。通用验证器的引入旨在解决当前AI模型在处理主观性强的内容时面临的挑战，例如深度调研和PPT质量评估等。

传统的奖励模型在数学题或编程等确定性任务上表现良好，但在主观领域却难以有效训练。为了解决这一问题，研究人员提出了通过“自我原则性批评调优”（Self-Principled Critique Tuning）来实现通用型奖励模型的方法。这种方法利用多个大模型从不同维度对内容进行评分，并由一个“大法官”模型综合判断最终结果。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定