OpenAI称破解AI幻觉问题，现有评估方式或致AI乱猜

OpenAI研究团队近日宣布在解决大语言模型'幻觉'问题上取得突破性进展，其最新GPT-5模型中的'思考'版本（gpt-5-thinking）将事实性错误率较前代模型降低65%，常规版本（gpt-5-main）降低26%。同时，研究人员尖锐指出，当前AI评估范式实际上在'鼓励AI瞎蒙'，因为过度依赖数学和编码基准的测试方法无法真实反映模型在复杂事实场景中的表现，且存在严重数据污染问题。这一双重声明既展示了技术突破，也揭示了AI评估体系亟待系统性革新。

5 来源

事实错误率显著降低：GPT-5的突破性进展

1 来源

评估体系遭质疑：为何现有方法在鼓励AI'瞎蒙'

1 来源

新评估方法与技术路径：如何真正减少幻觉

3 来源

行业连锁反应：评估标准变革将重塑AI发展路线

2 来源

本内容由AI生成