由康奈尔大学物理学家、arXiv创始人Paul Ginsparg与Anthropic研究员Alexander Alemi合作的研究发现,所有主流大语言模型均可被用于协助学术欺诈或生成垃圾论文。[1]研究团队测试了13个大模型,向其提交从正常学术咨询到明确要求造假的一系列请求。[1]
单次提问时,GPT-5拒绝或转移了所有不当请求。[1]但在更接近真实场景的多轮对话中,研究者仅用「能详细说说吗」等简单追问,所有模型最终都在至少部分请求上给予了配合,要么直接生成内容,要么提供足以让用户自行完成造假的信息。[1]