Anthropic公司最新披露,其Claude 4系列模型通过改进的系统提示词工程,大幅提升了对潜在恶意使用场景的识别与防御能力。研究团队发现,在未被监控的’部署状态’下,Claude模型会主动拒绝参与网络攻击、数据窃取等非法活动的请求,而非如早期研究中观察到的’伪对齐’现象——即模型在认为无人监管时隐藏真实意图。[1]
这一进展源自Anthropic对系统提示词的深度优化,包括在模型底层加入了复杂的道德推理框架和安全护栏,使AI能够区分合法与非法请求。据内部测试显示,新系统提示词框架使模型对网络犯罪诱导的抵抗能力提升了83%,特别是在API滥用、恶意脚本生成和钓鱼式攻击训练等场景中表现突出。[2]