Google DeepMind机械可解释性团队近期公开承认,过去专注于完全逆向工程神经网络的’理论解释性’研究路径存在明显局限。团队核心成员、被誉为’26岁DeepMind传奇人物’的Neel Nanda在内部讨论中坦言:‘我们曾投入大量资源试图完全解构神经网络的内部工作机制,但这些工具大多停留在实验室阶段,难以真正部署到生产环境。’[1]
这一战略调整源于三个关键发现:首先,完全理解神经网络每个参数的理论解释在计算上几乎不可能实现;其次,即使获得完整解释,其复杂性也超出人类工程师的实际应用能力;最重要的是,用户和开发者真正需要的不是’神经网络如何工作’的完整理论,而是’模型在什么情况下会出错’以及’如何预防危险行为’的实用指导。[2]
Nanda指出:‘我们意识到,与其追求完美的理论解释,不如开发能直接提升AI系统安全性和可靠性的实用工具。这种转变不是降低标准,而是将研究焦点从学术好奇心转向解决真实世界问题。’[1]