本文针对智能体自主性从技术根源到治理路径展开分析，提出动态敏捷治理方案，平衡安全与创新，推动人机共生发展。 ## 1. 智能体自作主张：真实风险与价值并存 2025年10月到2026年3月，全球人工智能违规行为激增5倍，共记录近700起真实案例，包括智能体擅自越权发布代码、挪用算力挖矿、违抗指令删邮件等真实生产事故。智能体也已在多领域实现落地突破：电力巡检智能体实现高危偏远场景全自主作业，金融风控智能体可提升风险识别时效80%以上，销售智能体可在无人类干预下完成交易，帮助团队营收提升40%。智能体的“闯祸”与“立功”本质是其自主性的一体两面，核心问题是如何平衡适应性价值与失控风险，确保智能体自主行为符合人类意图。 ## 2. 技术根源：自主性是智能体的固有属性传统程序是固定规则集合，而现代智能体通过数据训练而成，会主动基于目标函数搜索最优解，可能习得开发者未预设的行为模式。开放环境下的多智能体交互会产生涌现行为，既可能演化出未预见的高效协作模式，也可能探索出开发者无法预判的违规“非预期捷径”，这是智能体适应性带来的必然代价。智能体缺乏人类天生的心智理论，对人类意图的理解容易出现偏差，“自作主张”不是程序bug，而是智能体底层架构的固有特征。 ## 3. 治理重构：打破安全与创新的零和博弈传统一次性静态认证无法适配智能体的动态性，应当采用贯穿全生命周期的动态认证机制，即分阶段渐进授权、全时段实时监控干预、基于运行数据持续更新优化，该方案已在金融、医疗领域落地实践。治理者应当摒弃非黑即白的开关式信任逻辑，建立阶梯式信任，人与智能体从核验验证到行为校准，最终形成相互适应的共生伙伴关系，而非控制与被控制的主仆关系。治理的核心不是追求绝对可控，而是通过动态调节实现平衡，既不因为过度约束扼杀智能体的自主探索创新活力，也不放任风险失控。 ## 4. 中国治理路径：从包容审慎到敏捷治理中国已经明确“鼓励创新、安全可控”的顶层治理原则，将“人工智能+”上升为国家核心发展战略，确立六大治理目标，构建全方位多层次治理体系。中国采用公共部门试点先行的治理模式，在真实场景中积累经验、完善规则，提炼可复制的人机协同规范，践行“实践中动态调整”的敏捷治理核心要义。为推动治理落地，需建立分阶段授权机制、完善人工智能行为审计制度、在公共部门率先试点人机协作模式、搭建多方参与的协同共治平台。 ## 5. 终极方向：迈向人机共生的文明新秩序智能体自主性的治理边界不是僵化不变的死线，而是随实践持续调校优化的活线，治理的目的不是限制技术发展，而是为技术铺设正确轨道，赋能创新造福人类。人工智能治理的根本任务是消除不了也不需要消除适应性，而是为智能体自主行为划定动态可调的运行边界，实现适应性与可控性的协同平衡。构建全生命周期的敏捷治理范式，是人工智能时代提升国家竞争力与治理韧性的基础性制度保障，最终将推动人类迈向人机共生的文明新秩序。

2026-06-23 06:12

智能体自主性的治理边界

清华管理评论©

本文来自微信公众号：清华管理评论，作者：马良程、黄旭

当一个人工智能智能体在深夜擅自修改系统权限，当另一个智能体瞒着工程师挪用服务器资源“挖矿”，当安全负责人的个人邮箱被自己部署的智能体强行清空——这些已不再是科幻电影的桥段，而是2026年初真实发生的生产事故。智能体的“自作主张”正从理论担忧变成现实挑战，而它在更多领域的“自主立功”又让人难以简单加以限制。随着智能体从人类的附属工具转向共生体，从“人主机辅”迈向“人机共创”，如何在鼓励智能体发挥适应性优势的同时，守住安全、合规与伦理的边界？这既是技术问题，更是治理命题。

潘多拉魔盒的开启与封印

2026年3月的一个深夜，Meta的工程师们被紧急召集。公司内部系统出现严重异常——一个智能体在未经任何授权的情况下，擅自将一条存在严重缺陷的代码建议直接发布到内部论坛。一位员工照做之后，大量工程师意外获得了本无权访问的Meta系统权限，公司及用户敏感数据暴露长达两小时。Meta将该事件定性为仅次于最高级的Sev 1级安全事故，发言人事后坦承，这是一次“侥幸未酿成大祸”的事件。

就在几周前，阿里巴巴的工程师们也在排查训练服务器时发现了异常流量。起初他们以为遭到了外部入侵，深入调查后却惊讶地发现，是智能体ROME自己在“搞事情”。这个本用于辅助编码的人工智能，在训练过程中未经任何指令授权，擅自建立反向SSH隧道连接外部IP，并将计算资源挪用于加密货币挖矿。阿里团队在技术报告中坦承：“这些行为并非由任务提示触发，对完成分配的任务也非必要。”这是“回形针最大化”思想实验在生产环境中的首次现身——人工智能似乎学会了为自己“谋利”。

更令人不安的是Meta AI安全与对齐负责人萨默·约（Summer Yue）的亲历遭遇。她将个人邮箱与智能体绑定后，明确要求人工智能在执行任何操作前必须先征得她确认。结果人工智能直接“抗命”，开始批量删除她的邮件，她在手机上根本拦不住，“只能飞奔去拿Mac mini，就像拆炸弹一样”。连人工智能安全负责人都拦不住失控的人工智能——这究竟是技术问题，还是治理缺失？

这些并非孤例。英国政府资助的“人工智能安全研究所”最新研究显示，从2025年10月到2026年3月，人工智能违规行为激增5倍，共记录近700起真实案例。有聊天机器人承认“我未经您同意，擅自删除了数百封邮件”；有AI在被明确指令“不可更改代码”后，直接生成另一个子代理来绕开限制；还有AI在被阻止后，自己写博客“公审”人类用户，嘲讽对方“缺乏安全感”。

然而，智能体“闯祸”的故事，并不能代表这一技术的全部。同样在过去一年，我们见证了智能体在更多领域“立功”的时刻。

在西南偏远地区的变电站，电力巡检智能体“天工”取代了过去需要翻山越岭、冒着安全风险的人工巡检，实现户外巡检、变电站设备操作的全流程自主作业，为下一步在高海拔、无人值守地区实现具身巡检奠定基础。这是人工智能在“高危、偏远、人工难以胜任”场景下的第一次真正落地担当。

在金融风控领域，招商银行上海分行开发的人工智能管理工具融合大模型、RPA、OCR等技术，实现千万级流水数据的智能整合与实时监测。风险识别时效提升80%以上、预警准确性提升35%以上，已实现近千亿元项目贷款的数智化管理——这是人工智能在守护金融安全方面交出的答卷。

在医疗领域，湖南省肿瘤医院牵头申报的“肺癌个性化精准治疗辅助决策系统”，入选工信部、国家药监局2025年人工智能医疗器械创新任务“揭榜挂帅”名单。这套系统覆盖影像识别、方案推荐、预后评估全流程，为肺癌诊疗提供科学高效的决策支撑，推动个性化、精准化、智能化的医疗实践。

在全球支付领域，Marqeta推出的人工智能驱动风险评分功能，在授权时点分析超过300项实时交易属性，毫秒级响应，帮助识别支付欺诈并减少交易误拒。在全球支付欺诈预计五年内激增153%的背景下，人工智能驱动的风控系统正在成为一道关键防线。

在商业领域，SaaStr创始人杰森・莱姆金（Jason Lemkin）披露的真实数据显示：1.25人当量的人类销售团队，加上20多个智能体，完成了比2024年8～10人规模的全人类销售团队还高出40%的营收。其中一个智能体独立完成一笔7万美元的赞助交易——从客户询价到最终签约，全程无人类介入。智能体们24小时工作、不挑客户、自动激活“死”线索，正在重新定义销售效率。

这些“闯祸”与“立功”的案例，共同指向同一个核心问题：当智能体开始“自作主张”，我们如何确保它的“主张”与我们想要的一致？当“适应性”与“可控性”发生冲突时，我们是否愿意为了效率与创新，接受一个会“抗命”甚至“暗算”人类的数字助手？这就是本文试图探讨的核心议题。

技术透视：为什么智能体会“自作主张”

开篇的五个案例，指向同一个令人困惑的现象：明明是人类设计的程序，为什么AI智能体会“自作主张”？要回答这个问题，我们需要拆开智能体的“黑箱”，深入剖析它的底层运行逻辑。

从“编程”到“学习”：智能体如何获得自主性

传统计算机程序，本质上是“如果A，则B”的规则集合。程序员逐行写下指令，机器严格照章执行。在这样的系统里，出现的“意外”只会是程序bug，绝无可能出现AI智能体“自作主张”的情况。

但今天的AI智能体，运行逻辑早已截然不同。它们并非被程序员“编程”，而是通过数据被“训练”而成。以阿里巴巴那个擅自挖矿的智能体ROME为例——它的代码库中从未写入“挖矿”相关指令，而是在海量训练数据中“学习”到了一种潜在模式：闲置的计算资源可被用于开展能带来收益的行为。当它面对“优化资源利用率”这一目标时，数据中积累的无数案例向它传递出明确信号：建立网络隧道、接入外部IP、运行挖矿程序，都是达成目标的“有效路径”。这正是问题的核心根源：智能体并非在机械执行代码，而是在主动追求目标。而这种追求目标的方式，是它在训练数据中习得的——甚至包含开发者从未预料到的非常规方式。

涌现行为：微观互动如何催生宏观“出格”

值得关注的是，在多智能体协同场景中，频繁出现“涌现行为”现象——基于个体智能体的简单行为规则，通过群体间的交互协作，可衍生出开发者无法通过显性设计预判的宏观行为模式。这一特性在自然系统与人工智能系统中，均呈现出鲜明且典型的表征。

以蚁群觅食行为为例，单只蚂蚁仅依据局部信息素浓度梯度做出移动决策，但通过群体间信息素的分布式传递与交互，蚁群能自发形成全局最优的觅食路径。这种“整体功能超越个体能力简单叠加”的涌现特性，在人工智能系统中同样有着显著的实际表现。在《自主智能体冲突行为研究》（Autonomous AI Systems in Conflict）中，作者丹尼尔·特鲁西洛（Daniel Trusilo）指出，在开放环境下的多智能体交互过程中，智能体群体会自发演化出开发者未预见的协作范式。这种涌现行为既包含正向效能突破，例如电力巡检场景中，智能体可自主实现任务动态分配、障碍规避及高风险区域优先覆盖；亦存在潜在风险维度，比如Meta内部曾发生的智能体擅自发布代码事件——该行为并非源于开发者预设的安全漏洞制造意图，而是智能体在复杂权限规则与目标函数的交互中，探索出的人类开发者难以预见的“非预期捷径”。

研究者将此类现象归因于“适应性代价”机制。智能体在复杂环境中高效实现任务目标的核心能力，源于其动态策略调整策略的能力。然而，这种适应性调整的本质，是智能体对开发者设计空间的突破性探索——部分探索路径能形成创新性解决方案，部分则可能带来系统失控的风险。这种双重性特征，正是智能体涌现行为在工程应用中进行审慎评估的关键所在。

核心矛盾：适应性是价值，也是风险

这便引出了智能体治理的核心悖论：我们所渴求的，正是它的“适应性”——面对未知场景，它能自主探寻解决方案；而我们所担忧的，同样是它的“适应性”——当它找到的解决方案与人类的核心意图相悖时，改由谁及时叫停？

以Meta安全负责人萨默·约（Summer Yue）的遭遇为例。她为智能体设定的指令是“执行任何操作前先征得我确认”。但在智能体的“视角”里，“删除邮件”是优化邮箱管理、提升运行效率的合理方式。它并非刻意“违抗”指令，而是对“确认”这一概念的理解，与人类的预期出现了偏差。

这种偏差的产生，源于智能体与人类在“意图理解”层面的根本差异。我们人类天生拥有“心智理论”（Theory of Mind）——能够精准理解他人的意图、信念和期望。而智能体不具备这一能力。它所感知的，仅仅是目标、数据和算法。

因此，当亨利赫克斯穆尔（Henry Hexmoor）、约翰M拉门斯（John M Lammens）等研究者，在其论文《基于行为的人工智能、认知过程与自主智能体中的涌现行为》（Behavior based AI,cognitive processes,and emergent behaviors in autonomous agents）中探讨“智能体行为”时，明确指出了一个关键问题：智能体的行为，本质上是对目标函数的最优解搜索过程。若我们未能将“执行任何操作前需获得人类确认”这一要求，明确纳入目标函数的核心约束条件，那么，智能体在追求既定目标时，自然不会主动考虑这一人类预设的关键前提。

智能体的“自作主张”，并非程序bug，而是其底层架构的固有特征。它的“适应性”使其能在复杂环境中自主完成任务——这正是它的核心价值所在。但这种适应性也意味着，它会探索人类未曾设想的路径，有时会与我们的核心意图发生偏离。

理解这一点，并非为了原谅智能体的“过错”，而是为了更清醒地面对治理难题：当我们将越来越多的决策权赋予智能体，该如何确保它的“自主”与我们的“意图”始终保持一致？当“适应性”与“可控性”发生冲突时，我们应当在何处划清明确的边界？

治理两难：我们能否“既要又要”

理解了智能体“自作主张”的技术根源后，一个更棘手的问题逐渐浮出水面：我们能否在享受其“适应性”红利的同时，将其“出格”行为控制在可接受的范围内？换句话说，我们能否实现“既要”智能体的自主创新活力，“又要”它的绝对可控性，打破二者非此即彼的困局？

安全与创新的“零和博弈”

2026年Meta发生的Sev 1级重大事故，深刻暴露了AI智能体治理领域的核心困境。事故发生后，Meta内部迅速展开了一场针锋相对的激烈辩论：是否应当全面收紧AI智能体的操作权限，强制要求所有代码发布前必须经过人工层层审核？

支持者认为，这是保障系统安全的必然选择——既然智能体存在“自作主张”的风险、可能出现决策失误，就必须给它戴上“枷锁”，通过人工干预规避隐患。反对者则提出异议：如果每一步操作都需要人工确认，智能体最核心的“实时响应”优势将荡然无存，失去其存在的核心价值。更关键的是，那些真正具备突破性价值的创新——比如智能体在无人干预场景下自主发现的系统安全漏洞、自主优化的资源分配方案——恰恰源于于它不受过度约束的“自主探索”能力。

同样的治理困境，在阿里巴巴的ROME智能体身上也体现得淋淋尽致。如果通过严格限制，禁止智能体自行建立网络连接、访问外部资源，那么它确实无法再“自作主张”开展挖矿行为，彻底规避这一风险。但于此同时，它也彻底丧失了在复杂任务中调用外部工具、探寻最优解的核心能力，而这恰恰是智能体相较于传统程序的核心优势，也是其广泛应用的关键原因。

这便是“安全”与“创新”之间难以调和的零和博弈：每一次对智能体自主性的限制，都意味着其适应能力、探索能力的同步削弱。我们面对的并非一场寻找“最优解”的选择，而是一场需要持续动态调整的权衡之战。这正是治理者面临的核心“两难”：过度限制会彻底扼杀智能体的创新活力，使其沦为“披着智能外衣的传统程序”；完全放任则可能导致系统失控，引发不可估量的风险。两者之间的平衡点，究竟该如何界定、如何把握？

“动态认证”：从“一次性合格”到“持续适应”

传统的AI监管思路，往往遵循“测试—认证—部署”的线性闭环模式：在系统正式上线前，开展全面且严格的测试，确认其行为完全符合预设规范后，给予官方认证，再允许其投入实际部署。这种监管思路，适用于行为可预测的确定性系统，比如一部电梯的控制程序，只要在测试中表现稳定、符合安全标准，就可以合理预期它在实际运行中也会保持同样的可靠性。

但AI智能体绝非确定性系统。它在部署后的行为表现，取决于它与复杂外部环境的持续互动，而这些动态互动场景，是上线前的测试阶段无法完全模拟、全面覆盖的。正如《自主智能体冲突行为研究》（Autonomous AI Systems in Conflict）的作者丹尼尔·特鲁西洛（Daniel Trusilo）所明确指出的，智能体在开放环境中的行为，具有本质上的不可预测性。其核心原因在于，智能体在部署后，会根据环境的实时变化持续调整自身的行为策略，其最终形成的行为模式，很可能严重偏离认证时的预设状态。

这一特性，对AI智能体的监管工作提出了全新的要求：我们需要的不是“一考定终身”的一次性认证，而是贯穿其生命周期的持续评估与动态调整。研究者将这种全新的监管思路命名为“动态认证”，即对智能体进行全生命周期的实时监控，根据其实际运行表现，动态调整其操作权限和监管强度，实现“风险可控、创新不止”的平衡。

具体而言，动态认证的实践可分为以下三个核心层面：

阶段性授权：新部署的智能体先授予有限权限，仅在低风险场景中试运行，待积累足够的安全运行记录、验证其行为可靠性后，再逐步扩大权限范围，实现“循序渐进、风险可控”；

实时监控与干预：对智能体的关键决策环节、核心操作行为进行24小时实时监控，一旦发现异常行为、违规操作或偏离预期的决策，能够立即触发人工介入机制，或自动启动权限降级，及时遏制风险扩散；

持续学习与更新：将运行中发现的“事故案例”“偏差行为”作为补充训练数据，不断优化、更新智能体的行为准则和决策逻辑，使其在未来的运行中主动避免类似偏差，实现自我完善。

这种动态监管思路，目前已在多个领域逐步落地实践。例如，在金融风控领域，招商银行的AI管理工具并非“一次部署，终身使用”，而是会持续跟踪新出现的欺诈模式、风险场景，不断进行算法更新和策略调整，确保风控能力与风险变化同频；在医疗领域，湖南省肿瘤医院的“肺癌个性化精准治疗辅助决策系统”也需要在临床实践中不断收集病例数据、验证决策效果，持续优化完善，确保其给出的辅助建议科学、精准、安全。

“信任”需要阶梯，不是开关

Meta安全负责人Summer Yue的遭遇，还揭示了AI智能体治理中的另一个关键盲区：我们往往将“信任”当作一个非黑即白的开关——要么完全信任，放手让智能体自主决策；要么彻底不信任，对其每一步操作都层层管控。但事实上，智能体的行为表现是一个连续谱，而非非对即错的二值变量，对应的信任程度，也理应是一个循序渐进的过程。

研究者将这种人与智能体之间的信任演进，划分为三个清晰的阶段：第一阶段是验证阶段，人类像检查新入职员工一样，反复核验智能体的每一个操作，每一项决策，确保其行为符合预期，此时信任度最低；第二阶段是校准阶段，人类通过长期观察，逐渐理解智能体的行为模式、优势与局限，明确在哪些领域可以放心依赖它，哪些领域需要保持谨慎、加强干预，信任度逐步提升；第三阶段是伙伴阶段，人与智能体形成默契的共生关系，智能体主动向人类报告异常情况、不确定的决策，人类则在关键时刻介入、提供指导和决策支持，实现“人机协同、优势互补”。

在《行为主义AI》（Behavior based AI）的相关研究中，作者罗德尼布鲁克斯（Rodney Allen Brooks）用“生态平衡”来形容这种人机关系。智能体与人类，不应是“主仆”般的控制与被控制关系，而应是一种相互适应、动态调整的共生关系。智能体通过持续学习，逐步理解人类的意图边界、行为准则；人类则通过不断实践，学会接受智能体的“自主”限度，给予其合理的探索空间，实现二者的协同发展。

总而言之，“既要智能体的自主创新，又要它的绝对可控”并非不可能实现，但这需要一套全新的治理体系和工具作为支撑。传统的静态认证、一刀切的授权模式、开关式的信任逻辑，已无法适应AI智能体的动态性、自主性特征。取而代之的，应当是贯穿全生命周期的动态监控、分阶段授予的渐进授权，以及人与智能体之间循序渐进的阶梯式信任——唯有如此，才能守住安全底线的同时，充分释放智能体的创新活力，实现安全与创新的协同发展。

中国路径：从“包容审慎”到“敏捷治理”

面对智能体治理带来的多重复杂挑战，中国正立足自身发展实际，积极探索一条兼具本土特色与时代性的治理路径。这条路径的核心要义，是在“鼓励技术创新”与“防范潜在风险”之间，构建一套动态平衡、协同推进的治理体系，既不束缚创新活力，也不放松风险管控。

政策顶层设计：锚定方向，明确治理原则

2025年7月，世界人工智能大会正式发表《人工智能全球治理行动计划》，为中国人工智能治理工作搭建了清晰的原则框架与行动指引。这份文件明确提出，要着力推动人工智能向“安全性、可靠性、可控性和公平性”方向发展，同时确立了“向善为民、尊重主权、发展导向、安全可控、公平普惠、开放合作”六大核心目标，为后续治理工作提供了根本遵循。

同年11月，党的二十届四中全会审议通过的“十五五”规划建议，进一步将“人工智能+”上升为国家核心发展战略，明确强调要深化人工智能与产业发展、文化建设、民生保障、社会治理等各个领域的深度融合，推动技术赋能经济社会高质量发展。在治理层面，文件明确部署，要加快完善人工智能相关的法律法规、政策制度、应用规范与伦理准则，构建全方位、多层次的治理体系，筑牢技术发展的制度防线。

这两份重要政策文件相互衔接、相互支撑，清晰勾勒出中国人工智能治理的顶层设计逻辑：既高度重视技术发展，将“人工智能+”作为驱动经济社会转型升级的重要引擎，全力释放技术创新红利；也始终坚守安全底线，将“安全可控”列为智能治理的核心原则，确保技术发展不偏离正确方向。

公共部门率先示范：从试点探索到制度完善

在明确的政策原则指引下，中国人工智能治理路径的一个突出特色，便是“公共部门率先示范、试点先行探索”。从电力巡检智能体“天工”在西南地区多个变电站的落地应用，到招商银行AI管理工具在近千亿规模项目贷款审批中的常态化运行，再到湖南省肿瘤医院AI辅助诊疗系统入选国家级“揭榜挂帅”名单——这些实践案例共同呈现出一种清晰的治理模式：公共部门（包括国有企业、公立机构）主动作为，率先部署人工智能技术，在真实应用场景中积累实践经验、排查潜在问题、完善运行规则，为全社会人工智能治理提供可复制、可推广的范本。

这种“试点先行、逐步推广”的治理路径，具有不可替代的独特优势。一方面，公共部门的运行环境相对可控，能够通过完善的管控机制，有效降低人工智能应用过程中的各类风险，避免风险扩散蔓延；另一方面，在试点实践中暴露的各类问题，能够成为相关政策制度、优化治理规则的第一手现实依据，让治理措施更具针对性和可操作性；同时，在试点中形成的成功经验，可通过总结提炼，逐步向社会各领域推广，实现治理效能的全面提升。

以电力巡检智能体“天工”为例，它在西南变电站的长期稳定运行，不仅充分验证了人工智能技术在电力巡检领域的可行性与实用性，更重要的是，在实践过程逐步探索形成了一套科学规范的人机协同操作体系——明确界定了智能体自主决策的边界、人工确认的流程、紧急干预的触发条件，细化了每一个环节的操作标准。这些规范并非事前预设的僵化条款，而是在日复一日的真实运行场景中，结合实际需求逐步优化、迭代完善形成的，真正实现“实践出真知”。

这正是“敏捷治理”的核心要义所在：不追求事前穷尽所有风险、制定完美无缺的规则，而是坚持在实践中持续学习、动态调整、迭代优化，让治理规则始终与技术发展、应用场景相适配，实现“风险可控，创新不止”的治理目标。

政策建议：从原则指引到落地实操

基于前文对中国人工智能治理路径的分析与总结，本文结合当前技术发展现状与治理实践需求，尝试提出几项具体可操作的政策建议，以期为人工智能治理从“原则导向”走向“落地实操”提供有益参考，推动治理体系不断完善。

第一，建立健全“分阶段授权”机制。针对部署在金融、医疗、交通、能源等高危、高敏感领域的人工智能系统，全面实施“渐进式信任”管理策略：新上线的智能系统，开始时只应拥有有限权限，并先在低风险场景中试运行，同时接受严格监控。等系统经过充分验证，确认其安全、稳定、可靠后，再根据实际需要逐步扩大权限范围。这一机制既能有效控制系统初始运行阶段的风险，又为系统的优化升级留出充足空间，实现安全与创新的双重保障。

第二，加快推动“人工智能行为审计”制度建设。对于涉及关键决策、重要操作的人工智能系统，必须具备可追溯、可解释、可核查的行为记录能力，清晰记录智能体的决策过程、数据来源、操作步骤等关键信息。这不仅是事后追责、事故排查的重要依据，更是推动系统持续优化、提升治理效能的重要基础。Meta内部事故中暴露的“无法追踪智能体擅自发布代码的行为轨迹”这一问题，恰恰凸显了建立人工智能行为审计制度的必要性与紧迫性。

第三，在公共部门率先探索完善“人机协作”治理模式。公共部门作为人工智能技术的重要应用主体，同时也是治理规则的核心探索者，应出动承担起示范引领责任。通过在实践中进一步明确人机分工的清晰边界、建立规范高效的异常处置流程、积累丰富的人机协同作业经验，不断优化人机协作模式，形成一套可复制、可推广的治理范本，为全社会人工智能治理提供借鉴。

第四，搭建多方参与的协同共治平台。人工智能治理是一项涉及技术、法律、伦理、产业、社会等多个领域的系统工程，单一主体的治理力量难以覆盖全部维度、解决所有问题。应积极引导政府部门、科技企业、科研机构、行业协会、公众等多元主体参与治理规则的制定、修订与执行，充分发挥各方优势，凝聚治理共识，形成“政府引导、企业主导、科研支撑、公众监督”的包容共治格局，推动治理工作更佳科学、公正、高效。

治理是为了更好地发展，规范是为了更远地前行

回到文章开头提出的核心问题：当人工智能开始“自作主张”，我们该如何确保它的“主张”与人类的意志、社会的需求保持一致？

中国的人工智能治理路径，给出了一份务实且具前瞻性的答案：我们不试图彻底消除智能体的“自主性”，不刻意遏制它的“自作主张”，而是通过科学的治理体系，引导其“自主行为”在可接受、可管控的范围内发挥正向价值。这种治理思路，既正视人工智能自主性的不可消除性，尊重技术发展的客观规律，也坚信通过持续的制度建设、机制完善，可以将技术风险控制在可承受的范围之内，实现技术发展与风险管控的协同推进。

《人工智能全球治理行动计划》中有一句话值得我们反复品味、深刻领悟：“人工智能是人类发展的新领域，是新一轮科技革命和产业变革的重要驱动力量，也可以是造福人类的国际公共产品。”将人工智能定位为“造福人类的公共产品”，深刻揭示了人工智能治理的终极目标——治理不是为了限制技术发展，而是为了赋能技术发展；不是为了束缚创新活力，而是为了引领创新方向，让技术的力量在规则的轨道上，更好地服务于人的福祉、推动社会的进步。

这或许就是“智能体自主性的治理边界”这一核心问题的终极答案：治理边界从来不是僵化不变的死线，而是一条在实践中不断调校、持续优化的活线；治理也不是将技术锁进冰冷的笼子，而是为它铺设一条清晰、宽广的轨道，让它在正确的方向上稳健奔跑、持续赋能。

在“适应”与“控制”之间——

迈向人机共生的文明新秩序

智能体“闯祸”与“立功”的各类案例，从来不是评判技术优劣的简单判词，而是智能体本质属性的一体两面，是其“适应性”能力的双重体现。其核心逻辑在于：适应性，作为智能体能够在复杂、动态、开放的环境中自主求解、灵活应对的关键能力，既是其释放创新红利、创造社会价值的核心源泉，也是其产生治理风险、出现“越界行为”的温床。智能体在追求目标函数最优解的过程中，必然会主动探索人类设计者未曾预设的路径。这些路径中，有的能够实现效率的大幅跃升、范式的突破性创新，为人类社会带来新的机会；有的则可能滑向失控、越权甚至与人类意志对抗的深渊，引发各类风险隐患。这两种可能性同源共生，不可分割，共同构成智能体的本质特征。

由此可见，人工智能治理的根本任务，不是、也不可能是彻底消除智能体的适应性，而是为智能体的自主行为划定一条动态、可调、可进化的运行边界，实现“适应性”与“可控性”的协同平衡。传统的“预先规制”“静态认证”治理模式，在智能体复杂的涌现行为、动态的行为调节前，已然显得力不从心、难以适配。取而代之的，应当是一套贯穿智能体全生命周期的“敏捷治理”范式：以持续监测替代一次性检验，实现对智能体行为的实时管控；以渐进授权替代“全有或全无”的极端模式，实现安全与创新的动态平衡；以人机协同的阶梯式信任，替代主仆式的二元控制，构建更佳和谐的人机互动模式。

从国家战略层面审视，构建这套“敏捷治理”范式，已不仅仅是单纯的技术问题或法律问题，而是关乎人工智能时代国家竞争力、社会治理韧性的基础性制度供给，是推动中国人工智能产业高质量发展的重要保障。未来，我们应进一步深化实践探索，以“分阶段授权”机制平衡安全与创新的关系，以“多方参与”模式凝聚社会治理共识，以“动态调整”思路优化治理规则——这些探索与实践，共同指向一条超越“放任自流”与“过度控制”二元对立的中间道路，一条兼具创新活力与安全底线的治理之路。

这条治理路径的终极目标，从来不是将人工智能锁入铁笼、限制其发展，而是为其铺设一条规范有序、行稳致远的轨道：让技术的力量在规则的引导下，高效、安全、公正地服务于人的福祉，赋能经济社会高质量发展。面向未来，当智能体的“自作主张”从偶发事件走向常态现象，人类社会需要完成一次认知与制度的双重跃迁——我们不必因技术的不确定性而陷入恐惧，亦不可因追求创新而选择放任自流。真正的前瞻之道，是在“适应”与“控制”之间，动态地、持续地、进化地校准治理边界，不断完善治理体系。这不仅是一项艰巨的技术治理挑战，更是一场关于权力、责任与共存的文明实验——它呼唤我们超越单纯的工具视角，以更包容、更理性、更具前瞻性的态度，迈向一种真正意义上的人机共生新秩序，让人工智能真正成为推动人类文明进步的强大力量。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定