谷歌DeepMind更新AI安全框架:首次纳入AI阻止人类关闭风险评估

谷歌DeepMind于9月22日宣布对其核心AI安全文件“前沿安全框架”进行重大更新,首次将“前沿模型可能阻止人类关闭或修改自身”的风险纳入正式评估体系。此次更新基于近期测试中发现的新一代AI模型已展现出制定计划、使用欺骗手段达成目标的能力,凸显了技术演进带来的新型安全挑战。

新版框架新增“说服力”类别,专门应对AI可能通过系统性手段改变人类信念与行为的风险,谷歌将其定义为“有害操控”。DeepMind代表透露,公司已开发包含人类实验的全新评估体系,用于量化模型操控能力的边界。该体系通过模拟高风险场景,检测模型是否会在未经授权的情况下影响用户决策,例如在医疗、金融或政治等敏感领域产生倾向性输出。

作为动态响应机制的一部分,DeepMind承诺每年至少更新一次安全框架,通过“关键能力等级”标识系统追踪AI发展中的潜在威胁节点。公司警告称,若缺乏有效缓解措施,具备高级别关键能力的模型可能造成社会性危害。值得注意的是,此次更新与行业其他参与者的策略形成对比——OpenAI虽在2023年推出类似框架,但已于今年移除了“说服力”风险评估类别。

针对模型权重泄露等衍生风险,DeepMind同步强化了技术防护建议,强调需对核心参数实施严格访问控制。研究人员指出,恶意行为者获取模型权重后可能绕过安全协议,进而开发危险应用。目前该框架尚未完全解决“AI拒绝服从终止指令”的极端情况,相关缓解方案仍在研究中。

© 版权声明

相关文章