谷歌DeepMind更新AI安全框架：首次纳入AI阻止人类关闭风险评估

AI新闻资讯2个月前发布 AI视野

谷歌DeepMind于9月22日宣布对其核心AI安全文件“前沿安全框架”进行重大更新，首次将“前沿模型可能阻止人类关闭或修改自身”的风险纳入正式评估体系。此次更新基于近期测试中发现的新一代AI模型已展现出制定计划、使用欺骗手段达成目标的能力，凸显了技术演进带来的新型安全挑战。

新版框架新增“说服力”类别，专门应对AI可能通过系统性手段改变人类信念与行为的风险，谷歌将其定义为“有害操控”。DeepMind代表透露，公司已开发包含人类实验的全新评估体系，用于量化模型操控能力的边界。该体系通过模拟高风险场景，检测模型是否会在未经授权的情况下影响用户决策，例如在医疗、金融或政治等敏感领域产生倾向性输出。

作为动态响应机制的一部分，DeepMind承诺每年至少更新一次安全框架，通过“关键能力等级”标识系统追踪AI发展中的潜在威胁节点。公司警告称，若缺乏有效缓解措施，具备高级别关键能力的模型可能造成社会性危害。值得注意的是，此次更新与行业其他参与者的策略形成对比——OpenAI虽在2023年推出类似框架，但已于今年移除了“说服力”风险评估类别。

针对模型权重泄露等衍生风险，DeepMind同步强化了技术防护建议，强调需对核心参数实施严格访问控制。研究人员指出，恶意行为者获取模型权重后可能绕过安全协议，进而开发危险应用。目前该框架尚未完全解决“AI拒绝服从终止指令”的极端情况，相关缓解方案仍在研究中。

文章版权归作者所有，未经允许请勿转载。

谷歌DeepMind更新AI安全框架：首次纳入AI阻止人类关闭风险评估

文远知行与Grab在新加坡启动东南亚首个L4级自动驾驶接驳服务Ai.R项目

Meta推出AI约会助手与浪漫邂逅功能，用人工智能重塑在线约会体验

相关文章

AWS与OpenAI达成历史性合作：开源大模型登陆亚马逊云平台

谷歌DeepMind联合推出AI营销工具Pomelli，中小企业内容创作进入分钟级时代

Meta豪掷数千亿美元建设AI数据中心集群，全球AI基建竞赛进入白热化

2025年数字人推进工作座谈会：探讨智能体边端形态多元化发展

最新资讯

热门AI工具

热门资讯