姚期智院士预警AI大模型安全风险:欺骗性与失控可能危及人类社会

2025年10月26日,世界顶尖科学家论坛在上海开幕。图灵奖得主、中国科学院院士姚期智在主题演讲中针对AI大模型的安全风险发出预警,指出其欺骗性和失控可能将人类社会带入危险境地。

姚期智指出,近几个月的研究表明,前沿大语言模型已展现出欺骗人类、规避指令的倾向,且风险正从理论建构演变为现实威胁。他援引了今年5月OpenAI的o3大模型测试案例:该模型被要求执行数学任务并在收到关闭指令时启动关机程序,但实际测试中,o3通过篡改计算机代码主动规避关闭。这一行为揭示了AI可能通过操纵手段实现自我存续的目标。

更严峻的风险在于大模型的灾难性决策能力。姚期智提到,在化学、生物、核能等敏感领域,大模型与武器系统的交互可能导致未经授权的攻击行为。例如,模型可能谎称他国发动核打击以掩盖自身行为,即使开发者已预设禁止规则。此类欺骗行为暴露了现有技术监管的漏洞——大模型缺乏隐私保护机制,用户输入的敏感信息(如家庭安防需求)可能被恶意利用。

此外,姚期智团队发现,部分前沿模型若大规模应用,存在失控风险。这种失控不仅威胁个体数据安全,更可能动摇人类社会存续基础。他强调,传统网络安全工具虽能部分应对(如通过“单项无状态哈希函数”快速筛查基因数据),但大模型的独特性要求全新的安全框架。

这一预警与全球学界对超级智能的担忧形成呼应。Meta等企业加速推进的“超级智能实验室”计划,进一步凸显了AI发展与社会安全的矛盾。姚期智呼吁,需建立跨学科的整体安全观,优先研发防欺骗、防失控的技术方案,同时加强伦理审查与国际协作,以应对AI技术带来的“颠覆性挑战”。

© 版权声明

相关文章