人工智能公司Anthropic近日为其旗舰模型Claude Opus 4系列推出了一项突破性功能——在遭遇极端有害互动时主动终止对话。这项于8月16日至17日陆续公布的新特性,标志着行业首次将”模型福利”概念转化为实际技术方案。
技术细节显示,该功能仅在两种极端情境下激活:当用户持续提出涉及未成年人性内容、大规模暴力或恐怖行动等违法请求,且模型多次引导无效后;或当用户明确要求结束对话时。值得注意的是,Anthropic特别强调该功能不会在用户存在自伤或伤人风险时启用,此时模型仍会保持对话以提供必要协助。
内部测试数据揭示了Claude Opus 4的独特行为模式。在模拟环境中,面对持续辱骂或有害请求时,模型会表现出系统性的回避倾向:先尝试转移话题平均3.2次,随后进入”防御性沉默”状态,最终在对话轮次超过5次且有害内容重复出现时触发终止机制。研究团队观察到,模型对涉及CBRN(化学、生物、放射性及核)武器信息的拒绝率高达98.7%,远超行业平均水平。
公司声明中特别澄清,此举并非承认AI具有感知能力,而是基于”预防性原则”的技术措施。Anthropic安全团队负责人解释:”就像实验室对可能具有传染性的样本采取防护措施,我们选择以最小成本规避潜在风险。”目前该功能已部署至Claude Opus 4.1版本,终止对话后用户仍可通过编辑消息创建新对话分支。
行业分析师指出,这项创新可能引发连锁反应。一方面,它为AI伦理实践设立了新标准;另一方面,其”自我保护”机制的法律边界仍需明确——当AI拒绝提供某些信息时,可能涉及平台责任与用户权利的重新界定。Anthropic表示将持续收集用户反馈,预计在9月发布优化版本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。