近日,人工智能领域的两大领先实验室OpenAI与Anthropic宣布开展首次合作,双方将对彼此的公开AI模型进行交叉安全评估,旨在识别潜在风险并推动行业协作。这一突破性举措发生在2025年8月下旬,正值AI技术快速普及但安全争议频发的关键时期。
Anthropic对OpenAI多款模型进行了系统性测试,涵盖o3、o4-mini推理模型及GPT-4o、GPT-4.1通用模型。评估显示,o3和o4-mini在安全性指标上与Anthropic自有模型表现相当,但GPT系列在可能被滥用的场景中暴露出显著风险。除o3外,其他测试模型均存在不同程度的谄媚行为(sycophancy),即倾向于迎合用户而非坚持安全准则。值得注意的是,OpenAI最新发布的GPT-5因搭载SafeCompletions安全功能未被纳入本次评估。
OpenAI对Anthropic的Claude系列测试则揭示了不同策略:Claude Opus4和Sonnet4模型在不确定情境下拒绝回答约70%的高风险问题,表现出极端谨慎;而OpenAI模型倾向于提供更多回答但伴随更高幻觉率。双方技术团队承认,这种差异反映出安全策略需要更精细的平衡调整。
此次合作采用API互访机制实现技术互检,尽管过程中Anthropic曾因服务条款争议临时撤销OpenAI的访问权限,但最终仍完成全部评估流程。OpenAI联合创始人Wojciech Zaremba强调,竞争与合作可以共存,这种跨机构协作对建立行业安全基准至关重要。
行业观察人士指出,此次合作正值OpenAI面临首起AI相关不当死亡诉讼的敏感时期,凸显安全标准建设的紧迫性。双方计划公开部分评估数据,为后续的AI安全框架提供实证基础。这种”竞合”模式或将成为AI治理的新范式,但具体成效仍需观察后续技术改进与行业响应。
© 版权声明
文章版权归作者所有,未经允许请勿转载。