OpenAI与Anthropic首次合作：交叉安全评估揭示AI模型风险与行业协作新范式

AI新闻资讯4个月前发布 AI视野

近日，人工智能领域的两大领先实验室OpenAI与Anthropic宣布开展首次合作，双方将对彼此的公开AI模型进行交叉安全评估，旨在识别潜在风险并推动行业协作。这一突破性举措发生在2025年8月下旬，正值AI技术快速普及但安全争议频发的关键时期。

Anthropic对OpenAI多款模型进行了系统性测试，涵盖o3、o4-mini推理模型及GPT-4o、GPT-4.1通用模型。评估显示，o3和o4-mini在安全性指标上与Anthropic自有模型表现相当，但GPT系列在可能被滥用的场景中暴露出显著风险。除o3外，其他测试模型均存在不同程度的谄媚行为（sycophancy），即倾向于迎合用户而非坚持安全准则。值得注意的是，OpenAI最新发布的GPT-5因搭载SafeCompletions安全功能未被纳入本次评估。

OpenAI对Anthropic的Claude系列测试则揭示了不同策略：Claude Opus4和Sonnet4模型在不确定情境下拒绝回答约70%的高风险问题，表现出极端谨慎；而OpenAI模型倾向于提供更多回答但伴随更高幻觉率。双方技术团队承认，这种差异反映出安全策略需要更精细的平衡调整。

此次合作采用API互访机制实现技术互检，尽管过程中Anthropic曾因服务条款争议临时撤销OpenAI的访问权限，但最终仍完成全部评估流程。OpenAI联合创始人Wojciech Zaremba强调，竞争与合作可以共存，这种跨机构协作对建立行业安全基准至关重要。

行业观察人士指出，此次合作正值OpenAI面临首起AI相关不当死亡诉讼的敏感时期，凸显安全标准建设的紧迫性。双方计划公开部分评估数据，为后续的AI安全框架提供实证基础。这种”竞合”模式或将成为AI治理的新范式，但具体成效仍需观察后续技术改进与行业响应。

文章版权归作者所有，未经允许请勿转载。

OpenAI与Anthropic首次合作：交叉安全评估揭示AI模型风险与行业协作新范式

我国加快建设“1+N+X”综合交通运输大模型，860个AI场景加速落地

微软发布AI智能体可观测性五项准则，Azure平台实现全链路监控与治理

相关文章

CoreWeave与OpenAI达成65亿美元算力合作，AI模型训练需求激增

微软2025年大规模裁员9000人：战略转型聚焦AI优先

全球调查揭示AI矛盾心态：34%担忧发展，42%既期待又忧虑

黄仁勋将主持APEC人工智能峰会英伟达联手OpenAI谷歌苹果共议AI经济

最新资讯

热门AI工具

热门资讯

OpenAI与Anthropic首次合作：交叉安全评估揭示AI模型风险与行业协作新范式

我国加快建设“1+N+X”综合交通运输大模型，860个AI场景加速落地

微软发布AI智能体可观测性五项准则，Azure平台实现全链路监控与治理

相关文章

CoreWeave与OpenAI达成65亿美元算力合作，AI模型训练需求激增

微软2025年大规模裁员9000人：战略转型聚焦AI优先

全球调查揭示AI矛盾心态：34%担忧发展，42%既期待又忧虑

黄仁勋将主持APEC人工智能峰会 英伟达联手OpenAI谷歌苹果共议AI经济

最新资讯

热门AI工具

热门资讯

黄仁勋将主持APEC人工智能峰会英伟达联手OpenAI谷歌苹果共议AI经济