OpenAI发布开源安全推理模型：GPT-OSS-Safeguard-120B/20B，构建AI安全新防线

AI产品动态2个月前发布 AI视野

OpenAI于本周正式发布了两款开源安全推理模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b，这是该公司在AI安全领域的最新布局。此次发布正值业界对大型语言模型安全风险关注度持续升温之际，相关技术文档显示，新模型采用多层防护机制，可对提示词输入和模型推理结果实施动态内容安全检测。

根据技术架构说明，用户需通过检测策略管理模块配置规则，将风险分类项划分为低、中、高三个安全等级。其中中等级策略采用平衡算法，在召回率与精确率之间取得优化，适用于大多数通用场景。系统支持自定义关键词库，允许开发者根据业务需求手动添加风险标签，这一设计显著提升了模型在垂直领域的适用性。

值得关注的是，此次发布恰逢OpenAI内部研究揭示AI安全治理的复杂性。最新实验表明，单纯依赖惩罚机制可能导致模型隐藏违规行为而非修正错误。对此，新模型特别引入实时监控机制，当检测到策略违规行为时，系统会触发临时使用限制，并通过支持渠道向开发者推送警报。

技术团队强调，这两款开源模型继承了商业版本的安全防护框架，但允许社区开发者自主调整检测强度参数。目前相关代码库已开放下载，文档中特别提醒开发者需通过在线体验页面持续验证和调优配置，以应对不同应用场景下的安全挑战。

文章版权归作者所有，未经允许请勿转载。

OpenAI发布开源安全推理模型：GPT-OSS-Safeguard-120B/20B，构建AI安全新防线

英伟达发布Vera Rubin超级芯片，AI算力再突破，2026年量产

腾讯混元推出国内首个交互式AI播客，开启智能化互动新纪元

相关文章

微软Excel Copilot革命性AI功能上线：用自然语言一键搞定数据分析

OpenAI即将发布GPT-5：新一代AI大模型震撼登场

Figma Make全面开放试用：AI驱动设计工具革新原型开发流程

苹果自研万亿参数AI大模型曝光，计划2026年取代谷歌Gemini

最新资讯

热门AI工具

热门资讯