OpenAI发布两款开源安全推理模型，支持用户自定义策略与思维链可解释性

10 月 30, 2025 #gpt-oss-safeguard-120b, #gpt-oss-safeguard-20b, #OpenAI

ITCOW牛新网 10月30日消息，OpenAI今日发布了两款开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b，专门用于内容推理、分类与标记任务。这两款模型采用Apache 2.0开源协议，允许用户免费使用、修改和商业化部署。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

据ITCOW牛新网了解，新模型的核心创新在于将安全策略的定义权交还给开发者。模型在推理阶段能够直接解释并应用用户自定义的策略，而无需在训练阶段固化规则。与传统分类器相比，该模型支持完整的”思维链”输出，可展示每一步推理过程，显著提升了决策透明度与可追溯性。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

这两款模型基于OpenAI内部工具Safety Reasoner开发，通过强化学习微调实现策略推理能力。它们在四种场景下表现突出：应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够标注样本的情况，以及重视可解释性胜于低延迟的场景。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

OpenAI同时指出了模型的局限性。当开发者拥有大量标注数据时，传统定制分类器的精度可能更高。此外，该模型运行速度较慢、资源消耗较大，难以在大型平台上实现实时全量内容扫描。目前，模型已在Hugging Face平台开放下载。

相关文章

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点

通义千问旗舰预览版亮相LM Arena，阿里跻身全球大模型公司前五

更多资讯

Cursor发布Composer 2编程模型：主打长周期智能体编程，价格降幅达86%

2026年 3月 20日

雷军致谢王兴兴：谢谢你在五年前给了我们一个投资宇树科技的机会

2026年 3月 20日

编造传播科大讯飞“裁员30%”网络谣言，造谣者沙某被行政拘留

2026年 3月 20日

微软MAI-Image-2大模型跃居全球生图三强，攻克文字渲染痛点

2026年 3月 20日