ITCOW牛新网 10月30日消息,OpenAI今日发布了两款开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b,专门用于内容推理、分类与标记任务。这两款模型采用Apache 2.0开源协议,允许用户免费使用、修改和商业化部署。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

据ITCOW牛新网了解,新模型的核心创新在于将安全策略的定义权交还给开发者。模型在推理阶段能够直接解释并应用用户自定义的策略,而无需在训练阶段固化规则。与传统分类器相比,该模型支持完整的”思维链”输出,可展示每一步推理过程,显著提升了决策透明度与可追溯性。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

这两款模型基于OpenAI内部工具Safety Reasoner开发,通过强化学习微调实现策略推理能力。它们在四种场景下表现突出:应对新兴或快速演变的风险、处理高度细微的领域、缺乏足够标注样本的情况,以及重视可解释性胜于低延迟的场景。

OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b
OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b
OpenAI开源模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

OpenAI同时指出了模型的局限性。当开发者拥有大量标注数据时,传统定制分类器的精度可能更高。此外,该模型运行速度较慢、资源消耗较大,难以在大型平台上实现实时全量内容扫描。目前,模型已在Hugging Face平台开放下载。