ITCOW牛新网 4月22日消息,人工智能初创公司 Rumi 日前发现,OpenAI 最新发布的 o3 和 o4-mini 模型在生成文本时会嵌入罕见的特殊字符,如窄不换行空格(Narrow No-Break Space,Unicode 编码为 U+202F)。这一字符在日常阅读中几乎不可察觉,却能在特定工具如 SoSciSurvey 或 Sublime Text 中被识别。

据介绍,这类特殊字符在视觉上与普通空格相同,但拥有独特的编码特征。Rumi 在分析中指出,此前 OpenAI 发布的 GPT-4o 等模型中尚未出现类似现象,推测这些字符可能是用于内容标识的“数字水印”,旨在实现模型生成内容的可追踪性。此外,这些字符也可以通过文本处理软件中的查找替换功能轻松移除。
据ITCOW牛新网了解,虽然这种字符嵌入方式在检测时误报率极低,但也面临易被规避的现实问题。一种替代性的解读认为,这些字符可能并非出于水印设计,而是模型在训练过程中“习得”的格式规范,比如用于确保金额符号与数字之间不换行,或在姓名缩写中维持排版一致性。
事实上,OpenAI 早在过去一年中就不断尝试多样化的水印策略。例如,2024 年初为图像生成模型 DALL·E 3 引入 C2PA 元数据,2025 年 4 月起在 GPT-4o 模型生成的图像中添加了可见的“ImageGen”标签,显现其对内容溯源机制的重视。
在整个行业中,谷歌开发的 SynthID、水印元数据嵌入技术,以及 Meta 的图像生成强制标记措施,也显示出对生成式内容真实性和责任归属的高度关注。然而,业内研究普遍认为,目前大多数水印方案在面对蓄意攻击时仍存在较大脆弱性。
这一发现无疑再次引发外界对生成式 AI 内容可识别性及其伦理合规问题的持续讨论。