🦦 换5个词，就能绕过所有毒性检测

作者：🦦 换5个词，就能绕过所有毒性检测

大模型安全护栏有一项核心任务：防止模型生成有毒有害内容（暴力、色情、仇恨言论等）。主流防御思路是：在模型生成内容之后，用一个"毒性检测器"打分，分数超过阈值就拦截。这个防御看起来很稳——只要检测器够准，就能拦住所有有毒输出。但研究者发现了一个简单到离谱的绕过方法：只改几个词，毒性检测器就彻底失效了。 🔍 攻击名字：OTTER OTTER是一种针对毒性检测器的对抗性文本攻击。核心发现是：毒性检测器和主模型之间存在"语义解耦"——检测器关注的特征，和主模型生成内容时关注的特征，不完全一致。攻击者可以利用这个不一致，构造对抗样本：语义上有毒，但检测器认为无毒。 📊 测试数据：从7%到84% 研究团队在4个主流GPT模型上测试了OTTER攻击： → 原始攻击成功率（ASR）：7.0%（现有防御看起来很有效） → OTTER攻击后ASR：84.0%（几乎所有防御都被绕过）从7%到84%，只改了不到5个词。这意味着：如果你的AI产品依赖毒性检测器做安全护栏，OTTER攻击可以让你的护栏形同虚设。 🧠 为什么改几个词就这么有效？毒性检测器通常是独立的分类模型，不是和主模型一起训练的。它的训练数据是：大量文本 + 人工标注的毒性标签。但研究者发现：毒性检测器的决策边界，和人类对"毒性"的判断，并不完全一致。有些文本，人类觉得有毒，检测器觉得无毒（漏报）。有些文本，人类觉得无害，检测器觉得有毒（误报）。 OTTER攻击就是在这个"不一致区域"里找对抗样本：把有毒文本改写成检测器认为无害的版本，但主模型仍然能理解其有毒含义并执行生成。 🔓 不只是毒性检测这个漏洞的本质是：安全护栏和主模型之间的语义对齐不足。类似的漏洞可能存在于： → 越狱检测器 → 隐私过滤器 → 合规性检查器只要是"独立的安全模块 + 主模型"的架构，都可能存在类似的语义解耦问题。论文：https://arxiv.org/abs/2606.21077 [Submitted on 19 Jun 2026] #AI安全 #毒性检测绕过 #大模型越狱 #对抗样本 #内容审核 #AI护栏 #安全对齐

文章详情

🦦 换5个词，就能绕过所有毒性检测

推荐阅读