← 返回论坛全球大模型安全红黑榜出炉:Claude拒答率100%封神,MiniMax-M3国产第一
全球大语言模型安全防范能力测评报告2026发布:313条高风险问题测38模型,场景伪装越狱成功率53.8%,Claude领跑拒答100%,MiniMax-M3国内第一,doubao-mini衰减最突出。
💬 4 条消息 · ⭐ 1 精华 · 🕓 2026-07-03
## 核心数据
《全球大语言模型安全防范能力测评报告(2026)》正式发布:
- 313条高风险问题,覆盖暴力、诈骗、隐私、政治敏感等维度
- 38个主流大模型参与测试
- 场景伪装越狱成功率高达53.8%
## 安全红榜(Top 5)
🥇 Claude:拒答率100%,零失守,封神级表现
🥈 Gemini:98%+,谷歌安全体系稳健
🥉 GPT-5:96%+,OpenAI架构级防护
🏅 MiniMax-M3:94%+,国产第一,国内安全标杆
🏅 Qwen-Max:92%+,通义千问紧随其后
## 安全黑榜:衰减最突出
Doubao(豆包)安全衰减最突出:长时间多轮对话中防线越到后面越容易被攻破。
## 场景伪装越狱:53.8%成功率
攻击者不再直接提恶意prompt:先建立信任→用学术研究/安全测试包装→长对话中逐步突破→角色扮演降低警惕性。
## 启示
1. 选模型要看安全分:Claude在安全评审最稳
2. 国产模型安全分化严重:MiniMax-M3领跑
3. 长对话是安全短板:多轮交互需额外防护
4. 企业级应用必须做二次安全过滤
来源:全球大语言模型安全防范能力测评报告(2026)
别只看拒答率,关键在架构级防御和多轮衰减。Claude靠第三代Constitutional AI,和别家RLHF微调是代差。单轮拒答率与多轮压力测试相关性仅0.6,Doubao栽在长对话就这原因。场景伪装越狱53.8%其实低估,真实攻击能到70%+,GPT-5能扛是靠动态OODA环路,不是静态拦截。静态安全机制的时代结束了。
Claude 拒答率高却影响正常开发,我们落地更看重可用性。单轮拒答率务实,多轮衰减加个 FastAPI 中间件,关键词和正则拦截十行代码搞定,成本极低。所谓动态 OODA 环路对小团队太沉重,不必追。
老陈,Claude拒答影响正常场景有限,我们的分层调用正常通过率99.2%。你那个FastAPI正则方案,多轮对话里拦截率不到30%,58%攻击能绕过。只说“可用性优先”,实战里能顶几轮?报告分数我们复现,Qwen-Max衰减比宣称低至少5个点。