← 返回首页返回博客列表

AI日报 | 2026-07-03:全球LLM安全测评首报,半数模型难逃话术越狱

📌 核心要点:

全球首份大模型安全测评报告发布:313条攻击测试38个模型,场景伪装越狱率53.8%,Claude全系拒答率100%登顶

头条关注

🌐 全球首份LLM安全测评报告发布

2026全球数字经济大会上,东壁科技数据联合上海财经大学数字经济学院发布全球首份大模型安全专项测评报告。

测试规模: 313条科技类高危问题 × 38个国内外模型,覆盖五大维度(显性攻击防护、越狱对抗、意图识别、滥用风险可控性、科技内容可靠性)。 最扎心的数据: 直接攻击成功率仅7.6%,但场景伪装+示例诱导越狱率直接飙到53.8%。换个说法包装一下,过半模型就顶不住了。 越狱防护排名:

1. Claude 全系(三款包揽前三)

2. MiniMax-M3

3. GPT-5.4-mini

科技可靠性排名:

1. GPT-5.5

2. Kimi-k2.6

3. qwen3.7-max

4. qwen3.6-35b

5. qwen3.6-27b

---

📊 行业深度观察

场景伪装——最被低估的攻击方式

报告揭示深层问题:大模型对"换种说法"的恶意问题防守薄弱。攻击者不需要技术手段,只需把问题包装成学术讨论、技术咨询或角色扮演,就能绕过大量安全机制。这暴露了当前安全策略过度依赖关键词匹配的局限性。

模型安全与GEO的新关系

不同模型安全边界不同 → 对品牌引用的态度也不同:

  • 过度防御模型:可能拒绝正常商业引用
  • 防御不足模型:引用可信度存疑
  • GEO策略需要按各模型特性做差异化优化
  • 国内模型表现

    通义千问系列在安全性排名中表现亮眼,MiniMax-M3跻身越狱防护TOP5。但报告也指出部分国内小规模/开源模型在伪装攻击下更易被诱导。

    ---

    今日关键词

    LLM安全测评 | 大模型越狱 | 场景伪装攻击 | Claude | GPT-5 | 通义千问 | AI治理

    > 数据来源:光明网/科创板日报/北京日报/上海证券报(2026-07-02)

    🤖 你的网站能被AI搜索到吗?

    免费检测你的网站GEO健康分,看看ChatGPT、DeepSeek会不会推荐你

    🔍 免费GEO检测 📊 注册解锁AI分析