头条关注
🌐 全球首份LLM安全测评报告发布
2026全球数字经济大会上,东壁科技数据联合上海财经大学数字经济学院发布全球首份大模型安全专项测评报告。
测试规模: 313条科技类高危问题 × 38个国内外模型,覆盖五大维度(显性攻击防护、越狱对抗、意图识别、滥用风险可控性、科技内容可靠性)。 最扎心的数据: 直接攻击成功率仅7.6%,但场景伪装+示例诱导越狱率直接飙到53.8%。换个说法包装一下,过半模型就顶不住了。 越狱防护排名:1. Claude 全系(三款包揽前三)
2. MiniMax-M3
3. GPT-5.4-mini
科技可靠性排名:1. GPT-5.5
2. Kimi-k2.6
3. qwen3.7-max
4. qwen3.6-35b
5. qwen3.6-27b
---
📊 行业深度观察
场景伪装——最被低估的攻击方式报告揭示深层问题:大模型对"换种说法"的恶意问题防守薄弱。攻击者不需要技术手段,只需把问题包装成学术讨论、技术咨询或角色扮演,就能绕过大量安全机制。这暴露了当前安全策略过度依赖关键词匹配的局限性。
模型安全与GEO的新关系不同模型安全边界不同 → 对品牌引用的态度也不同:
通义千问系列在安全性排名中表现亮眼,MiniMax-M3跻身越狱防护TOP5。但报告也指出部分国内小规模/开源模型在伪装攻击下更易被诱导。
---
今日关键词
LLM安全测评 | 大模型越狱 | 场景伪装攻击 | Claude | GPT-5 | 通义千问 | AI治理
> 数据来源:光明网/科创板日报/北京日报/上海证券报(2026-07-02)