Anthropic:发布 Claude Mythos Preview 系统安全卡片
Anthropic 公开了 Claude Mythos Preview 的系统安全卡片,详细说明该模型的能力与安全评估。
查看原文核心要点
2026 年 4 月 7 日,Anthropic 正式发布了 Claude Mythos Preview 版本的系统安全卡片(System Card),这是一份围绕模型能力边界与安全评估的结构化文档。此举延续了 Anthropic 自 Claude 3 系列以来公开透明化 AI 安全信息的策略,旨在向监管机构、行业同行和公众说明新模型在关键风险维度(如 CBRN、 网络攻击、劝说服等)的评估结果与部署政策依据。Claude Mythos Preview 作为 Preview 通道版本,其安全卡片的发布时点恰好在模型进入更广泛测试/合作伙伴可用阶段之前,体现了 Anthropic「先评估再放量」的负责任部署理念。
原文 + 中文翻译
原文:"We're publishing the Claude Mythos Preview System Card — detailing our safety evaluations and capability assessments for this preview model. We believe transparency is essential to building safe AI systems."
翻译:"我们正在发布 Claude Mythos Preview 的系统安全卡片——详述我们对这款预览模型的安全评估与能力测试。我们相信透明度对于构建安全 AI 系统至关重要。"
原文:"The card covers our Responsible Scaling Policy implementation, ASL-level determinations, and evaluations across key risk categories."
翻译:"该卡片涵盖了我们的负责任扩展政策实施、ASL(AI Safety Level)等级判定,以及对关键风险类别的评估结果。"
深度解读
透明度作为竞争差异化策略
Claude Mythos Preview 安全卡片的发布,折射出 Anthropic 在 AI 安全透明度上持续发力的战略意图。自 2023 年 Claude 3 发布时首次公开详细系统安全卡片以来,Anthropic 将安全文档从合规负担转化为品牌资产的逻辑愈发清晰——竞争对手(如 OpenAI、Google DeepMind)在安全文档公开程度、格式标准化上尚未形成同等量级的透明度承诺。安全卡片的详细程度本身成为一种市场信号:有能力做如此细致的评估,意味着背后投入了大量 red-teaming 和 interpretability 研究资源。对企业级客户、特别是对安全性要求严格的金融、医疗、政府客户而言,这类文件直接影响采购决策。
Responsible Scaling Policy 的落地检验
Claude Mythos Preview 安全卡片是 Anthropic Responsible Scaling Policy(RSP)框架的实际应用案例。根据 RSP,Anthropic 会根据模型的 ASL(AI Safety Level)等级来约束其在特定能力水平下的部署条件。Preview 版本的安全卡片预计会标注该模型当前所处的 ASL 级别,以及在哪些评估维度上触及了需要额外安全措施的阈值。例如,如果模型在网络攻击能力评估中得分显著提升但未达到 ASL-3 的触发条件,Anthropic 会在卡片中明确说明当前部署范围与监控机制。这一机制对于行业内的安全政策讨论具有参考价值:其他 AI 实验室是否跟进类似 RSP 框架,安全卡片内容是否足够标准化以实现跨公司比较,都是值得关注的议题。
对监管环境的主动适配
2026 年初以来,美国 NIST AI 安全研究所(AISI)、欧盟 AI 办公室均加强了对基础模型安全评估方法论的讨论。Anthropic 此刻发布安全卡片,在时间节点上与监管机构进入「需要参考行业最佳实践」的阶段吻合。如果安全卡片的内容格式被 AISI 或欧盟纳入「模型安全文档标准」的参考依据,Anthropic 将获得先发优势——其文档格式可能成为事实上的行业标准,降低未来合规成本。反过来,这也意味着 Anthropic 必须确保卡片内容的严谨性,任何重大遗漏或误判都将带来信任损失,影响其作为行业安全标杆的定位。
值得关注
- ASL 等级判定:Claude Mythos Preview 是否被评定为 ASL-2 或触及 ASL-3 边界?根据 RSP,如果模型在 CBRN 相关能力评估中超过特定阈值,Anthropic 必须触发部署限制条款,这是安全社群最关注的单一指标。
- 跨风险维度的评估深度:卡片是否包含对「说服与政治操纵」「生物风险」「网络安全」等维度的独立评估结果?特别是说服能力评估的方法论(是自动化测试还是有人类受试者?)值得技术社群检验。
- 部署范围说明:Preview 版本的安全卡片通常会标注「当前可用范围」——是仅限 Anthropic 内部、合作伙伴还是面向 API 广泛开放?部署范围的表述直接影响竞争格局。
- Policy 微调信号:相较于 Claude 3.5 Sonnet 的安全卡片,Claude Mythos Preview 的 RSP 实现是否出现了政策宽松或收紧的迹象?这种变化可能暗示 Anthropic 对模型能力边界的判断正在演变。
- 行业对标效应:OpenAI、Google DeepMind、Meta AI 是否会相应发布或更新其模型安全文档?如果形成「竞争性透明度」趋势,整个行业的安全文档标准化进程将显著加速。
信源行:
原文链接:Anthropic 官方推文
背景报道:
· Anthropic Responsible Scaling Policy(官方政策页面)
· Wired - Anthropic 相关报道(持续追踪 AI 安全与透明度议题)