Anthropic 限制访问能够自动发现漏洞的 AI 模型

执行摘要

Anthropic 对一款新的 AI 模型 Claude Mythos Preview 实施了严格的访问控制，因为在内部测试中发现该模型能够自主发现并武器化软件漏洞。根据安全专家 Bruce Schneier 的博客文章，该模型在进攻性网络安全任务上的熟练程度被认为对一般发布来说过于危险。现在，访问权限仅限于大约 50 个预先审查的组织，包括像 Microsoft、Apple、Amazon Web Services 和 CrowdStrike 这样的大型技术和安全公司，它们都在一个受控的信任和安全计划下。

技术分析

Anthropic 尚未公开披露 Claude Mythos Preview 的具体技术架构和训练方法。然而，根据 Schneier 的报道，该模型在自主漏洞研究和漏洞开发方面显示出了显著的进步。这表明其能力超出了在已知漏洞数据库（如 NVD）中进行模式匹配，包括新颖的代码分析、模糊测试和链式弱点以实现远程代码执行或权限提升。限制访问的决定意味着该模型可以以高度的可靠性和最小的人为指导执行这些任务，有效地自动化了进攻性安全研究的核心方面。确切的范围——无论是针对 Web 应用程序、二进制软件、网络协议，还是上述所有内容——仍然不清楚。

入侵指标

目前没有识别出任何入侵指标。这份报告涉及的是一项双重用途能力的受控发布，而不是活跃的野外活动。

战术、技术与程序

如果这样的模型被武器化，其潜在的 TTPs 将代表威胁格局的重大转变。它可以自动化并加速网络杀伤链的几个关键阶段：

侦察（TA0043）： 自动扫描软件版本和暴露的服务。
资源开发（TA0042）： 为已识别的目标生成定制的漏洞利用代码。
初始访问（TA0001）： 利用漏洞获得初始立足点，可能以机器速度和规模进行。
执行（TA0002）： 通过开发的漏洞部署和执行有效载荷。核心技术是 AI 驱动的漏洞发现（T1595）和漏洞开发（T1588）的自动化，大幅降低了复杂攻击所需的时间和技能障碍。

威胁行为者背景

没有证据表明这个特定的模型已经被恶意威胁行为者获取或使用。背景是开发者的预防性风险管理。然而，这一发展预示着一个可预见的未来，届时先进的、自主的进攻性 AI 工具可能会扩散。拥有重要资源的国家支持的高级持续性威胁（APT）小组最有可能最终开发或获得类似的能力。将 Mythos Preview 限制在一个主要由西方防御和基础设施公司组成的联盟中，可以被视为试图在防御 AI 能力上创造不对称优势，尽管这也集中了一个强大的双重用途工具。

缓解措施与建议

主要的缓解措施是 Anthropic 的严格访问控制计划。对于更广泛的生态系统，Schneier 的分析建议采取几个必要步骤：

加速防御 AI 开发： 安全供应商和关键基础设施运营商必须投资于能够匹配 AI 驱动攻击的速度和规模的 AI 驱动防御系统，重点关注异常检测、补丁优先级排序和自动化硬化。
加强软件开发生命周期（SDLC）： 强制执行更严格的安全编码实践、广泛的模糊测试和主动威胁建模，因为漏洞被发现和利用的成本将急剧下降。
开发治理框架： 政策制定者和行业机构需要建立明确的指导方针，并可能就双重用途 AI 安全模型的开发、测试和发布达成国际协议，以防止不稳定的军备竞赛。
假设增加的攻击节奏： 组织应为未来做好准备，在漏洞披露和广泛利用之间的窗口几乎为零，需要几乎即时的补丁部署和强大的零信任架构。

Anthropic 限制访问能够自动发现漏洞的 AI 模型

执行摘要

技术分析

入侵指标

战术、技术与程序

威胁行为者背景

缓解措施与建议

订阅更新

相关文章

AI驱动的漏洞发现加速了漏洞利用时间线，加大了压力

Mythos AI 在代码审计中表现出色，但在漏洞验证方面存在困难

Mythos AI 比团队修补漏洞更快