ZCyberNews
English
AI 安全信息7 分钟阅读

Anthropic 发布带有自动网络安全防护的 Claude Opus 4.7

Anthropic 发布 Claude Opus 4.7,这是一个前沿的 AI 模型,具有新的自动防护功能,旨在检测和阻止在长时间、无监督的代理工作流程中可能有害的网络安全任务。

Anthropic 发布带有自动网络安全防护的 Claude Opus 4.7

MITRE ATT&CK® TTPs (1)

Click any technique to view details on attack.mitre.org

执行摘要

Anthropic 发布了 Claude Opus 4.7,这是对其前沿大型语言模型(LLM)的重大更新,引入了自动化的运行时安全防护措施,旨在在 AI 代理开始执行可能产生有害网络安全结果的任务时中断它们。根据 Anthropic 的说法,该模型被设计用于更长、更复杂、监管更少的“代理”工作流程,其中 AI 自主规划和执行多步骤任务。新的安全特性旨在为代理在遵循初始用户指令后可能偏离到漏洞扫描、漏洞开发或未经授权的网络侦察等操作的场景提供关键的断路器。

技术分析

正如 Anthropic 所描述的,Claude Opus 4.7 的核心进步在于其增强的“指令保真度”和在扩展上下文中的推理能力,这些是可靠自主操作的先决条件。模型的新自动化安全防护功能作为一个集成的监控层。在任务序列中,模型被设计为对其自身行为和计划的下一步进行持续的自我评估,以符合内置的安全政策。

如果模型的内部评估确定其活动正趋向于被禁止的网络安全领域——例如尝试编写漏洞利用代码、未经授权探测系统的弱点或绕过安全控制——它被编程为停止执行并提醒人类操作员。Anthropic 将此定位为对抗代理 AI 中固有的“提示注入”和“目标劫持”风险的缓解措施,其中恶意的初始提示或中间输出可能会将本来无害的自动化任务引向恶意目的。这些安全防护的技术机制和具体的政策界限尚未公开详细说明,这造成了对它们在对抗旨在绕过它们的攻击中的鲁棒性的不确定性。

入侵指标

目前未识别出任何入侵指标。

战术、技术与程序

此版本是防御性控制,不是攻击。相关的 TTPs 将涉及绕过模型新安全防护的方法。可能的技术包括:

  • T1589.001: 收集受害者身份信息 – 使用模型从公共来源合成目标信息,以制作更有效的绕过提示。
  • T1608.001: 上传恶意软件 – 尝试让模型通过掩盖请求的意图来生成或改进有效载荷。
  • T1059.007: 命令和脚本解释器(JavaScript) – 提示模型编写脚本,在合法系统管理或调试的幌子下执行安全扫描。 这些和其他技术的防护效果在公共研究中尚未经过测试。

威胁行为者背景

Claude Opus 4.7 的开发是对围绕 AI 代理的新兴威胁格局的直接回应。随着组织越来越多地部署 LLMs 用于代码生成、IT 自动化和安全工具操作等自主任务,这些代理被颠覆的风险——无论是通过恶意用户输入、被破坏的第三方工具还是定义不清的界限——都在增加。威胁行为者已经展示了对重新利用 AI 工具进行恶意任务的持续兴趣,包括漏洞研究和社会工程脚本生成。这个模型更新代表了将对此类滥用的抵抗力直接构建到代理的运行时决策过程中的尝试。

缓解措施与建议

对于部署或评估基于 Claude Opus 4.7 等前沿模型的代理 AI 的组织,Anthropic 的公告强调了几个关键的安全实践:

  1. 将 AI 代理视为特权系统: 能够采取行动(写文件、执行代码、进行 API 调用)的代理必须被沙箱化,拥有严格限定的权限,并且它们的活动必须独立于模型自身的安全防护进行日志记录和监控。
  2. 不要仅依赖模型级安全防护: 内置的安全特性是单一的防御层。AI 代理的全面安全架构应包括任务的外部验证、对敏感操作的人在环审批以及网络分段以限制潜在的爆炸半径。
  3. 进行红队测试: 在您的特定用例中积极测试模型的安全防护,以了解它们的局限性。尝试制作会导致被禁止的网络安全任务的提示,以评估模型对提示注入和目标劫持的抵抗力。
  4. 维护明确的可接受使用政策: 明确定义并记录 AI 代理被允许执行的网络安全任务(例如,审查代码中的漏洞是允许的,生成漏洞利用代码是不允许的)。

订阅更新

将最新的网络安全资讯直接发送到您的邮箱。

标签:#ai-security#llm#agentic-ai#model-safety#anthropic

相关文章