Mythos AI 在代码审计中表现出色，但在漏洞验证方面存在困难

执行摘要

XBOW，一家独立的自动化攻击安全公司，通过独立基准测试证实了Anthropic的Mythos Preview AI模型在检测软件漏洞方面确实如其所声称的强大——特别是在源代码审计和逆向工程方面——但其在漏洞利用验证、判断和成本效益方面的表现更为微妙。XBOW本周发布的测试显示，Mythos在提供源代码和实时执行上下文时表现出色，但它在拒绝真正的阳性结果时过于保守，并且倾向于夸大其发现的实际相关性。据估计，Mythos的成本是Opus的5倍，在按令牌预算标准化的网络漏洞发现方面，它并不是最佳选择，GPT5.5的表现超过了它。

技术分析

XBOW从多个维度评估了Mythos Preview：源代码审计、实时+源代码测试、判断（误报拒绝）、逆向工程、本地代码漏洞发现和基于浏览器的交互视觉敏锐度。根据他们的报告，该公司发现，无论提供商如何，Mythos都比所有现有模型都有显著的提升。

在源代码审计中，Mythos展示了强大的能力，能够识别候选漏洞，但XBOW指出，任何AI模型都能找到一些有趣的东西——“一些”不会与“一切”相同。该模型在测试“实时+源代码”（即，在实时环境中运行的代码）时比单独的源代码表现得更好。这与Gary McGraw 20年前的观察相一致，即操作缺陷源于源代码错误和架构设计缺陷之间的相互作用，这需要更高层次的理解。

在判断方面，Mythos比其前身更好地拒绝了误报，但有时在证据没有正式满足其标准时会丢失真正的阳性。该模型需要精确的提示才能获得最佳结果。在逆向工程测试中，XBOW得出结论，Mythos能够对自身的结果和竞争对手模型的发现进行分类，并能够理解不寻常的固件和嵌入式系统的上下文。

XBOW的视觉敏锐度测试检查了该模型通过浏览器界面与实时网站交互的能力——识别正确的UI元素并在正确的位置点击。当被要求提供确切坐标时，该模型并不完全像素精确，但在选择正确的浏览器操作方面实际上是有效的。

成本效益是一个关键问题。Anthropic已经声明Mythos将比Opus模型贵5倍。XBOW质疑是否给一个更便宜的模型更多的时间可以以更低的成本获得更高的准确性。他们的结论是：是的。“如果我们按估计的运行成本进行标准化，画面相当清晰：Mythos Preview并不是非常低效，至少如果你希望获得高准确性，但它在我们的基准测试中也不是最佳选择，”XBOW写道。对于在固定令牌预算下寻找网络漏洞，Mythos的表现超过了Opus 4.6，但被GPT5.5超越。

缓解措施与建议

评估AI辅助漏洞发现工具的安全团队应该将Mythos视为源代码审计和逆向工程工作流程的强大补充，而不是替代人类判断或用于网络测试的更便宜的模型。XBOW的发现表明，组织应该将Mythos与实时测试环境配对，以最大化其有效性，并应预算其高昂的运营成本——大约是Opus的5倍。对于在成本限制下发现网络漏洞，GPT5.5可能提供更好的每令牌价值。防御者还应该独立验证Mythos的发现，因为该模型可能会夸大实际相关性，并由于过于严格的标准而丢失真正的阳性。

Mythos AI 在代码审计中表现出色，但在漏洞验证方面存在困难

执行摘要

技术分析

缓解措施与建议

订阅更新

相关文章

Mythos AI 比团队修补漏洞更快

Anthropic 发布带有自动网络安全防护的 Claude Opus 4.7

美国解除对Anthropic前沿网络人工智能模型的出口管制