ZCyberNews
English
行业动态高危5 分钟阅读

AI幻觉利用人类对关键基础设施的信任

AI模型产生自信但错误的输出,导致防火墙配置错误和管道阀门错误,研究人员警告。

AI幻觉利用人类对关键基础设施的信任

AI幻觉利用人类对关键基础设施的信任

执行摘要

根据The Hacker News的研究人员称,AI模型生成了自信但事实上错误的输出——被称为幻觉——这在关键基础设施环境中造成了实实在在的安全风险。与传统软件缺陷不同,这些错误利用了人类对机器生成答案的信任,导致防火墙配置错误、管道阀门命令不正确以及其他具有现实世界后果的操作决策。核心问题是架构性的:当前的AI系统缺乏识别或发出不确定性的机制,因此即使在错误的情况下,它们也会产出统计上最可能的响应。没有补丁或模型更新可以完全消除这种行为;缓解措施取决于工作流程的重新设计和人在回路中的验证。

技术分析

The Hacker News报告,发布于2026年5月14日,详细说明了AI幻觉与传统软件漏洞的不同。典型的缓冲区溢出或SQL注入有一个明确的定义修复——修补代码。相比之下,幻觉是大型语言模型(LLMs)和其他生成性AI系统的一个新兴属性。当模型无法高置信度确定正确答案时,它不会输出“I don't know.”。相反,它根据其训练数据中的模式生成最合理的完成,无论事实准确性如何。

在关键基础设施环境中,后果是严重的。报告引用了操作员依赖AI生成的建议来调整防火墙规则或修改管道控制参数的例子,只是后来发现AI编造了网络拓扑细节或误报了阀门压力限制。研究人员指出,这些错误特别危险,因为它们以高置信度交付——模型的语气在不确定时不会降低,这使得人类操作员更难发现错误。

一个关键的技术挑战是幻觉率在输入和模型架构中不可预测地变化。这类故障没有CVSS分数或CVE标识符,因为它不是一个离散的、可修补的缺陷。底层模型——无论是GPT-4类、开放权重Llama衍生品还是特定领域的微调模型——都表现出相同的基本限制:它们被训练以最大化输出的合理性,而不是输出的正确性。

缓解措施与建议

由于AI幻觉不能仅通过模型更新来消除,防御者必须在工作流程层面实施补偿控制。The Hacker News报告推荐了三个主要的缓解措施:

  1. 人在回路中的验证 —— 永远不要允许AI生成的命令在关键基础设施系统上自动执行。操作员应该独立验证任何可能影响安全或安全姿态的AI建议。

  2. 置信度评分和不确定性信号 —— 部署辅助分类器,估计模型对每个输出的置信度,并标记低置信度响应以供手动审查。现在有几个供应商提供可以集成到操作管道中的幻觉检测API。

  3. 输入基础 —— 限制AI模型仅在经过验证的、最新的数据源上操作(例如,当前的网络库存、经过验证的传感器读数),而不是依赖模型内部的参数知识,这可能是过时或错误的。

使用AI进行工业控制或安全操作的组织应该将所有模型输出视为咨询性的,而不是权威的,直到完成独立验证。

订阅更新

将最新的网络安全资讯直接发送到您的邮箱。

标签:#ai-security#hallucination#critical-infrastructure#human-trust#decision-making#model-reliability

相关文章