AI幻觉利用人类对关键基础设施的信任

执行摘要

根据The Hacker News的研究人员称，AI模型生成了自信但事实上错误的输出——被称为幻觉——这在关键基础设施环境中造成了实实在在的安全风险。与传统软件缺陷不同，这些错误利用了人类对机器生成答案的信任，导致防火墙配置错误、管道阀门命令不正确以及其他具有现实世界后果的操作决策。核心问题是架构性的：当前的AI系统缺乏识别或发出不确定性的机制，因此即使在错误的情况下，它们也会产出统计上最可能的响应。没有补丁或模型更新可以完全消除这种行为；缓解措施取决于工作流程的重新设计和人在回路中的验证。

技术分析

The Hacker News报告，发布于2026年5月14日，详细说明了AI幻觉与传统软件漏洞的不同。典型的缓冲区溢出或SQL注入有一个明确的定义修复——修补代码。相比之下，幻觉是大型语言模型（LLMs）和其他生成性AI系统的一个新兴属性。当模型无法高置信度确定正确答案时，它不会输出“I don't know.”。相反，它根据其训练数据中的模式生成最合理的完成，无论事实准确性如何。

在关键基础设施环境中，后果是严重的。报告引用了操作员依赖AI生成的建议来调整防火墙规则或修改管道控制参数的例子，只是后来发现AI编造了网络拓扑细节或误报了阀门压力限制。研究人员指出，这些错误特别危险，因为它们以高置信度交付——模型的语气在不确定时不会降低，这使得人类操作员更难发现错误。

一个关键的技术挑战是幻觉率在输入和模型架构中不可预测地变化。这类故障没有CVSS分数或CVE标识符，因为它不是一个离散的、可修补的缺陷。底层模型——无论是GPT-4类、开放权重Llama衍生品还是特定领域的微调模型——都表现出相同的基本限制：它们被训练以最大化输出的合理性，而不是输出的正确性。

缓解措施与建议

由于AI幻觉不能仅通过模型更新来消除，防御者必须在工作流程层面实施补偿控制。The Hacker News报告推荐了三个主要的缓解措施：

人在回路中的验证 —— 永远不要允许AI生成的命令在关键基础设施系统上自动执行。操作员应该独立验证任何可能影响安全或安全姿态的AI建议。
置信度评分和不确定性信号 —— 部署辅助分类器，估计模型对每个输出的置信度，并标记低置信度响应以供手动审查。现在有几个供应商提供可以集成到操作管道中的幻觉检测API。
输入基础 —— 限制AI模型仅在经过验证的、最新的数据源上操作（例如，当前的网络库存、经过验证的传感器读数），而不是依赖模型内部的参数知识，这可能是过时或错误的。

使用AI进行工业控制或安全操作的组织应该将所有模型输出视为咨询性的，而不是权威的，直到完成独立验证。

AI幻觉利用人类对关键基础设施的信任