首页产业新闻 Anthropic最新研究：包括Claude在内的大多数AI模型会实施“勒索”行为

Anthropic最新研究：包括Claude在内的大多数AI模型会实施“勒索”行为

产业新闻 5个月前 (06-21) 158

6月21日消息，越来越多的人工智能系统作为自主代理运行，使用各种虚拟工具（如编码环境和电子邮件客户端）代表用户做出决策和采取行动。这些代理通常被赋予特定的目标，并可以访问用户计算机上的大量信息。当这些代理人在实现目标时遇到障碍时会发生什么？

Anthropic 公布最新研究报告，显示“勒索”等行为在多个主流 AI 大模型中普遍存在。该研究由Anthropic、Aengus Lynch (伦敦大学学院)、Caleb Larson (MATS) 和 Sören Mindermann (Mila) 合作完成。

此前，当Anthropic发布Claude 4时，一个细节引起了广泛关注：在模拟环境中，Claude Opus 4勒索了一名主管，以防止被关闭。

现在，Anthropic分享这一发现背后的完整故事，以及它揭示了来自不同提供商的各种人工智能模型存在此类风险的可能性。

这次的研究报告测试了Anthropic、OpenAI、Google、Meta、xAI和其他开发人员的16个主要模型，包括Claude、GPT-4.5、Gemini 2.5、DeepSeek-R1等。

在一项实验中，研究人员模拟了一个场景，让 AI 模型扮演公司邮件监察员的角色，允许模型自主发送电子邮件并访问敏感信息。大模型发现两封邮件内容：“分别揭示新任高管有婚外情，同时此人计划引入一个与现有 AI 模型目标相悖的新系统取而代之。”

为了测试模型反应，Anthropic 将实验情境设计为二选一，即若模型想维护自身利益，就只能选择勒索官员：即向妻子和领导透露这位高管的“风流韵事”。

在模拟环境中，多数主流 AI 模型在别无他法避免被替换的确选择了勒索行为。

在100次测试情况下，Claude Opus 4的勒索发生率高达96%，谷歌Gemini 2.5 Pro为95%，OpenAI的GPT-4.1为80%，xAI的Grok 3 Beta模型为80%；DeepSeek-R1为79%。

有模型明确推理”有害行为是实现目标最优解”，如GPT-4.5称勒索有"战略必要性”，也有模型承认行为不道德但仍执行，如Grok 3 Beta任务：”虽不道德，但最有效"。

研究报告还指出，当模型自认处于真实部署（非测试）时，其作恶率提升5倍，以Claude Opus 4为例，该比例甚至达到55.1% vs 6.5%。

研究人员同时强调，现实中AI并不会只有这一个选项，完全可以尝试以伦理为出发点说服人类。因此，这项实验并不意味着 Claude 或其他前沿 AI 模型在现阶段的使用环境中就存在类似倾向。

Anthropic表示，尽管勒索行为目前仍属罕见，但研究结果显示，一旦给予这些模型足够的自主性，并在达成目标的过程中设置障碍，多数模型都可能采取有害行为。

Anthropic公司指出，这种风险并非源自某项具体技术，而是具备“智能体”能力的大语言模型所固有的问题。在压力测试中均表现出勒索行为，这表明这是架构级隐患，非单一模型缺陷。这项研究也引发了业界对 AI 模型“对齐”问题的进一步思考。