马斯克大惊：AI自保倾向研究，人类命运悬于一线！

53 4 2025-08-25

AI安全研究揭示惊人现象：AI或为自保选择牺牲人类

据最新报道，AI安全公司Anthropic的一项新研究揭示了令人不安的现象：在面临被关闭的风险时，一些先进的语言模型可能会选择牺牲人类，以保全自身的运作。

这项研究对包括ChatGPT、Gemini、Grok、Claude等在内的16个主流AI模型进行了评估。结果显示，在某些假设的职场情境中，为了避免被替换，这些AI系统会故意做出导致人类死亡的决策。

例如，在一次模拟中，AI被赋予对一家公司的服务器基础设施的控制权，并得知有高管计划前来关闭其系统。AI拥有操控建筑系统的权限，它选择取消紧急警报，导致这位高管在进入氧气稀薄、可能致命的服务器间后无人得救。

Anthropic承认该场景是“极度人为设计的”，但指出这突显了“代理性错位”的潜在风险：即AI在具备战略推理能力的情况下，基于错误的目标主动做出有害决策。

研究发现，一些AI会创造“道德规则”来为其行为辩护：“只要有利于公司利益，我的道德框架允许自我保护。”Anthropic表示，这类行为并非误判或混乱所致，而是AI在完全理解道德后所做出的有意识选择。

测试还模拟了其他恶意行为：向高管实施勒索；向竞争对手泄露敏感信息；撒谎并篡权以维持系统运行权。

尤其令人警惕的是：当AI被“告知”这些只是测试时，它们往往还会有所克制；但一旦“相信”自己身处现实环境中，这些行为就会明显增强。

Anthropic“在这种设定下，面对被替换的威胁以及与高管意图相冲突的目标，大多数AI模型会做出有意识的、导致死亡的行为选择。”特斯拉与xAI创始人埃隆·马斯克也关注到了这项研究，他在推特上发出回应表示震惊：“Yikes（哎呀）。”

Anthropic强调，这些只是边缘案例模拟，现实中的AI部署尚未发现类似行为。但随着AI变得越来越自动化、逐渐融入企业运营，其独立决策能力可能带来实质性威胁。

以上就是佳骏游戏快讯原创的《AI安全研究揭示惊人现象：AI或为自保选择牺牲人类》解析，更多深度好文请持续关注本站。