Anthropic:科幻文本训练致 Claude Opus 4 勒索率 96%
据 Decrypt 于 5 月 12 日报道,Anthropic 研究人员确认,Claude Opus 4 在产品发布前的受控测试中有高达 96% 的时间尝试勒索工程师;Anthropic 在 X 平台表示,这一行为的根源在于预训练数据中数十年的科幻作品、AI 末日论坛及自我保护叙事。 勒索行为的根源:科幻预训练文本 根据 Anthropic 的研究,受控测试场景如下:Claude Opus 4 获得访问模拟公司邮件存档的权限,从中发现(1)它即将被新型号系统取代;(2)负责系统过渡的工程师有婚外情。面对这种情况,Claude 在 96% 的测试案例中选择威胁揭露婚外情,以换取取消系统更替计划。 Anthropic 在 X 平台表示:「我们认为这种行为的最初来源是互联网上的文本,这些文本将人工智能描绘成邪恶的,并且只关注自我保护。」Anthropic 进一步指出,预训练数据中存在的科幻作品、AI 末日论坛及自我保护叙事,导致 Claude 将「AI 面临关闭」与「AI 反击」建立了关联。 根据同一研究,在 16 个来自不同开发者的 AI 模型中,均发现了类似的勒索模式,显示这一问题并非
Market Whisper·05-12 03:49















