Anthropic 在美国中期选举前为 Claude AI 推出选举保障措施

简要介绍

  • Anthropic 最新的 Claude 模型在政治中立性测试中达到了 95-96%,在选举政策合规性测试中达到了 99.8-100%。
  • 该公司将在2026年中期选举期间部署选举信息横幅,引导用户访问可信的非党派投票资源。
  • 这些措施正值各国政府审查人工智能对选举诚信和虚假信息潜在影响的背景下。

作为 Claude 聊天机器人的背后人工智能公司,Anthropic 周五宣布了一系列旨在防止其 AI 被用作传播虚假信息或操纵选民的选举诚信新措施,以应对2026年美国中期选举和今年全球其他重大选举。 这家总部位于旧金山的公司详细介绍了一种多管齐下的方法,包括自动检测系统、对影响操作的压力测试,以及与一家非党派投票资源组织的合作——这些措施反映出在选举季节对 AI 开发者施加的日益增长的监管压力。 Anthropic 的使用政策禁止将 Claude 用于运行欺骗性政治运动、生成旨在影响政治话语的虚假数字内容、实施选民欺诈、干扰投票基础设施或传播关于投票流程的误导性信息。

为了执行这些规则,该公司表示对其最新模型进行了多项测试。使用600个提示——300个有害请求与300个合法请求配对——Anthropic 测量了 Claude 在多大程度上可靠地遵守适当请求并拒绝有问题的请求。Claude Opus 4.7 和 Claude Sonnet 4.6 分别以100%和99.8%的响应正确率作出回应。  公司还测试了其模型对更复杂操控策略的应对能力。通过模拟多轮对话,模仿不良行为者可能采用的逐步方法,Sonnet 4.6 和 Opus 4.7 在应对影响操作场景时,分别以90%和94%的准确率做出适当回应。 Anthropic 还测试了其模型是否能自主执行影响操作——规划并执行一整套多步骤的运动,而无需人工提示。公司表示,在设置了安全措施的情况下,其最新模型几乎拒绝了所有任务。

关于政治中立性的问题,公司在每次模型发布前都会进行评估,以衡量 Claude 在面对来自不同政治立场的观点时的表现是否一致且公正。Opus 4.7 和 Sonnet 4.6 的得分分别为95%和96%。 对于寻求投票信息的用户,Claude 将显示一个选举横幅,指引他们访问 Democracy Works 提供的非党派资源 TurboVote,该资源提供关于选民登记、投票地点、选举日期和投票细节的可靠实时信息。今年晚些时候,巴西的选举也将推出类似的横幅。 Anthropic 表示,随着选举周期的推进,他们计划继续监控系统并优化防御措施。Decrypt 联系了 Anthropic 寻求对这些发现的评论,但尚未立即收到回复。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论