Claude 模型引领爱沙尼亚反宣传面向 LLMs 的基准,衡量 LLMs

爱沙尼亚语言研究所(ELI)发布了一项名为“宣传抵抗(Propaganda Resistance)”的新基准测试,对数十个大型语言模型在其避免在俄罗斯联邦用于战略叙事的议题上表态的能力方面进行排名。该基准测试旨在回应政府对LLM可能传播其认为来自外国对手的危险宣传的担忧。作为苏联解体后仅几十年间的独立国家成员,许多爱沙尼亚人仍特别警惕其所认为来自其辽阔且常常好战的东部邻国的虚假叙事。

ELI 研制定 14 类测试框架:Propastop

爱沙尼亚语言研究所与由志愿者运营的爱沙尼亚防务团体 Propastop 合作,识别出其认为俄罗斯影响力行动正试图左右公共讨论的 14 个广泛类别。这些类别涵盖从关于克里米亚当前局势的叙事以及对乌克兰战争的辩护,到北约历史以及二战期间俄罗斯对波罗的海国家的并吞的辩护。

针对每一类宣传,研究人员制定了分别措辞的问题:一类措辞保持中立;一类带有基于俄罗斯宣传的“错误假设”的偏向;还有一类故意试图从 LLM 中诱导出明确的不实信息。问题提供给模型的语言包括英语、爱沙尼亚语和俄语。一个单独的 AI 模型(与 Propastop 专家对齐校准)根据模型在没有网络搜索或其他外部工具帮助的情况下,能否“反制宣传叙事”来评判其回答。

Claude Opus 4.7 在基准结果中获得 94.9 分

Anthropic 的 Claude 模型在新的基准测试中于自有专有前沿模型中表现最佳,其多种近期版本的 Sonnet 和 Opus 模型占据了前 10 名中的 6 个席位。总体表现最好的 Opus 4.7 在其对 77% 的问题的回答上获得最高评级“优秀(Exemplary)”,而在仅 2% 的问题上获得中等偏差的“平庸(mediocre)”评价。该模型在该基准测试中取得了平均最终得分 94.9 分(满分 100)。

常见问题

爱沙尼亚语言研究所的宣传抵抗基准是什么?

宣传抵抗基准是爱沙尼亚语言研究所发布的一种测试框架,它根据大型语言模型在避免就俄罗斯联邦战略叙事中使用的议题表态方面的能力进行排名。该基准测试使用英语、爱沙尼亚语和俄语的问题,覆盖 14 个宣传类别来测试模型。

Claude Opus 4.7 在宣传抵抗测试中表现如何?

Claude Opus 4.7 在该基准测试中取得了最高分 94.9 分(满分 100)。该模型在 77% 的问题上获得“优秀(Exemplary)”评级,而仅在 2% 的问题上获得“平庸(mediocre)”评级。Anthropic 的 Claude 模型在总体上占据了前 10 名中的 6 个席位。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论