Anthropic 发布自然语言自动编码器以解码 AI 模型推理,并开源代码

Anthropic 最近发布了自然语言自动编码器(Natural Language Autoencoders,NLA),这是一种将模型内部激活转换为人类可读文本的工具,并已在 GitHub 上开源了代码和模型权重。不同于现有工具(如稀疏自动编码器,Sparse Autoencoders)会输出难以理解的特征,NLA 通过双模型框架直接生成自然语言描述:一个模型将激活转换为文本,另一个模型则尝试从文本重建激活,通过强化学习迭代提升准确性。

在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

机器人训练数据成本自 2024 年以来下降 65%,从每小时 340 美元降至每小时 118 美元

据 Cointelegraph 称,自 2024 年以来,机器人训练数据成本下降了 65%,到 2026 年已从每小时 340 美元降至每小时 118 美元。

GateNews36 分钟前

中国移动在 5 月 8 日宣布与 8 家合作伙伴成立代币应用生态联盟

据 PANews 报道,5 月 8 日,中国移动宣布成立 Token 应用生态联盟,包含 8 家合作伙伴,包括阿里云、火山引擎和华为云。该联盟利用 MoMA 模型聚合平台,构建面向国内 AI 的统一服务网关 m

GateNews51 分钟前

中国发布 AI 能源行动计划,目标涵盖 2027 年和 2030 年,日期为 5 月 8 日

据 PANews 报道,5 月 8 日,中国国家发展和改革委员会、国家能源局、工业和信息化部、国家数据局联合发布了一项行动

GateNews1小时前

中国三部门发布关于 AI 代理的指导意见,涵盖 19 个典型应用场景

根据 PANews,中国国家互联网信息办公室、国家发展和改革委员会以及工业和信息化部今日(5 月 8 日)联合发布了关于 AI 代理的指导文件。该文件将 AI 代理定义为一种具有自主

GateNews1小时前

IMF:AI 可能对金融稳定构成威胁

国际货币基金组织关于 AI 与金融稳定风险的报告 国际货币基金组织在 5 月 7 日发布的一份报告称,人工智能(AI)正在改变金融系统对网络漏洞和安全事件的响应方式,同时放大网络安全风险,并且

Crypto Frontier1小时前

SpaceXAI 推出 Grok Build 桌面端编码工具,于今日曝光;竞争对手包括 Claude Code 和 OpenAI Codex

据称,Beating 说 SpaceXAI(原 xAI)正在推出 Grok Build,这是一款桌面端编码工具,今天意外地在 Grok 的网页界面上公开了。该工具直接与 Claude Code 以及 OpenAI Codex 竞争。 Grok Build 将支持 macOS、Linux 和 Windows。不同于传统的先聊天后编码的

GateNews1小时前
评论
0/400
暂无评论