Anthropic 最近发布了自然语言自动编码器(Natural Language Autoencoders,NLA),这是一种将模型内部激活转换为人类可读文本的工具,并已在 GitHub 上开源了代码和模型权重。不同于现有工具(如稀疏自动编码器,Sparse Autoencoders)会输出难以理解的特征,NLA 通过双模型框架直接生成自然语言描述:一个模型将激活转换为文本,另一个模型则尝试从文本重建激活,通过强化学习迭代提升准确性。
在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Tessera Labs 完成由 a16z 领投的 $60M 融资轮次
据 Odaily 报道,AI 自动化初创公司 Tessera Labs 宣布完成一轮 6000 万美元的融资,由 Andreessen Horowitz(a16z)领投,Foundation Capital、Myriad Venture Partners 和 Osage University Partners 参与。该公司的 AI 原生平台可自动化企业
GateNews1小时前
攻击者通过 13 个账号向 Hugging Face 和 ClawHub 注入 575 项恶意技能
据 Mist Security 首席信息安全官 @im23pds 称,攻击者最近入侵了 13 个账户,以向 Hugging Face 和 ClawHub(OpenClaw)注入 575 个恶意 Skills,相关信息已在 X 平台披露。
GateNews1小时前
DeepSeek 计划在创纪录的融资轮中最多募集人民币 500 亿,并将在 6 月推出 V4.1 模型
据 PANews 5 月 8 日报道,DeepSeek 计划在首轮融资中最多筹集人民币 500 亿,这将成为中国 AI 公司单笔融资规模最大的融资。创始人兼 CEO 梁文峰预计将出资最多。该公司计划加速大语言模型
GateNews2小时前
Sportix 完成 320 万美元的融资轮,由 Coinvestor Ventures 领投,Animoca Brands 参与
据 ChainCatcher 称,体育 AI 基础设施平台 Sportix 已完成一轮 320 万美元的融资。该轮融资由 Coinvestor Ventures 牵头,Animoca Brands、Becker Ventures、X21 Digital 和 Alpha Capital 参与。
Sportix 表示,它将使用这笔资金来推进其 AI
GateNews2小时前
机器人训练数据成本自 2024 年以来下降 65%,从每小时 340 美元降至每小时 118 美元
据 Cointelegraph 称,自 2024 年以来,机器人训练数据成本下降了 65%,到 2026 年已从每小时 340 美元降至每小时 118 美元。
GateNews2小时前
中国移动在 5 月 8 日宣布与 8 家合作伙伴成立代币应用生态联盟
据 PANews 报道,5 月 8 日,中国移动宣布成立 Token 应用生态联盟,包含 8 家合作伙伴,包括阿里云、火山引擎和华为云。该联盟利用 MoMA 模型聚合平台,构建面向国内 AI 的统一服务网关 m
GateNews3小时前