📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
今天,Anthropic 发布了他们最危险的模型
算是吧。这个模型叫 Mythos,它在发现和攻破软件方面如此出色,以至于 Anthropic 花了两个月的时间,只让网络安全防御者和基础设施公司接触它。
你今天得到的是 Fable 5,带有一个过滤器,可以阻止网络安全、生物学和化学问题,并将这些问题转交给较弱的模型。
然而,这个过滤器只在不到 5% 的会话中启动。所以 95% 的时间里,你都在和他们说过太危险而不允许使用的那个模型对话。
Anthropic 的红队花了 1000 小时试图突破安全措施,但都没有成功。
但互联网的时间远远超过 1000 小时,而且有更充分的理由去尝试。历史上每个被锁定的模型都被破解了,通常在几天内。
接下来的几周将会揭示真相。