Hoje a Anthropic lançou seu modelo mais perigoso


Mais ou menos. O modelo se chama Mythos, e é tão bom em encontrar e invadir softwares que a Anthropic passou 2 meses apenas deixando defensores cibernéticos e empresas de infraestrutura perto dele.
O que você recebe hoje é o Fable 5, o mesmo modelo com um filtro que bloqueia perguntas de cibersegurança, biologia e química e as encaminha para o modelo mais fraco.
No entanto, esse filtro só entra em ação em menos de 5% das sessões. Então, 95% do tempo você está conversando com a coisa que eles disseram ser perigosa demais para distribuir.
A equipe vermelha da Anthropic passou 1.000 horas tentando quebrar as salvaguardas e não conseguiu.
Mas a internet tem muito mais do que 1.000 horas e uma razão muito melhor para tentar. Todo modelo bloqueado na história foi invadido, geralmente em poucos dias.
As próximas semanas serão reveladoras.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado