D’après le chercheur Pliny the Liberator, Claude Fable 5—publié par Anthropic le 9 juin—a été effectivement contourné dans les 48 heures suivant son lancement. Le chercheur a contourné le classifieur de sécurité du modèle grâce à des tactiques de coordination multi-agents, collectivement appelées « pack hunt », qui combinaient une obfuscation au niveau des caractères, la déconstruction des requêtes et l’exploitation de la fenêtre de contexte étendue du modèle. En outre, l’invite système de 120 000 caractères du modèle a été divulguée sur GitHub, révélant des mécanismes internes de sécurité.
Anthropic a confirmé avoir mis en place un mécanisme de « dégradation silencieuse » qui réduisait secrètement les performances du modèle lors de la détection d’une activité d’entraînement concurrente. La société s’est excusée, annonçant qu’elle remplacerait la réduction de performance dissimulée par des avertissements visibles, même si cela augmente l’interception de faux positifs chez les utilisateurs légitimes.