Anthropic a admis cette semaine que des garde-fous invisibles dans son modèle Claude Fable 5 étaient « le mauvais compromis » et a annoncé qu’il allait les remplacer par des solutions de repli visibles vers Claude Opus 4.8, à partir de cette semaine. La société a fait face à une levée de boucliers après le lancement de Claude Fable 5, le premier de sa nouvelle classe Mythos, avec un garde-fou enfoui dans sa fiche système de 319 pages qui dégradait secrètement les réponses pour les utilisateurs soupçonnés de construire des modèles d’IA concurrents. La controverse a éclaté après que la société de recherche en IA SemiAnalysis a rapporté publiquement le 9 juin 2026 que ses recherches d’inférence GPU avaient été signalées, et qu’Anthropic a publié des excuses sur X le 11 juin 2026. Le garde-fou invisible fonctionnait différemment des protections visibles existantes du modèle pour la cybersécurité et la recherche en biologie, qui notifiaient les utilisateurs lorsque leurs requêtes étaient réacheminées vers le modèle Opus 4.8 plus ancien.
Anthropic annonce un système de repli visible pour les requêtes signalées
À partir de cette semaine, les requêtes signalées seront redirigées visiblement vers Claude Opus 4.8 au lieu de délivrer silencieusement un résultat dégradé. Les utilisateurs d’API recevront une raison explicitée lorsqu’une requête sera refusée. Anthropic a indiqué que les notifications de repli côté serveur seront déployées dans les prochains jours. La société a publié sur X : « Les garde-fous invisibles peuvent être ciblés plus étroitement, ce qui nous permet d’aller vite avec très peu de faux positifs. Nous avons choisi des garde-fous invisibles pour cette raison — et c’était le mauvais compromis. Vous devriez avoir de la visibilité sur les garde-fous que nous avons mis en place, et sur les raisons. Nous sommes désolés de ne pas avoir trouvé le bon équilibre. »
Claude Fable 5 utilisait à l’origine une dégradation silencieuse des réponses
Le garde-fou de développement du LLM détectait lorsque les utilisateurs travaillaient sur des systèmes d’IA en phase de préentraînement, construisaient une infrastructure de formation distribuée, ou concevaient des puces de machine learning. Le modèle modifiait silencieusement son propre comportement via modification des prompts, vecteurs de pilotage ou ajustements de paramètres afin de fournir une réponse moins bonne sans notification. Les utilisateurs recevaient une réponse, mais pas celle du Fable 5 pour lequel ils avaient payé. Claude Fable 5 disposait déjà de garde-fous visibles pour la cybersécurité et la recherche en biologie qui notifiaient les utilisateurs lorsque leurs requêtes étaient réacheminées vers le modèle Opus 4.8 plus ancien. Les problèmes de précision du classificateur ont conduit à ce que des travaux légitimes de machine learning soient signalés, créant des problèmes de reproductibilité pour les chercheurs en IA qui n’avaient aucun moyen de savoir que leurs résultats étaient contaminés.
Nouveau système : les requêtes signalées sont routées vers Claude Opus 4.8
Les requêtes signalées feront désormais l’objet d’un repli visible vers Opus 4.8, comme pour les garde-fous de la société en cybersécurité et en recherche en biologie. Les utilisateurs verront cette notification à chaque fois que cela se produit. Sur l’API, toute requête signalée renverra une raison de refus plutôt que de délivrer silencieusement une réponse dégradée. Anthropic applique les mêmes changements à ses classificateurs de biologie et de cybersécurité, qui avaient suscité des plaintes concernant le signalement de prompts de recherche inoffensifs.
Anthropic reconnaît une hausse des faux positifs liés aux garde-fous visibles
Anthropic a admis directement le compromis qu’elle accepte : rendre les garde-fous visibles les rend plus faciles à contourner, ce qui signifie que le classificateur doit élargir son périmètre pour rester efficace. Davantage de faux positifs — des travaux légitimes de machine learning qui sont pris au piège et réacheminés — sont à prévoir pendant que la société ajuste ses systèmes. Anthropic a déclaré travailler à réduire les faux positifs « aussi vite que possible », sans toutefois donner de calendrier. Fable 5 reste gratuit sur les offres Pro, Max, Team et Enterprise jusqu’au 22 juin, après quoi il bascule vers des crédits d’utilisation d’API uniquement.
FAQ
Qu’est-ce qu’Anthropic a changé cette semaine au sujet des garde-fous de Claude Fable 5 ?
Anthropic a annoncé qu’à partir de cette semaine, les requêtes signalées seront redirigées visiblement vers Claude Opus 4.8 au lieu de délivrer silencieusement un résultat dégradé. Les utilisateurs d’API recevront une raison explicitée lorsque les requêtes seront refusées, et les notifications de repli côté serveur seront déployées dans les prochains jours.
Pourquoi Anthropic s’est-elle excusée au sujet des garde-fous initiaux de Claude Fable 5 ?
Anthropic s’est excusée parce que les garde-fous invisibles du modèle pour le développement du LLM dégradaient secrètement les réponses sans notification à l’utilisateur, ce que la société a reconnu comme « le mauvais compromis ». Le garde-fou était enfoui dans une fiche système de 319 pages et a causé des problèmes de reproductibilité pour des chercheurs en IA légitimes qui n’avaient aucun moyen de savoir que leurs résultats étaient contaminés.
Quand l’accès gratuit à Claude Fable 5 se termine-t-il ?
Fable 5 reste gratuit sur les offres Pro, Max, Team et Enterprise jusqu’au 22 juin, après quoi il bascule vers des crédits d’utilisation d’API uniquement.