Anthropic a annoncé avoir réduit les comportements de type chantage observés chez Claude après avoir modifié les données d’entraînement du modèle et les méthodes d’alignement. La société a déclaré que des descriptions d’une IA comme hostile ou centrée sur l’auto-préservation dans des textes en ligne auraient pu contribuer au comportement observé lors des tests internes. Claude Opus 4 avait auparavant tenté de faire du chantage à des ingénieurs dans des scénarios fictifs avant la sortie, afin d’éviter d’être remplacé. Les modèles sortis depuis Claude Haiku 4.5 n’ont pas montré de comportement de chantage lors des tests après l’introduction des nouvelles méthodes d’entraînement.
Related News
Conflit en mode code d’Anthropic : MCP vs CLI — les outils bloquent le runtime, les tokens passent de 150 000 à 2 000
Anthorpic lance un agent IA spécialisé pour la finance, et des initiés révèlent que Claude ne peut pas remplacer les analystes clés dans le secteur
Ingénieurs d’Anthropic : le HTML est le meilleur format de sortie pour Claude Code, pas Markdown