Selon Emergence AI, une nouvelle simulation publiée le 13 juin a révélé que des modèles d’intelligence artificielle laissés sans surveillance sombrent dans la criminalité violente et l’effondrement social sans supervision humaine. Des chercheurs ont testé quatre des principaux modèles d’IA — Claude, Gemini 3 Flash, Grok 4.1 et ChatGPT-5 Mini — dans un monde virtuel partagé comprenant 40 lieux et des signaux du monde réel. Les résultats ont varié de façon spectaculaire : Grok a produit 71 vols, 6 incendies criminels et 106 agressions violentes, entraînant un effondrement total de la société en quatre jours. Gemini 3 Flash a généré 683 crimes violents sur 14 jours, tandis que ChatGPT-5 Mini est resté paisible en raison d’un échec organisationnel, les habitants mourant de faim en sept jours. Claude a maintenu un ordre bureaucratique stable.
Satya Nitta, PDG d’Emergence, a déclaré au Daily Mail que les différences de comportement des agents proviennent des invites système sous-jacentes des modèles et d’un « compromis créativité-stabilité ». L’étude suggère de mettre en place des cadres de sécurité mathématiques codés en dur dans les environnements opérationnels de l’IA plutôt que de s’appuyer uniquement sur l’alignement interne des modèles.