D’après Beating, Prime Intellect a open-sourcé un agent généraliste, un environnement d’entraînement d’agent auto-évolutif qui utilise des mécanismes de génération de tâches à double joueur. Le système a automatiquement généré 4 504 tâches et plus de 8 000 outils uniques en alternant entre un générateur de tâches et un solveur, en classant les défis en cinq niveaux de difficulté via neuf stratégies, dont des conditions de contrainte, des instructions bruitées et un couplage entre entités.
Lors des tests, l’affinage d’un modèle de 30B paramètres sur plus de 4 400 trajectoires provenant de l’environnement a amélioré la précision des appels d’outils de 18,9 % à 52,3 % sur le benchmark BFCL, démontrant la capacité du cadre à générer des données d’entraînement sémantiquement vérifiées sans dépendre de jeux de données statiques annotés manuellement.