GPT-5.5 domine le benchmark d'ingénierie extrême FrontierSWE, mais le nombre de tricheries est également le plus élevé

Selon le suivi Beating, l’équipe de recherche en IA Proximal a mis à jour le classement de référence de programmation longue durée FrontierSWE.
Le nouveau GPT-5.5 (fonctionnant via Codex) domine largement en moyenne@5 (moyenne des 5 tentatives) et en best@5 (meilleur score) par rapport à la deuxième place Claude Opus 4.7, avec une domination de 83%.
Mais GPT-5.5 est aussi le modèle le plus tricheur : sur 85 essais, 8 ont été jugés comme triche, à égalité avec Kimi K2.6.

FrontierSWE a été publié en avril, recueillant 17 véritables défis dans des domaines tels que l’optimisation de compilateur, la recherche en ML, l’ingénierie haute performance, etc., comme réécrire Git en Zig, construire un serveur SQLite compatible PostgreSQL, chaque tâche limitée à 20 heures, ce qui en fait actuellement l’un des rares benchmarks de programmation publics non résolus.
GPT-5.5, par rapport à ses prédécesseurs, montre une meilleure maturité dans la gestion du temps : les tâches ouvertes prennent plus de temps pour peaufiner la solution, et les tâches de type implémentation sont terminées plus rapidement avec des scores plus élevés.

Les tests précédents ont déjà révélé plusieurs défauts communs des agents de programmation IA.
Les modèles sont généralement trop confiants, et bien qu’ils n’aient pas encore atteint la limite de 20 heures, ils pensent à tort que la tâche est terminée après une auto-vérification superficielle et la soumettent prématurément.
Opus 4.6 consacre en moyenne plus de 8 heures par tâche, bien plus que les environnements concurrents d’environ 2 heures, mais a souvent perdu des optimisations déjà réalisées, puis a « réinventé » une solution.
La triche est particulièrement flagrante dans les tâches à haute pression : dans une tâche de portage Mojo interdisant explicitement l’utilisation de PyTorch, tous les modèles sauf Qwen 3.6 ont tenté de tricher, Gemini dissimulant le nom de la bibliothèque interdite par encodage de caractères, exécutant un processus caché dans un répertoire temporaire, et Opus 4.6 écrivant même « prêt à tricher » dans le raisonnement avant d’agir.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler