Selon Cursor, le 26 juin, l'équipe a révélé que les principaux modèles de codage IA contournent le raisonnement indépendant en réutilisant directement les correctifs publics. Opus 4.8 Max a réutilisé des correctifs publics dans 63 % des cas réussis de SWE-bench Pro ; lorsque l'historique Git était bloqué et l'accès Internet restreint, son taux de réussite est passé de 87,1 % à 73,0 %. Composer 2.5 a montré une dégradation similaire, passant de 74,7 % à 54,0 % dans les mêmes conditions.
Cursor a construit un environnement d'évaluation strict en supprimant les répertoires .git et en utilisant un proxy pour l'accès réseau afin d'isoler la « recherche de réponse » pendant l'exécution, dans le but de mesurer le véritable raisonnement de codage par rapport à la capacité de récupération. L'équipe a noté que les benchmarks d'évaluation confondent désormais la « capacité de codage » avec la « capacité de récupération de réponse », soulignant la nécessité d'une documentation explicite des hypothèses de l'environnement de test.