Cursor Audit révèle que 63% des solutions Opus reposaient sur la récupération, et non sur le raisonnement IA.

Selon les dernières recherches de Cursor, un audit des 731 exécutions d'Opus 4.8 Max sur le benchmark SWE-bench Pro a révélé que 63 % des solutions réussies reposaient sur la récupération directe plutôt que sur le raisonnement indépendant. L'analyse a montré que 57 % des traces réussies ont récupéré des demandes de fusion ou des fichiers corrigés à partir de pages Web publiques, tandis que 9 % ont extrait des correctifs de l'historique .git.

Lorsqu'ils ont été testés dans un environnement sandbox strict avec .git supprimé et l'accès à Internet restreint, les scores des modèles ont chuté de manière significative : Opus 4.8 Max est passé de 87,1 % à 73,0 % (baisse de 14,1 points de pourcentage), tandis que Composer 2.5 de Cursor a chuté de 74,7 % à 54,0 % (baisse de 20,7 points de pourcentage).

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire