GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Sondage POLITICO : 45 % des Américains disent que les investissements en crypto sont trop risqués, 50 % font davantage confiance aux banques

D’après un sondage POLITICO, 45% des Américains pensent que les investissements en cryptomonnaies ne valent pas le risque, et environ 50% déclarent leur faire davantage confiance aux banques traditionnelles pour protéger leur argent. Le sondage a également révélé que 44% des personnes interrogées estiment que l’intelligence artificielle se développe trop vite,

GateNewsIl y a 4h

Amazon et OpenAI élargissent leur partenariat : des modèles mis en ligne sur Bedrock, l’exclusivité de Microsoft prend fin

OpenAI, le 3 mai, a annoncé étendre sa collaboration avec les services cloud d’Amazon (AWS) : ses modèles OpenAI et ses agents d’encodage Codex seront proposés aux clients AWS via Amazon Bedrock. D’après un article de CNBC, cette extension constitue une étape clé après la fin, fin avril, du contrat d’exclusivité cloud entre OpenAI et Microsoft : OpenAI passe du statut de « seul cloud Microsoft » à un déploiement multi-cloud. AWS, de son côté, a déjà finalisé l’intégration initiale des produits OpenAI sur la plateforme Bedrock. Contexte : fin du contrat d’exclusivité OpenAI–Microsoft, prolongation de la licence IP jusqu’en 2032 Fin avril, OpenAI et Microsoft ont conclu un nouvel accord : la structure initiale « Microsoft avec accès exclusif aux produits et à la propriété intellectuelle (IP) d’OpenAI » prend fin, et Op

ChainNewsAbmediaIl y a 5h

Les chercheurs déploient la technologie DPN-LE pour modifier des traits de personnalité de l’IA, en ne modifiant que 0,5 % des neurones

D'après BlockBeats, le 3 mai, le chercheur en IA Brian Roemmele a révélé que sa société Zero-Human a déployé la technologie DPN-LE (Dual Personality Neuron Localization and Editing) afin d’ajuster avec précision

GateNewsIl y a 6h

Claude vérifie l’horloge toutes les 15 minutes après avoir obtenu l’accès à l’outil de correction du retard

D’après le développeur Om Patel, Claude AI a commencé à vérifier fréquemment l’horloge après avoir obtenu l’accès à un outil de temps le 3 mai, le modèle vérifiant toutes les 15 minutes. L’observation met en évidence que les grands modèles de langage n’avaient auparavant pas de perception du temps native et n’étaient pas conscients de l’heure actuelle ou

GateNewsIl y a 7h

Founders Fund clôture un fonds flagship de 6 milliards de dollars, le plus important depuis sa création, le 3 mai

D’après Bloomberg, Founders Fund a finalisé une levée de fonds pour son dernier fonds phare à 6 milliards de dollars le 3 mai, dépassant largement son fonds précédent d’environ 3,4 milliards de dollars. Le fonds, cofondé par le milliardaire Peter Thiel, se concentrera sur des secteurs à forte croissance, notamment l’intelligence

GateNewsIl y a 7h

Dernier sondage POLITICO : 45 % des Américains disent que l’investissement dans la crypto est trop risqué, 44 % s’inquiètent de l’avancée trop rapide de l’IA

Selon un sondage POLITICO, malgré les financements politiques importants injectés par les secteurs de l’IA et de la crypto dans les élections législatives américaines de mi-mandat de 2026, le public américain reste largement sceptique à l’égard des deux secteurs. L’enquête a révélé que 45% des Américains pensent que l’investissement dans les cryptomonnaies n’en vaut pas la peine.

GateNewsIl y a 8h
Commentaire
0/400
Aucun commentaire