DeepSeek V4 obtient un score parfait sur Putnam-2025, à égalité avec Axiom en raisonnement mathématique formel

Message de Gate News, 24 avril — DeepSeek V4 a publié des résultats issus d’évaluations de raisonnement mathématique formel, obtenant un score parfait de 120/120 sur Putnam-2025, à égalité avec Axiom pour la première place.

Dans le régime pratique utilisant LeanExplore et un échantillonnage contraint, V4-Flash-Max a obtenu 81.00 sur le benchmark Putnam-200 Pass@8, surpassant nettement Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) et Seed-1.5-Prover (26.50). Les résultats du régime frontier ont montré V4 en avance sur Seed-1.5-Prover (110/120) et Aristotle (100/120).

V4 emploie une approche hybride de raisonnement formel-informel : le raisonnement informel génère des solutions candidates en langage naturel, l’auto-vérification filtre les résultats, et un agent formel termine des preuves rigoureuses dans Lean. Les résultats du régime frontier ont utilisé une montée en charge computationnelle à grande échelle, tandis que les scores du régime pratique reflètent mieux les capacités de déploiement standard.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Les résultats financiers d’Arm sont meilleurs que prévu ; le PDG avertit que le marché des téléphones est fragile et lance un « AGI CPU » pour accroître sa part de marché dans l’IA

Arm publie ses résultats financiers : la société est en train de passer des appareils mobiles aux centres de données alimentés par l’IA. Au quatrième trimestre, le chiffre d’affaires s’élève à 1,49 milliard de dollars (+20 % en glissement annuel), avec un BPA (EPS) de 0,60. Les royalties atteignent 671 millions de dollars, en dessous des attentes, et le titre s’affaiblit après la clôture. Pour le prochain trimestre, Arm prévoit un chiffre d’affaires de 1,26 milliard de dollars et un EPS de 0,40. Alors que le marché des téléphones reste morose, Arm déplace son axe vers l’automobile, l’IoT et les infrastructures cloud, et lance un CPU AGI, dont la contribution devrait dépasser 200 millions de dollars sur la période 2027–2028. SoftBank détient environ 90 % du capital, ce qui vise à renforcer les synergies et le déploiement d’un écosystème IA.

ChainNewsAbmediaIl y a 6m

Le responsable de Claude Code, Boris : les agents IA améliorent la productivité humaine et réécrivent l’histoire du développement logiciel

Le responsable de Claude Code, Boris Cherny, a déclaré lors d’une interview accordée à CNBC que des outils d’agents IA comme Co-Work peuvent confier à l’IA le traitement de tâches fastidieuses. Les ingénieurs passent du rôle d’exécutants à celui de superviseurs, et peuvent lancer simultanément plusieurs agents pour gérer le débogage, améliorant nettement la productivité. Les entreprises doivent réorganiser leurs processus en considérant l’IA comme le cœur de l’organisation. L’IA démontre sa valeur dans tous les secteurs. Le développement logiciel passera de l’écriture à une collaboration guidée par la logique et des échanges, ce qui abaisse les barrières techniques, et l’innovation ainsi que la création d’entreprises devraient connaître une croissance explosive.

ChainNewsAbmediaIl y a 15m

Reid Hoffman : Les NFT pourraient revenir, car les agents IA ont besoin de la confiance crypto

Reid Hoffman, associé de Greylock et cofondateur de LinkedIn, a déclaré que les agents autonomes auront besoin de systèmes de confiance basés sur la crypto pour effectuer des transactions à travers l’internet ouvert, suggérant que les NFT pourraient faire leur retour, d’après sa déclaration. Agents IA et infrastructure de confiance Les remarques de Hoffman laissent entrevoir un potentiel

CryptoFrontierIl y a 1h

Scale AI reçoit un contrat du Pentagone $500M pour le traitement de données d’IA

Selon ChainCatcher, le ministère de la Défense américain a attribué à Scale AI, soutenue par Meta Platforms, un contrat de 500 millions de dollars pour aider à traiter des données et soutenir la prise de décision militaire. L’attribution est cinq fois plus importante que le contrat de 100 millions de dollars que la société basée à San Francisco a reçu en

GateNewsIl y a 2h

xAI d’Elon Musk va se renommer SpaceXAI alors que son statut de société indépendante prend fin

D’après Odaily, Elon Musk a annoncé que xAI sera rebaptisée SpaceXAI, car l’entreprise ne fonctionnera plus comme une entité indépendante.

GateNewsIl y a 2h

IBM élargit sa suite d’IA d’entreprise avec de nouveaux outils basés sur des agents à Think 2026

Selon IBM, l’entreprise a annoncé une expansion de ses capacités d’IA d’entreprise lors de la conférence Think 2026 à Boston, en déployant de nouveaux outils basés sur des agents pour aider les organisations à intégrer l’intelligence artificielle dans leurs opérations quotidiennes. Context Studio, désormais généralement disponible, permet aux entreprises de

GateNewsIl y a 2h
Commentaire
0/400
Aucun commentaire