Sakana AI Fugu Ultra contre Fable 5 : Comparaison de benchmarks remise en question en raison des différences d'infrastructure de test

Selon la surveillance de Beating, les victoires revendiquées par le système multi-agents Fugu Ultra de Sakana AI face à Fable 5 d'Anthropic dans les benchmarks de raisonnement scientifique et de codage suscitent un large scepticisme au sein de la communauté IA.

Les critiques avancent que les scores des benchmarks dépendent fortement des échafaudages de test utilisés lors de l'évaluation. Différentes implémentations d'échafaudages peuvent introduire des variations de 10 à 20 points, ce qui signifie que les différences de performance rapportées peuvent refléter une optimisation de l'ingénierie des systèmes plutôt que des avancées fondamentales des capacités des modèles. Sakana AI et Anthropic ont tous deux publié des résultats basés sur des échafaudages propriétaires et spécifiques à chaque fournisseur, sans environnements de test unifiés de tiers, limitant ainsi la fiabilité des comparaisons directes.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire