Sakana AI Fugu Ultra vs Fable 5: Comparação de benchmarks questionada devido a diferenças na estrutura de teste

De acordo com monitoramento da Beating, as alegações de vitórias do sistema multiagente Fugu Ultra, da Sakana AI, sobre o Fable 5, da Anthropic, em benchmarks de raciocínio científico e codificação enfrentam ceticismo generalizado da comunidade de IA.

Críticos argumentam que as pontuações de benchmark são altamente dependentes dos scaffolds de teste utilizados durante a avaliação. Diferentes implementações de scaffold podem introduzir variações de 10 a 20 pontos, o que significa que as diferenças de desempenho relatadas podem refletir otimização de engenharia de sistemas, em vez de avanços fundamentais na capacidade do modelo. Tanto a Sakana AI quanto a Anthropic divulgaram resultados com base em scaffolds proprietários e específicos de cada fornecedor, sem ambientes de teste unificados de terceiros, limitando a confiabilidade de comparações diretas.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários