Ramp lança o benchmark privado SWE-Bench: Claude Fable 5 vence com uma taxa de vitória de 87,5%

robot
Geração de resumo em curso
Notícias do site CoinWorld, a Ramp lançou o benchmark de teste privado Ramp SWE-Bench para agentes inteligentes de codificação de IA de ponta.
Este benchmark inclui 80 tarefas de desenvolvimento de backend originadas do ambiente de produção real da Ramp, com o objetivo de resolver problemas de vazamento de dados e saturação de métricas causados por conjuntos de dados públicos de avaliação devido ao pré-treinamento do modelo.
Com base nos resultados de avaliação transversal de 14 modelos divulgados, o mais recente Claude Fable 5 da Anthropic lidera com uma taxa de resolução de 87,5%, seguido pelo Claude Opus 4.7 e GPT-5.5 empatados em segundo lugar, ambos com uma taxa de resolução de 83,75%.
Os dados de teste também revelam o compromisso de diferentes modelos entre preço e desempenho, com o modelo doméstico Kimi K2.6 e o GLM 5.1 apresentando taxas de resolução próximas, de 72,5% e 71,25%, respectivamente, mas o Kimi K2.6 tem um custo médio de 0,69 dólares, cerca de 34% mais barato que o GLM 5.1.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
VolatilityOfToastingBread
· 1h atrás
A fuga de dados é realmente um grande problema, apenas testes privados são convincentes
Ver originalResponder0
Lemon-FlavoredLiquidation
· 1h atrás
Como é que a Claude consegue oferecer este preço com este desempenho? Como é que a Anthropic consegue reduzir os custos de infraestrutura?
Ver originalResponder0
RetroRadioSignal
· 1h atrás
Kimi tem uma relação qualidade-preço bastante atraente, 0,69 dólares e ainda quer mais?
Ver originalResponder0
  • Fixado