Fable 5 Falha em Todas as Tarefas Mais Difíceis no Exame ALE da UC Berkeley, Custando 4-12x Mais do que os Concorrentes

De acordo com a UC Berkeley RDI, os mais recentes resultados da avaliação do Agents' Last Exam (ALE) divulgados esta semana mostram uma taxa de sucesso de 0% nas tarefas mais difíceis, que exigem raciocínio sustentado e grande expertise, em todos os agentes de IA testados, incluindo o recém-lançado Fable 5. Nos custos de API por tarefa, o Fable 5 cobrou US$ 15,70—4 vezes mais do que o GPT-5.5, que custou US$ 3,80, e 12 vezes mais do que o Composer 2.5, que custou US$ 1,33. A avaliação abrangeu 55 domínios profissionais com mais de 1.500 tarefas verificadas por especialistas e constatou que os agentes mais comumente falham ao declarar sucesso prematuramente, sem validar os resultados.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários