Claude Fable 5: pontuação de depuração cai de 86,2 para 25,9 em 1º de julho, mas Arena.AI mostra desempenho estável.

De acordo com o BridgeBench, a pontuação de depuração do Claude Fable 5 caiu de 86,2 para 25,9 após sua reintegração em 1º de julho, com a refatoração caindo de 73,6 para 38,4. No entanto, o declínio reflete o novo classificador de segurança da Anthropic que roteia a maioria das tarefas de codificação para o Claude Opus 4,8, não uma degradação do modelo. Das 12 tarefas de depuração, apenas três chegaram ao Fable 5; o classificador interceptou nove propositalmente para evitar explorações de jailbreak.

Os testes simultâneos de preferência humana da Arena.AI em milhares de votos cegos descobriram que o desempenho do Fable 5 permaneceu praticamente inalterado após a reintegração, com pontuações em documentos subindo 34 pontos e textos especializados subindo 25. Usuários comuns que lidam com escrita criativa, pesquisa e análise provavelmente notarão um impacto mínimo, enquanto desenvolvedores que trabalham com código relacionado à segurança enfrentam roteamento de fallback frequente. A Anthropic reconheceu que os classificadores atualmente lançam uma rede muito ampla, mas não forneceu um cronograma para refinamento.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários