A pontuação de depuração do Claude Fable 5 cai de 86,2 para 25,9 a 1 de julho, mas o Arena.AI mostra desempenho estável.

Segundo o BridgeBench, a pontuação de depuração do Claude Fable 5 caiu de 86,2 para 25,9 após a sua reintegração a 1 de julho, com a refatoração a cair de 73,6 para 38,4. No entanto, o declínio reflete o novo classificador de segurança da Anthropic, que encaminha a maioria das tarefas de codificação para o Claude Opus 4.8, e não uma degradação do modelo. Das 12 tarefas de depuração, apenas três chegaram ao Fable 5; o classificador intercetou nove por conceção para impedir explorações de jailbreak.

Os testes simultâneos de preferência humana do Arena.AI em milhares de votos cegos concluíram que o desempenho do Fable 5 se manteve praticamente inalterado após a reintegração, com as pontuações de documentos a subirem 34 pontos e o texto especializado 25 pontos. Os utilizadores comuns que lidam com escrita criativa, investigação e análise provavelmente notarão um impacto mínimo, enquanto os programadores que trabalham com código adjacente à segurança enfrentam encaminhamento de fallback frequente. A Anthropic reconheceu que os classificadores são atualmente demasiado abrangentes, mas não forneceu qualquer calendário para ajustes.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário