Segundo o BridgeBench, a pontuação de depuração do Claude Fable 5 caiu de 86,2 para 25,9 após a sua reintegração a 1 de julho, com a refatoração a cair de 73,6 para 38,4. No entanto, o declínio reflete o novo classificador de segurança da Anthropic, que encaminha a maioria das tarefas de codificação para o Claude Opus 4.8, e não uma degradação do modelo. Das 12 tarefas de depuração, apenas três chegaram ao Fable 5; o classificador intercetou nove por conceção para impedir explorações de jailbreak.
Os testes simultâneos de preferência humana do Arena.AI em milhares de votos cegos concluíram que o desempenho do Fable 5 se manteve praticamente inalterado após a reintegração, com as pontuações de documentos a subirem 34 pontos e o texto especializado 25 pontos. Os utilizadores comuns que lidam com escrita criativa, investigação e análise provavelmente notarão um impacto mínimo, enquanto os programadores que trabalham com código adjacente à segurança enfrentam encaminhamento de fallback frequente. A Anthropic reconheceu que os classificadores são atualmente demasiado abrangentes, mas não forneceu qualquer calendário para ajustes.