A Anthropic, em 29 de abril, divulgou em seu anúncio oficial de pesquisa o BioMysteryBench—um novo padrão de avaliação voltado às capacidades de análise de bioinformática da IA, composto por questões abertas baseadas em cenários reais de pesquisa. Os dados mais chamativos são: entre as questões que ainda não foram resolvidas após tentativas por um painel de especialistas humanos, o modelo de ponta da Anthropic, o Mythos, conseguiu resolver 29,6%, enquanto o Opus 4.7 resolveu 27,0%.
Desenho da avaliação: duas trilhas — questões resolvíveis e questões insolúveis para especialistas
O BioMysteryBench é composto por dois tipos de questões. A primeira categoria é a de “questões resolvíveis” — tarefas analíticas projetadas por pesquisadores de bioinformática, com respostas padrão para comparação; já a segunda categoria é a de “questões insolúveis para especialistas” — problemas que, após a tentativa de um painel de especialistas humanos, não conseguem chegar a uma solução confiável, para testar se o modelo consegue ultrapassar os limites do conhecimento atual no domínio.
Na parte das questões resolvíveis, os modelos das diferentes gerações da Anthropic mostram uma progressão clara de capacidade: o Claude Haiku 4.5 resolveu 36,8%, o Claude Sonnet 4.6 chegou a 71,8% e o mais recente modelo de ponta, o Claude Mythos, atingiu 82,6%. Essa progressão, em grande medida, condiz com a diferença de capacidade que a Anthropic afirma publicamente — Haiku como modelo leve, Sonnet como modelo de linha principal e Mythos como modelo de pesquisa de nível máximo.
O que realmente chama atenção, porém, é a parte das questões insolúveis para especialistas. Esses problemas são marcados como “insolúveis ou sem consenso” depois de avaliação por um painel de especialistas da área de bioinformática; o Mythos resolveu 29,6% deles, e o Opus 4.7 resolveu 27,0%. Esse resultado não é uma prova única de que “o modelo é melhor do que os humanos” — uma formulação mais precisa é: nos problemas em que os especialistas não conseguem lidar por limitações de caminho, tempo ou recursos, a IA consegue propor rotas de solução verificáveis; talvez não seja a resposta final, mas possui a característica de apresentar “um ângulo que não foi tentado pelos humanos”.
Avanço em paralelo com o Claude for Life Sciences
O BioMysteryBench segue na mesma direção do programa “Claude for Life Sciences” que a Anthropic vem impulsionando desde o segundo semestre de 2025. O segundo mira cenários de aplicação concretos, como desenvolvimento de medicamentos, genômica e desenho de ensaios clínicos; o primeiro, por sua vez, usa um método de avaliação para quantificar o progresso das capacidades de “nível de pesquisa” da IA no campo das ciências da vida. O sinal combinado é: a Anthropic posiciona a biomedicina como uma das principais frentes de aplicações de longo prazo do Claude, criando uma competição com a linha do DeepMind AlphaFold por meio de uma entrada diferente.
O número de cerca de 30% de questões insolúveis para especialistas resolvidas pelo Mythos, se puder ser reproduzido em validação independente por uma terceira parte, deve se tornar uma evidência inicial do valor concreto dos modelos de IA em cenários de pesquisa. Os pontos de acompanhamento incluem: se o BioMysteryBench será adotado como padrão de avaliação por outras instituições de pesquisa, o procedimento de validação por especialistas humanos para as questões resolvidas e se o Mythos consegue replicar os resultados do teste em projetos de pesquisa reais.
Este artigo BioMysteryBench:Mythos 解專家無解題 29.6% apareceu pela primeira vez no 鏈新聞 ABMedia.
Related News
A Anthropic negocia captação com avaliação de mais de US$ 90 bilhões, e o conselho pode decidir o mais rápido em maio
Instituto de Pesquisa da Internet de Oxford: o treinamento amigável faz a taxa de erro da IA subir em 7,43 pontos percentuais
A Anthropic considera novo financiamento, com avaliação ultrapassando a OpenAI e se tornando a startup de IA com a maior avaliação
Relatório de pesquisa da a16z Crypto: A taxa de exploração de vulnerabilidades de DeFi por agentes de IA atingiu 70%
Mídia americana: rascunho de ordem executiva da Casa Branca permite que o modelo Anthropic Mythos entre no governo