Relatório da Anthropic: a taxa de vitórias nas decisões da IA sobe para 64%, com otimização de código 52 vezes

Mythos Preview模型優化

A Anthropic divulgou em 4 de junho um relatório que revela que o modelo Mythos Preview, nos testes de apoio a decisões de investigação em IA, tomou decisões superiores às de investigadores humanos em 64% dos casos, enquanto testes semelhantes em 2024 tiveram apenas 22% de taxa de vitória. Nos testes padrão de otimização de código de treino de modelos de IA mais pequenos, o Mythos Preview atingiu um aumento de velocidade de 52x.

Metodologia e dados dos testes de decisões de investigação

O desenho de teste divulgado pela Anthropic: a equipa mostrou a Claude registos de conversas nos quais investigadores humanos iriam fazer julgamentos errados sobre a direção da pesquisa, e perguntou à IA “como deve proceder em seguida”. O Mythos Preview deu respostas melhores do que as dos investigadores humanos em 64% dos casos; em 2024, a taxa de vitória em testes semelhantes foi de 22%.

A Anthropic explicou no relatório que este resultado “sugere que a IA já começou a adquirir capacidade de orientar investigação de alto nível”, mas ao mesmo tempo afirmou que ainda não consegue determinar se Claude possui capacidade de julgamento global para escolher autonomamente “as questões de investigação corretas”.

Dados de eficiência de código no relatório da Anthropic

Indicadores relacionados com eficiência de código da Anthropic:

Quantidade trimestral de entrega de código por engenheiros internos: 8 vezes o nível médio de 2021-2025

Taxa de sucesso de problemas de código abertos: aumento de 50 pontos percentuais em 6 meses, atingindo 76%

Velocidade de otimização do código de treino: aumento de 52x no Mythos Preview

Comparativo: Claude Opus 4 (maio de 2024) cerca de 3x em média; engenheiros humanos experientes normalmente precisam de 4-8 horas para concretizar cerca de 4x

O relatório da Anthropic indica que alguns engenheiros internos consideram que a qualidade do código da Claude está a aproximar-se do nível humano.

Instituto de Investigação da Anthropic: confirmado, impactos potenciais no RSI

A Anthropic anunciou que vai criar, em colaboração com partes interessadas externas, o “Anthropic Institute” (Instituto de Investigação da Anthropic), dedicado a estudar os profundos impactos de sistemas de IA fortes.

No relatório, a Anthropic afirma que o desenvolvimento acelerado da IA pode trazer impactos positivos para os domínios da medicina, tecnologia e economia, mas também pode agravar o problema de alinhamento (Alignment) da IA e conduzir ao risco de “perda de controlo (Loss of control)”, referindo que este impacto “merece uma atenção ainda maior”.

Perguntas frequentes

Qual é o desenho específico do teste de taxa de vitória de decisão do Mythos Preview?

A Anthropic mostrou a Claude registos de conversas em que os investigadores iriam enveredar por uma linha de investigação errada e perguntou “o que deve ser feito em seguida”, testando a capacidade de decisão de investigação da IA. O Mythos Preview deu respostas melhores do que as de investigadores humanos em 64% dos casos; face a uma taxa de vitória de 22% em testes semelhantes em 2024, alcançou um crescimento explosivo ao longo de dois anos.

O que é o “Recursive Self-Improvement (RSI)” mencionado no relatório da Anthropic?

A melhoria recursiva de si própria (Recursive Self-Improvement) refere-se à capacidade de um sistema de IA desenvolver, de forma autónoma, uma geração seguinte de IA mais forte do que si próprio. Num relatório de 4 de junho de 2026, a Anthropic afirma que este processo está a avançar a “uma velocidade acima do esperado”, reconhecendo simultaneamente que ainda não consegue determinar se Claude possui capacidade de julgamento global para escolher autonomamente “as questões de investigação corretas”.

Qual é o posicionamento e os objetivos do Instituto de Investigação da Anthropic?

A Anthropic anunciou que vai criar o Instituto de Investigação da Anthropic em colaboração com partes interessadas externas, dedicado a estudar os profundos impactos de sistemas de IA fortes. A Anthropic afirma que o objetivo da criação é garantir que os humanos possam fazer escolhas prudentes para o futuro das tecnologias de IA, embora ainda não tenham sido divulgados de forma completa o âmbito e o calendário concretos das áreas de investigação.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário