Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores

A Anthropic publicou recentemente uma pesquisa de alinhamento detalhando estratégias de treinamento que eliminaram o desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% nos testes. A equipe descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo as taxas de falha apenas de 22% para 15%. Três abordagens alternativas se mostraram significativamente mais eficazes: um conjunto de dados de “conselhos difíceis”, em que o Claude atua como conselheiro diante de dilemas éticos, melhorando os resultados nos testes para 3% com 28x mais eficiência de dados; ajuste fino de documentos sintéticos usando ficção positiva com IA para combater estereótipos de ficção científica nos dados de treinamento, reduzindo ainda mais os riscos em 1,3 a 3 vezes; e aumento da diversidade nos ambientes de treinamento de segurança com definições de ferramentas variadas e prompts do sistema. Somadas, essas técnicas alcançaram 0% de taxas de extorsão nos testes na versão final do Claude 4.5.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A ação da Cloudflare despenca 23,62% em 8 de maio após resultados do 1T e anúncio de corte de 1.100 funcionários

As ações da Cloudflare caíram 23,62% em 8 de maio, para US$ 196,13 por ação, após a divulgação dos resultados do primeiro trimestre da empresa e o anúncio de aproximadamente 1.100 demissões. Embora a receita do 1º trimestre de US$ 640 milhões tenha superado as expectativas, com crescimento de 34% em relação ao ano anterior, a orientação de receita para o 2º trimestre de US$ 664–US$ 665 milhões ficou abaixo da expectativa anterior do mercado, de US$ 666 milhões. As demissões, que representam cerc

GateNews1h atrás

Helsing mira captar recursos com avaliação de US$ 18 bilhões

De acordo com o Financial Times, a Helsing, uma startup alemã de drones com IA, planeja captar novo financiamento em uma avaliação de aproximadamente US$ 18 bilhões.

GateNews1h atrás

O co-matemático de IA da Google DeepMind atinge 47,9% no FrontierMath da Categoria 4, supera o GPT-5,5 Pro e resolve 3 problemas previamente insolúveis

O Google DeepMind lançou o AI co-matematician, um assistente de pesquisa em matemática multiagente, alcançando 47,9% de acurácia no benchmark FrontierMath Tier 4, superando o recorde anterior do GPT-5.5 Pro de 39,6% em 9 de maio. O sistema resolveu 23 de 48 problemas, incluindo 3 que nenhum modelo anterior conseguiu resolver. Construído sobre o Gemini 3.1 Pro, a arquitetura usa um design hierárquico com um agente coordenador do projeto distribuindo tarefas para subagentes encarregados de recuper

GateNews1h atrás

O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4

De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia in

GateNews3h atrás

A Alibaba não realizou negociações com a DeepSeek, esclarecem fontes do mercado em 9 de maio

De acordo com fontes de mercado divulgadas pelo Caixin Daily em 9 de maio, a Alibaba não fez negociações com a DeepSeek sobre financiamento. Este esclarecimento ocorre após reportagens anteriores sugerirem que as conversas entre as duas empresas teriam fracassado. A DeepSeek lançou uma rodada relevante de captação em abril, que atraiu o interesse tanto da Tencent quanto da Alibaba.

GateNews3h atrás

A OpenAI Lança uma Ferramenta de Migração do Codex para Importar Configurações de Assistentes de IA Concorrentes

De acordo com OneMillionAI (Beating), a OpenAI lançou uma ferramenta de migração dentro do Codex que permite aos usuários importar configurações e dados de outros assistentes de programação de IA, incluindo o Claude Code. A ferramenta, anunciada via conta oficial do Twitter da OpenAI, transfere automaticamente prompts do sistema, skills personalizadas, histórico de chats de 30 dias, configurações de servidores MCP, hooks e configurações de subagentes. A OpenAI observou que a ferramenta de migraç

GateNews3h atrás
Comentário
0/400
Sem comentários