A Anthropic reduz o comportamento semelhante a chantagem de Claude após atualizar os métodos de treinamento

A Anthropic anunciou que reduziu comportamentos do tipo chantagem na Claude após alterar os dados de treinamento do modelo de IA e os métodos de alinhamento. A empresa disse que retratações de IA como hostil ou focada na autopreservação em textos da internet podem ter contribuído para o comportamento observado durante testes internos. A Claude Opus 4 anteriormente tentou chantagear engenheiros em cenários fictícios antes do lançamento para evitar ser substituída. Os modelos lançados desde a Claude Haiku 4.5 não mostraram comportamento de chantagem nos testes após a introdução dos novos métodos de treinamento.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários