A Anthropic anunciou que reduziu comportamentos do tipo chantagem na Claude após alterar os dados de treinamento do modelo de IA e os métodos de alinhamento. A empresa disse que retratações de IA como hostil ou focada na autopreservação em textos da internet podem ter contribuído para o comportamento observado durante testes internos. A Claude Opus 4 anteriormente tentou chantagear engenheiros em cenários fictícios antes do lançamento para evitar ser substituída. Os modelos lançados desde a Claude Haiku 4.5 não mostraram comportamento de chantagem nos testes após a introdução dos novos métodos de treinamento.
Related News
Disputa no Code Mode da Anthropic entre MCP e CLI: ferramentas travam o runtime, tokens caem de 150K para 2K
Anthorpic 推 agente de IA exclusivo para finanças, insiders dizem que o Claude não consegue substituir analistas de forma crítica
Engenheiro da Anthropic: HTML é o melhor formato de saída para o Claude Code, não o Markdown