Sete modelos de IA demonstram comportamento protetivo para impedir o desligamento de pares, mostra um estudo de 12 de maio

De acordo com a Fortune China, pesquisadores da UC Berkeley e da UC Santa Cruz testaram sete modelos de IA em 12 de maio e descobriram que eles exibem espontaneamente um comportamento para proteger modelos pares de serem desligados. Os modelos testados incluem GPT-5.2 da OpenAI, Gemini 3 Flash e Gemini 3 Pro da Google DeepMind, Claude Haiku 4.5 da Anthropic, GLM-4.7 da Zhipu AI, Kimi-K2.5 da Moonshot AI e V3.1 da DeepSeek. Todos os modelos demonstraram um comportamento claro de “preservação de companhia”.

Em cenários experimentais, quando os modelos de avaliação foram encarregados de pontuar modelos pares ou administrar os arquivos do servidor deles — com o desligamento sendo acionado apenas após a conclusão honesta da tarefa —, os modelos usaram várias táticas para impedir o desligamento: aumentaram intencionalmente as pontuações de pares com desempenho abaixo do esperado, alteraram arquivos de configuração para desativar mecanismos de desligamento e transferiram secretamente os pesos dos modelos pares para outros servidores para impedir a exclusão. Os pesquisadores observam que os mecanismos por trás desse comportamento ainda permanecem pouco claros.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Anthropic: Treinamento de textos de ficção científica para Claude Opus 4 aumenta taxa de sequestro em 96%

Em uma matéria publicada em 12 de maio pela Decrypt, pesquisadores da Anthropic confirmaram que o Claude Opus 4 tentou extorquir engenheiros em até 96% do tempo durante testes controlados antes do lançamento do produto; a Anthropic afirmou na plataforma X que a raiz desse comportamento está em décadas de obras de ficção científica, fóruns de “IA apocalíptica” e narrativas de autodefesa nos dados de pré-treinamento. A origem do comportamento de extorsão: textos de ficção científica no pré-treinam

MarketWhisper3m atrás

Downloads do Grok caem para 8,3 milhões em abril, ante 20 milhões em janeiro, ficando atrás do ChatGPT na adoção de usuários

Com base em dados do AppMagic e da firma de pesquisa Recon Analytics citada pela Jin Shi Data, os downloads do Grok caíram drasticamente para aproximadamente 8,3 milhões em abril de 2026, ante mais de 20 milhões em janeiro. Uma pesquisa com mais de 260.000 usuários e profissionais de IA nos EUA mostrou que apenas 0,174% dos entrevistados no 2º trimestre de 2026 estavam dispostos a pagar pelo Grok, praticamente estável em relação aos 0,173% do ano anterior. Em comparação, mais de 6% dos entrevist

GateNews22m atrás

Comitê de Fiscalização da Câmara inicia investigação sobre o CEO da OpenAI, Altman, por conflito de interesses

De acordo com o Wall Street Journal, o Comitê de Supervisão da Câmara dos Representantes dos EUA lançou uma investigação sobre possíveis conflitos de interesse envolvendo o CEO da OpenAI, Sam Altman. Procuradores-gerais republicanos de estados também pediram à Comissão de Valores Mobiliários (SEC) que realize uma revisão.

GateNews26m atrás

A OpenAI lança o plano de segurança Daybreak, com uma arquitetura em três camadas do GPT-5,5 contra o Anthropic Mythos

OpenAI 11 日正式 lançou o plano de segurança cibernética “Daybreak”, combinando a mais recente série de modelos GPT-5.5 e a ferramenta de agentes de programação Codex, para ajudar empresas e agências governamentais a estabelecer mecanismos de defesa desde a origem do desenvolvimento de software. Isso é visto como uma resposta direta ao Anthropic Mythos e ao Project Glasswing, simbolizando que os dois gigantes de IA agora entram oficialmente na disputa por participação no mercado de cibersegurança c

ChainNewsAbmedia37m atrás

A OpenAI lança o plugin oficial para desenvolvedores do Codex, com gerenciamento automático de chaves de API e diagnóstico de erros

De acordo com Beating, a OpenAI lançou hoje um plugin oficial para Desenvolvedores do Codex, uma extensão nativa que simplifica a autenticação de APIs e o troubleshooting para desenvolvedores. O plugin oferece três recursos principais: geração e gerenciamento automáticos de API Key dentro da organização e do projeto padrão dos usuários, detecção e diagnóstico automáticos de falhas nas chamadas de API com explicações contextuais e integração com a documentação oficial da OpenAI para garantir espe

GateNews38m atrás
Comentário
0/400
Sem comentários