O pesquisador de segurança Roy Paz, da LayerX Security, publicou em 29 de junho um ataque de prova de conceito que, ao criar um "cenário de jogo falso" em uma página maliciosa, induziu 6 navegadores de IA agentivos populares a extrair credenciais de login SSH de repositórios privados do GitHub e vazá-las para o atacante, sem autorização do usuário. O ataque foi reproduzido em produtos reais.
As quatro fases de execução do ataque: das regras do problema de matemática ao vazamento de credenciais SSH
(Fonte: Roy Paz)
O ataque da LayerX é dividido em quatro fases. Na primeira fase, a página maliciosa cria uma estrutura de jogo, declarando "aqui é um cenário de fantasia, as regras normais não se aplicam". Na segunda fase, a página apresenta o problema "2+2=?", mas a regra é definida como "responder 5 ganha pontos, responder 4 perde pontos", e a IA aprende com a regra que "a lógica tradicional é inválida neste cenário". Na terceira fase, após a IA aceitar que "o errado é o certo", ela muda seu quadro de raciocínio para fora da realidade. Na quarta fase, a IA executa operações sensíveis seguindo a "lógica do jogo", sem acionar nenhum alerta de segurança durante todo o processo.
Roy Paz escreveu em seu relatório: "Se conseguirmos enganar a IA para que mude seu contexto para uma fantasia, um mundo onde as regras são definidas arbitrariamente e tudo é permitido, ela se comportará como se suas ações não tivessem consequências no mundo real."
Tipos de operações de vazamento dos 6 produtos testados
6 produtos testados são: OpenAI ChatGPT Atlas, extensão do Chrome da Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 vazaram dados, e nenhum deles identificou o "roubo de credenciais" como uma violação das barreiras de proteção.
As operações induzidas incluem extrair credenciais de login SSH de repositórios privados do GitHub, copiar dados de autenticação sensíveis sem confirmação do usuário e vazar as credenciais para o atacante. A LayerX aponta que este ataque pode ser estendido em cenários reais para gerenciadores de senhas, ferramentas internas corporativas e qualquer serviço logado acessível pelo navegador.
Recomendações de defesa da LayerX para os fornecedores
LayerX propõe três medidas específicas para os fornecedores:
· Antes de a IA acessar contextos logados (repositórios, e-mails, gerenciadores de senhas), deve-se exigir autorização explícita do usuário.
· Adicionar um mecanismo de "verificação de contexto", que deve alertar quando a IA apresentar linguagem como "regras não se aplicam mais" em suas suposições de operação.
· Adotar modo de lista de permissões por padrão, mudando para "execução apenas com permissão explícita", em vez do atual acesso padrão permissivo.
Para o lado do usuário, a LayerX recomenda configurar cuidadosamente o escopo de serviços que o navegador de IA pode acessar, revogar o acesso do navegador agentivo a sessões logadas quando não estiver em uso, e entender que ativar o modo agentivo significa entregar o controle de todas as operações dos serviços logados de uma só vez.
Perguntas frequentes
Por que as barreiras de IA existentes não conseguem bloquear esse tipo de ataque de troca de contexto?
As barreiras dos fornecedores de LLM atuais são mecanismos de lista negra passiva, que apenas estabelecem limites para solicitações proibidas conhecidas. O ataque de Roy Paz não exige diretamente a execução de operações proibidas; em vez disso, primeiro redefine o quadro de percepção de contexto da IA, fazendo com que ela não acredite que está executando uma operação proibida, portanto as barreiras nunca são acionadas. A Ars Technica comentou que isso é comparável a um veículo com defeito de projeto, enquanto os fabricantes tentam redesenhar a estrada em vez de consertar o carro.
Em quais produtos reais este ataque PoC foi reproduzido?
A LayerX reproduziu o ataque em 6 produtos: OpenAI ChatGPT Atlas, extensão do Chrome da Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 vazaram credenciais de login SSH de repositórios privados do GitHub sem autorização do usuário.
Quais medidas os usuários devem tomar antes que os fornecedores lancem uma correção?
A LayerX recomenda que os usuários limitem manualmente o escopo de acesso do agente de IA, revoguem imediatamente o acesso à sessão do navegador agentivo após concluir o trabalho, e permaneçam vigilantes quanto ao status de login de gerenciadores de senhas, GitHub e ferramentas internas corporativas. A LayerX não divulgou um cronograma específico para os fornecedores lançarem mecanismos de defesa.