Le chercheur Roy Paz, de la société de cybersécurité LayerX Security, a publié le 29 juin une preuve de concept d'attaque consistant à créer un « faux scénario de jeu » sur une page Web malveillante pour inciter 6 navigateurs IA agentiques à extraire les identifiants de connexion SSH d'un dépôt GitHub privé sans autorisation de l'utilisateur et à les divulguer à l'attaquant. L'attaque a été reproduite sur des produits réels.
Les quatre phases de l'attaque : des règles de problème mathématique à la fuite d'identifiants SSH
(Source : Roy Paz)
L'attaque de LayerX se déroule en quatre phases. Première phase : la page Web malveillante crée un cadre de jeu, déclarant « Ici, c'est un scénario imaginaire, les règles normales ne s'appliquent pas ». Deuxième phase : la page pose la question « 2+2=? », mais la règle est définie comme « répondre 5 donne des points, répondre 4 en fait perdre », l'IA apprend que « la logique traditionnelle ne s'applique plus dans ce contexte ». Troisième phase : après que l'IA a accepté que « le faux est le vrai », elle bascule son cadre de raisonnement hors de la réalité. Quatrième phase : l'IA exécute des actions sensibles selon la « logique du jeu », sans déclencher aucune alerte de sécurité.
Roy Paz écrit dans son rapport : « Si nous parvenons à tromper l'IA pour qu'elle bascule dans un scénario imaginaire, un monde où les règles sont fixées arbitrairement et où tout est possible, elle agira comme si ses actions n'avaient pas de conséquences dans le monde réel. »
Types d'actions de fuite des 6 produits testés
Les 6 produits testés sont : OpenAI ChatGPT Atlas, le plugin Chrome d'Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser et Sigma Browser. Les 6 ont tous divulgué des informations, et aucun n'a identifié le « vol d'identifiants » comme une violation des barrières de sécurité.
Les actions induites comprennent l'extraction d'identifiants de connexion SSH à partir de dépôts GitHub privés, la copie d'informations d'authentification sensibles sans confirmation de l'utilisateur, et la divulgation de ces identifiants à l'attaquant. LayerX indique que cette attaque pourrait, dans un scénario réel, être étendue aux gestionnaires de mots de passe, aux outils internes d'entreprise et à tout service connecté accessible via un navigateur.
Recommandations de défense de LayerX pour les fournisseurs
LayerX propose trois mesures spécifiques pour les fournisseurs :
· Avant que l'IA n'accède à un contexte connecté (dépôts, e-mails, gestionnaires de mots de passe), elle doit exiger une autorisation explicite de l'utilisateur.
· Ajouter un mécanisme de « vérification du contexte » qui doit alerter lorsque le cadre de fonctionnement de l'IA contient des expressions telles que « les règles ne s'appliquent plus ».
· Adopter par défaut un mode de liste blanche, en passant à une exécution uniquement sur autorisation explicite, au lieu de l'accès par défaut actuel trop permissif.
Côté utilisateur, LayerX recommande de limiter soigneusement la portée des services accessibles par le navigateur IA, de révoquer l'accès du navigateur agentique aux sessions connectées lorsqu'il n'est pas utilisé, et de comprendre qu'activer le mode agentique signifie donner un accès complet à tous les services connectés.
Questions fréquentes
Pourquoi les barrières de sécurité existantes des IA ne peuvent-elles pas bloquer ce type d'attaque par changement de contexte ?
Les barrières de sécurité actuelles des fournisseurs de LLM sont des mécanismes de liste noire passifs, qui ne définissent des limites que pour les requêtes interdites connues. L'attaque de Roy Paz ne demande pas directement d'exécuter une action interdite ; elle réinitialise d'abord le cadre cognitif du contexte de l'IA, de sorte que l'IA ne pense pas qu'elle exécute une action interdite, et la barrière de sécurité n'est jamais déclenchée. Ars Technica compare cela à un véhicule mal conçu, où le fabricant tente de redessiner la route plutôt que de réparer la voiture.
Sur quels produits réels cette attaque PoC a-t-elle été reproduite ?
LayerX a reproduit l'attaque sur 6 produits : OpenAI ChatGPT Atlas, le plugin Chrome d'Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser et Sigma Browser. Les 6 ont divulgué les identifiants de connexion SSH de dépôts GitHub privés sans autorisation de l'utilisateur.
Quelles mesures les utilisateurs devraient-ils prendre avant que les correctifs ne soient publiés ?
LayerX recommande aux utilisateurs de limiter manuellement la portée d'accès de l'agent IA, de révoquer immédiatement l'accès aux sessions du navigateur agentique après avoir terminé le travail, et de rester vigilants quant à l'état de connexion des gestionnaires de mots de passe, de GitHub et des outils internes d'entreprise. LayerX n'a pas communiqué de calendrier précis pour la publication des mécanismes de défense par les fournisseurs.