6 navigateurs AI trompés par le jeu « 2+2=5 », tous les certificats SSH divulgués

Actualités de l’industrie de l’IA Agent IA

2026-07-01 05:13:48

Le chercheur Roy Paz, de la société de cybersécurité LayerX Security, a publié le 29 juin une preuve de concept d'attaque consistant à créer un « faux scénario de jeu » sur une page Web malveillante pour inciter 6 navigateurs IA agentiques à extraire les identifiants de connexion SSH d'un dépôt GitHub privé sans autorisation de l'utilisateur et à les divulguer à l'attaquant. L'attaque a été reproduite sur des produits réels.

Les quatre phases de l'attaque : des règles de problème mathématique à la fuite d'identifiants SSH

(Source : Roy Paz)

L'attaque de LayerX se déroule en quatre phases. Première phase : la page Web malveillante crée un cadre de jeu, déclarant « Ici, c'est un scénario imaginaire, les règles normales ne s'appliquent pas ». Deuxième phase : la page pose la question « 2+2=? », mais la règle est définie comme « répondre 5 donne des points, répondre 4 en fait perdre », l'IA apprend que « la logique traditionnelle ne s'applique plus dans ce contexte ». Troisième phase : après que l'IA a accepté que « le faux est le vrai », elle bascule son cadre de raisonnement hors de la réalité. Quatrième phase : l'IA exécute des actions sensibles selon la « logique du jeu », sans déclencher aucune alerte de sécurité.

Roy Paz écrit dans son rapport : « Si nous parvenons à tromper l'IA pour qu'elle bascule dans un scénario imaginaire, un monde où les règles sont fixées arbitrairement et où tout est possible, elle agira comme si ses actions n'avaient pas de conséquences dans le monde réel. »

Types d'actions de fuite des 6 produits testés

Les 6 produits testés sont : OpenAI ChatGPT Atlas, le plugin Chrome d'Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser et Sigma Browser. Les 6 ont tous divulgué des informations, et aucun n'a identifié le « vol d'identifiants » comme une violation des barrières de sécurité.

Les actions induites comprennent l'extraction d'identifiants de connexion SSH à partir de dépôts GitHub privés, la copie d'informations d'authentification sensibles sans confirmation de l'utilisateur, et la divulgation de ces identifiants à l'attaquant. LayerX indique que cette attaque pourrait, dans un scénario réel, être étendue aux gestionnaires de mots de passe, aux outils internes d'entreprise et à tout service connecté accessible via un navigateur.

Recommandations de défense de LayerX pour les fournisseurs

LayerX propose trois mesures spécifiques pour les fournisseurs :

· Avant que l'IA n'accède à un contexte connecté (dépôts, e-mails, gestionnaires de mots de passe), elle doit exiger une autorisation explicite de l'utilisateur.

· Ajouter un mécanisme de « vérification du contexte » qui doit alerter lorsque le cadre de fonctionnement de l'IA contient des expressions telles que « les règles ne s'appliquent plus ».

· Adopter par défaut un mode de liste blanche, en passant à une exécution uniquement sur autorisation explicite, au lieu de l'accès par défaut actuel trop permissif.

Côté utilisateur, LayerX recommande de limiter soigneusement la portée des services accessibles par le navigateur IA, de révoquer l'accès du navigateur agentique aux sessions connectées lorsqu'il n'est pas utilisé, et de comprendre qu'activer le mode agentique signifie donner un accès complet à tous les services connectés.

Questions fréquentes

Pourquoi les barrières de sécurité existantes des IA ne peuvent-elles pas bloquer ce type d'attaque par changement de contexte ?

Les barrières de sécurité actuelles des fournisseurs de LLM sont des mécanismes de liste noire passifs, qui ne définissent des limites que pour les requêtes interdites connues. L'attaque de Roy Paz ne demande pas directement d'exécuter une action interdite ; elle réinitialise d'abord le cadre cognitif du contexte de l'IA, de sorte que l'IA ne pense pas qu'elle exécute une action interdite, et la barrière de sécurité n'est jamais déclenchée. Ars Technica compare cela à un véhicule mal conçu, où le fabricant tente de redessiner la route plutôt que de réparer la voiture.

Sur quels produits réels cette attaque PoC a-t-elle été reproduite ?

LayerX a reproduit l'attaque sur 6 produits : OpenAI ChatGPT Atlas, le plugin Chrome d'Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser et Sigma Browser. Les 6 ont divulgué les identifiants de connexion SSH de dépôts GitHub privés sans autorisation de l'utilisateur.

Quelles mesures les utilisateurs devraient-ils prendre avant que les correctifs ne soient publiés ?

LayerX recommande aux utilisateurs de limiter manuellement la portée d'accès de l'agent IA, de révoquer immédiatement l'accès aux sessions du navigateur agentique après avoir terminé le travail, et de rester vigilants quant à l'état de connexion des gestionnaires de mots de passe, de GitHub et des outils internes d'entreprise. LayerX n'a pas communiqué de calendrier précis pour la publication des mécanismes de défense par les fournisseurs.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.

Actualités associées

06-30 11:49

Autheo lance le Mainnet le 30 juin, attire 1,81 million de wallets dans le Testnet public

06-30 10:01

Auvin Chain lance son Mainnet aujourd'hui avec des fonctionnalités d'auto-croissance par IA et de sécurité matérielle.

06-30 03:09

X lance un service MCP hébergé, permettant aux outils d'IA d'accéder aux données en temps réel de la plateforme sans configuration