AudioHijack : Des commandes inaudibles détournent des modèles de voix IA avec un taux de réussite de 96 %

Des chercheurs de l’université Zhejiang ont mis au point AudioHijack, une méthode d’attaque qui intègre des commandes imperceptibles dans l’audio pour manipuler de grands modèles audio-langage avec un taux de réussite de 79–96%. L’attaque a été présentée lors du 47e Symposium IEEE sur la sécurité et la confidentialité à San Francisco. AudioHijack fonctionne en modifiant des valeurs numériques à l’intérieur des ondes audio numériques d’une manière imperceptible pour les auditeurs humains, mais qui influence néanmoins la façon dont les modèles d’IA interprètent le signal. L’audio manipulé peut outrepasser ou rediriger le comportement d’un modèle même lorsque des instructions légitimes de l’utilisateur sont incluses avec l’extrait, selon l’étude.

« Il faut seulement une demi-heure pour entraîner ce signal, et ensuite, comme ce signal est indépendant du contexte, vous pouvez l’utiliser pour attaquer le modèle cible quand vous voulez, quoi que dise l’utilisateur », a déclaré Meng Chen, auteur principal et doctorant à l’université Zhejiang.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Limites de la défense

Le suivi des mécanismes d’attention internes d’un modèle a été la défense la plus efficace que les chercheurs ont testée. Toutefois, ils ont aussi constaté que des attaquants conscients de la défense pouvaient réduire la force de la manipulation tout en conservant une grande partie de l’efficacité de l’attaque.

« Ces défenses à point unique peinent à résister à notre attaque, parce que nous avons constaté qu’il est très difficile pour ces modèles de distinguer l’intention normale de l’utilisateur et notre attaque d’adversaire », a déclaré Chen.

D’après l’étude, les chercheurs évaluent si la technique peut atteindre des modèles fermés d’OpenAI et d’Anthropic via des composants audio open source partagés.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire