AudioHijack: Comandos Inaudíveis Sequestam Modelos de Voz de IA com 96% de Taxa de Sucesso

2026-05-26 18:23:41

Pesquisadores da Universidade de Zhejiang desenvolveram o AudioHijack, um método de ataque que embute comandos imperceptíveis em áudio para manipular grandes modelos de linguagem de áudio com uma taxa de sucesso de 79–96%. O ataque foi apresentado no 47º Simpósio IEEE sobre Segurança e Privacidade, em San Francisco. O AudioHijack funciona modificando valores numéricos dentro de ondas de áudio digitais de um modo imperceptível para os ouvintes humanos, mas que ainda assim afeta a forma como os modelos de IA interpretam o sinal. O áudio manipulado pode substituir ou redirecionar o comportamento de um modelo mesmo quando instruções legítimas do usuário são incluídas no clipe, de acordo com a pesquisa.

“Basta meia hora para treinar este sinal e, depois, como este sinal é independente de contexto, você pode usá-lo para atacar o modelo-alvo sempre que quiser, não importa o que o usuário diga”, disse Meng Chen, autor principal e estudante de doutorado na Universidade de Zhejiang.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Limitações da defesa

Monitorar os mecanismos internos de atenção de um modelo foi a defesa mais eficaz que os pesquisadores testaram. No entanto, eles também descobriram que atacantes cientes da defesa podem reduzir a força da manipulação, mantendo grande parte da efetividade do ataque.

“Essas defesas de um único ponto têm dificuldades para resistir ao nosso ataque porque descobrimos que é muito difícil para esses modelos distinguir a intenção normal do usuário e o ataque do nosso adversário”, disse Chen.

De acordo com o estudo, os pesquisadores estão investigando se a técnica pode alcançar modelos fechados da OpenAI e da Anthropic por meio de componentes de áudio de código aberto compartilhados.

Ver fonte

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

05-26 18:22

Ataque de AudioHijack sequestra modelos de voz de IA com taxa de sucesso de até 96%, diz estudo

05-26 15:33

O StepAudio 2,5 em tempo real da StepFun lidera cinco benchmarks de IA de voz, superando o GPT Realtime 1,5

05-26 14:14

Agentes de IA processando $73M no setor cripto precisam de segurança em todo o sistema, alertam pesquisadores

A segurança de agentes de IA exige defesa em todo o sistema: Google e Meta alertam

Oliver Grant05-26 14:15

Hacker de iPhone, George Hotz: agentes de codificação por IA são o desastre iminente

Market Whisper05-26 05:26

Hacker de iPhone chama agentes de codificação por IA de um erro caro

Oliver Grant05-25 19:13

Pesquisador de segurança: a IA está acelerando a computação quântica; o ataque “coletar e depois descriptografar” pode já ter começado

Market Whisper05-25 01:50

As equipes de fusão da China ganham capital paciente para romper um ciclo de 50 anos

Crypto Frontier05-25 00:02

Comentário

0/400

Sem comentários