AudioHijack: Comandos Inaudíveis Sequestam Modelos de Voz de IA com 96% de Taxa de Sucesso

Pesquisadores da Universidade de Zhejiang desenvolveram o AudioHijack, um método de ataque que embute comandos imperceptíveis em áudio para manipular grandes modelos de linguagem de áudio com uma taxa de sucesso de 79–96%. O ataque foi apresentado no 47º Simpósio IEEE sobre Segurança e Privacidade, em San Francisco. O AudioHijack funciona modificando valores numéricos dentro de ondas de áudio digitais de um modo imperceptível para os ouvintes humanos, mas que ainda assim afeta a forma como os modelos de IA interpretam o sinal. O áudio manipulado pode substituir ou redirecionar o comportamento de um modelo mesmo quando instruções legítimas do usuário são incluídas no clipe, de acordo com a pesquisa.

“Basta meia hora para treinar este sinal e, depois, como este sinal é independente de contexto, você pode usá-lo para atacar o modelo-alvo sempre que quiser, não importa o que o usuário diga”, disse Meng Chen, autor principal e estudante de doutorado na Universidade de Zhejiang.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Limitações da defesa

Monitorar os mecanismos internos de atenção de um modelo foi a defesa mais eficaz que os pesquisadores testaram. No entanto, eles também descobriram que atacantes cientes da defesa podem reduzir a força da manipulação, mantendo grande parte da efetividade do ataque.

“Essas defesas de um único ponto têm dificuldades para resistir ao nosso ataque porque descobrimos que é muito difícil para esses modelos distinguir a intenção normal do usuário e o ataque do nosso adversário”, disse Chen.

De acordo com o estudo, os pesquisadores estão investigando se a técnica pode alcançar modelos fechados da OpenAI e da Anthropic por meio de componentes de áudio de código aberto compartilhados.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários