根據浙江大學在舊金山第 47 屆 IEEE 資安與隱私研討會上提出的研究,研究人員開發了 AudioHijack,透過在音訊中隱藏難以察覺的指令,以 79-96% 的成功率操控大型音訊-語言模型。
該攻擊會以人類難以察覺的方式修改數位音訊波形,但會改變 AI 對訊號的解讀方式,讓它即使在存在合法使用者指令時也能覆寫模型行為。研究人員在 13 個開源語音模型以及來自 Microsoft 和 Mistral 的商用系統上測試 AudioHijack,發現它能迫使模型拒絕請求、散布錯誤資訊、插入惡意連結,或執行未授權的動作,例如網頁搜尋與檔案下載。