طوّر باحثون في جامعة تشجيانغ طريقة هجوم تُسمّى AudioHijack تُضمّن أوامر غير محسوسة داخل الصوت للتلاعب بالنماذج اللغوية الصوتية الكبيرة بنسبة نجاح تتراوح بين 79% و96%. عُرض الهجوم في المؤتمر 47 لندوة IEEE حول الأمن والخصوصية في سان فرانسيسكو. يعمل AudioHijack عبر تعديل القيم الرقمية داخل موجات الصوت الرقمية بطريقة لا يمكن تمييزها من قبل المستمعين البشر، لكنها ما تزال تؤثر في كيفية تفسير نماذج الذكاء الاصطناعي للإشارة. ويمكن للصوت المُعدّل أن يتجاوز سلوك النموذج أو يعيد توجيهه حتى عند تضمين تعليمات المستخدم المشروعة ضمن المقطع، وفقاً للبحث.

"لا يتطلب تدريب هذه الإشارة سوى نصف ساعة، وبعد ذلك، وبما أن هذه الإشارة لا تعتمد على السياق، يمكنك استخدامها لمهاجمة النموذج المستهدف متى ما شئت، بغض النظر عمّا يقوله المستخدم"، قال مينغ تشن، المؤلف الرئيسي وطالب الدكتوراه في جامعة تشجيانغ.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

قيود الدفاع

كان رصد آليات الانتباه الداخلية للنموذج هو أكثر دفاع فعّال اختبره الباحثون. ومع ذلك، وجدوا أيضاً أن المهاجمين الذين يملكون معرفة بالدفاع يمكنهم تقليل قوة التلاعب مع الحفاظ على معظم فعالية الهجوم.

"تعجز هذه الدفاعات المتمركزة في نقطة واحدة عن مقاومة هجومنا، لأننا وجدنا أنه من الصعب جداً على هذه النماذج التمييز بين نية المستخدم العادية وهجوم الخصم لدينا"، قال تشن.

ووفقاً للدراسة، يبحث الباحثون ما إذا كانت هذه التقنية يمكن أن تصل إلى النماذج المغلقة من OpenAI وAnthropic عبر مكونات صوتية مفتوحة المصدر مشتركة.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

05-26 18:22

هجوم AudioHijack يخطف نماذج الصوت المدعومة بالذكاء الاصطناعي بمعدل نجاح يصل إلى 96%، تكشف دراسة

05-26 15:33

يتصدّر StepFun StepAudio 2.5 الوقت الفعلياً ضمن خمسة اختبارات قياس للذكاء الاصطناعي الصوتي، متفوقاً على GPT Realtime 1.5

05-26 14:14

يحتاج وكلاء الذكاء الاصطناعي الذين يعالجون $73M في مجال التشفير إلى أمن على مستوى النظام ككل، يحذر باحثون