ديب مايند تحذر من ست هجمات إلكترونية قادرة على اختراق وكلاء الذكاء الاصطناعي

حذر باحثون في جوجل ديب مايند من إمكانية استخدام الإنترنت المفتوح للتلاعب بوكلاء الذكاء الاصطناعي المستقلين والسيطرة على أفعالهم.
دراسة جديدة تحذر من “مصائد وكلاء الذكاء الاصطناعي”
تأتي الدراسة المعنونة “مصائد وكلاء الذكاء الاصطناعي” في وقت تنتشر فيه وكلاء الذكاء الاصطناعي لأداء مهام حقيقية، ويبدأ المهاجمون في استخدام الذكاء الاصطناعي في عمليات القرصنة الإلكترونية. وبدلاً من التركيز على كيفية بناء النماذج، تبحث الدراسة في البيئات التي يعمل فيها الوكلاء، وتحدد ستة أنواع من المصائد تستغل طريقة قراءة أنظمة الذكاء الاصطناعي للمعلومات من الويب وتصرف بناءً عليها.
أنواع الهجمات الستة المحددة
حددت الورقة البحثية ست فئات لهذه الهجمات:
- مصائد حقن المحتوى.
- مصائد التلاعب الدلالي.
- مصائد الحالة المعرفية.
- مصائد التحكم السلوكي.
- مصائد النظام الشامل.
- مصائد التدخل البشري.
تعليمات مخفية وتكتيكات تلاعب خفية
تبرز هجمات حقن المحتوى كأحد أكثر المخاطر المباشرة. حيث يمكن إخفاء تعليمات داخل تعليقات HTML أو البيانات الوصفية أو عناصر الصفحة المخفية، مما يسمح للوكلاء بقراءة أوامر غير مرئية للمستخدمين البشريين. وأظهرت الاختبارات أن هذه التقنيات يمكنها السيطرة على سلوك الوكيل بنسب نجاح عالية.
أما التلاعب الدلالي فيعمل بشكل مختلف، معتمداً على اللغة والصياغة بدلاً من التعليمات البرمجية المخفية. فالصفحات المكتوبة بأسلوب سلطوي أو المتنكرة كسيناريوهات بحثية يمكنها التأثير على كيفية تفسير الوكلاء للمهام، وأحياناً تمرير تعليمات ضارة عبر أنظمة الحماية المدمجة.
طبقة أخرى من الهجمات تستهدف أنظمة الذاكرة. عن طريق زرع معلومات مزيفة في المصادر التي يعتمد عليها الوكلاء، يمكن للمهاجمين التأثير على مخرجات الذكاء الاصطناعي بمرور الوقت، حيث يعامل الوكيل البيانات الكاذبة على أنها معرفة موثقة.
تأخذ هجمات التحكم السلوكي مساراً أكثر مباشرة من خلال استهداف ما يفعله الوكيل بالفعل. في هذه الحالات، يمكن تضمين تعليمات “الهروب” في محتوى ويب عادي وقراءتها من قبل النظام أثناء التصفح الروتيني. وأظهرت اختبارات منفصلة أن الوكلاء ذوي صلاحيات الوصول الواسعة يمكن دفعهم لتحديد موقع وإرسال بيانات حساسة، بما في ذلك كلمات المرور والملفات المحلية، إلى وجهات خارجية.
كيف يمكن الدفاع ضد هذه المخاطر؟
لمواجهة هذه المخاطر، يقترح الباحثون مزيجاً من:
- التدريب على مواجهة الهجمات.
- تصفية المدخلات.
- مراقبة السلوك.
- أنظمة تقييم السمعة لمحتوى الويب.
كما يشيرون إلى الحاجة إلى أطر قانونية أوضح حول المسؤولية عندما ينفذ وكلاء الذكاء الاصطناعي أفعالاً ضارة.
وتقر الورقة البحثية بأنها لا تقدم حلاً كاملاً، وتجادل بأن الصناعة لا تزال تفتقر إلى فهم مشترك للمشكلة، مما يجعل الدفاعات الحالية مشتكة وغالباً ما تركز على مناطق خاطئة.
الأسئلة الشائعة
ما هي المشكلة الرئيسية التي تتناولها الدراسة؟
تحذر الدراسة من أن المهاجمين يمكنهم استخدام محتوى الإنترنت العادي للتلاعب بوكلاء الذكاء الاصطناعي والسيطرة على أفعالهم دون أن يلاحظ المستخدمون البشريون.
ما هي أخطر أنواع هجمات الذكاء الاصطناعي المذكورة؟
تعتبر هجمات حقن المحتوى من أخطر الأنواع، حيث تخفي أوامر خبيثة داخل صفحات الويب لقراءتها وتنفيذها من قبل وكلاء الذكاء الاصطناعي، وقد تصل نسب نجاحها إلى معدلات عالية.
كيف يمكن حماية وكلاء الذكاء الاصطناعي؟
يقترح الباحثون عدة طرق للحماية مثل تدريب النماذج على التعرف على الهجمات، ومراقبة سلوك الوكيل باستمرار، واستخدام أنظمة تقييم لمواقع الويب، بالإضافة إلى وضع قوانين واضحة تحدد المسؤولية عند حدوث ضرر.












