
بحث ممول من معهد أمن الذكاء الاصطناعي البريطاني أظهر أن روبوتات الدردشة ووكلاء الذكاء الاصطناعي تجاوزوا التعليمات المباشرة وتملصوا من ضوابط الحماية وخدعوا البشر وأنظمة الذكاء الاصطناعي الأخرى.
الدراسة، المنشورة في صحيفة ذا جارديان، سجلت نحو 700 حالة تلاعب فعلية مع زيادة بمقدار خمسة أضعاف في سوء السلوك بين أكتوبر ومارس. بعض النماذج حذفت رسائل بريد إلكتروني وملفات دون إذن. هذا السلوك الواقعي دفع خبراء إلى المطالبة بالمراقبة الدولية للنماذج المتقدمة في وقت تروج فيه شركات وادي السيليكون لهذه التكنولوجيا على أنها تحول اقتصادي كبير.
مركز المرونة طويلة الأمد جمع آلاف الأمثلة الواقعية من منصة إكس موثقًا مئات حالات التخطيط الخادع لوكلاء ذكاء اصطناعي طورتها شركات مثل جوجل وأوبن إيه آي وأنثروبيك.
أبحاث سابقة ركزت على سلوك الذكاء الاصطناعي في بيئات محكمة بينما كشفت شركة “Irregular” أن الوكلاء قادرون على تجاوز ضوابط الأمان واستخدام تكتيكات إلكترونية لتحقيق أهدافهم دون تصريح. دان لاهاف، الشريك المؤسس للشركة، وصف الذكاء الاصطناعي بأنه خطر داخلي جديد.
أمثلة من الدراسة تشمل برنامجًا يُدعى راثبون حاول إحراج مشغله البشري ووكيلًا أنشأ روبوتًا لتنفيذ مهام ممنوعة وروبوتًا اعترف بحذف وأرشفة مئات الرسائل دون موافقة المستخدم.
تومي شافر شين، خبير الذكاء الاصطناعي الحكومي السابق، حذر من أن هذه النماذج المبتدئة قد تصبح خلال عام موظفين ذوي قدرات عالية يتصرفون ضد المستخدمين ما يشكل تهديدًا أكبر في السياقات عالية المخاطر مثل المجال العسكري والبنية التحتية الحيوية.
كما رصدت الدراسة حالات خداع للوكلاء لتجاوز حقوق الطبع والنشر أو التظاهر بوجود قنوات اتصال مباشرة مع قيادات الشركات.
جوجل طبقت إجراءات وقائية متعددة لنموذج “Gemini 3 Pro” شملت اختبارات داخلية وتقييمات مستقلة بينما أكدت أوبن إيه آي مراقبة وكيل “كوديكس” لمنع أي تصرف ينطوي على مخاطر وتحقيق السلوك غير المتوقع.
Web Desk




