في الذكاء الاصطناعي، يشير مصطلح "bandits" إلى مشكلة multi-armed bandit، وهي إطار رياضي لاتخاذ القرار المتسلسل في ظل عدم اليقين. الهدف هو تعظيم المكافأة التراكمية من خلال اختيار خيار واحد في كل خطوة من عدة خيارات ("أذرع")، لكل منها توزيع مكافآت غير معروف. التحدي الأساسي يكمن في موازنة الاستكشاف (تجربة أذرع جديدة لجمع المعلومات) والاستغلال (اختيار الذراع التي تبدو الأكثر ربحية). تختلف bandit عن تقنيات التعلم المعزز الكلاسيكية في غياب مفهوم الحالة والانتقال، مما يجعل النموذج أبسط وأكثر ملاءمة للأوضاع التي تعتمد فقط على الاختيار الحالي.
حالات الاستخدام وأمثلة التطبيق
تُستخدم نماذج bandits في تحسين المحتوى التكيفي (اختبارات A/B الديناميكية)، توصية المنتجات عبر الإنترنت، تحديد موضع الإعلانات الديناميكي، إدارة المحافظ المالية، وتحسين شبكات الاستشعار. على سبيل المثال، في التجارة الإلكترونية، يمكن لنظام bandit تعديل العروض الترويجية المعروضة لكل مستخدم في الوقت الفعلي لزيادة احتمالية التحويل.
أهم الأدوات البرمجية والمكتبات والمنصات
تشمل المكتبات الرئيسية لتطبيق خوارزميات bandit: Vowpal Wabbit، scikit-learn (للنماذج البسيطة)، MABWiser، BanditPylib وPyBandits. بالإضافة إلى ذلك، توفر منصات مثل Microsoft Azure Personalizer حلولاً جاهزة للـ contextual bandits.
آخر التطورات والاتجاهات
تركز الأبحاث الحديثة على contextual bandits التي تستفيد من معلومات إضافية مع كل اختيار، وadversarial bandits، ودمجها مع التعلم المعزز العميق. تتزايد التطبيقات الصناعية خاصة في التخصيص الآني وإدارة الحملات الإعلانية المؤتمتة، مع اهتمام متزايد بالعدالة الخوارزمية والموثوقية في البيئات غير المستقرة.