فوز PRISM Eval و CEA-List بتحدي تأمين الذكاء الاصطناعي

فوز PRISM Eval و CEA-List بتحدي تأمين الذكاء الاصطناعي

TLDR : في مواجهة مخاطر الهجمات على الذكاء الاصطناعي في المجال العسكري، أطلق قيادة الدفاع السيبراني (COMCYBER) ووكالة الابتكار الدفاعي (AID) تحديًا لتأمين الذكاء الاصطناعي، مع مقترحات بارزة من PRISM Eval و CEA-List. يركز PRISM Eval على تحليل الانحرافات السلوكية للأنظمة، بينما يستهدف CEA-List تأمين النماذج البصرية ضد التعديلات الخبيثة للبيانات.

الصيانة التنبؤية، تحليل الاستخبارات، محاكاة الصراعات، الدفاع السيبراني: الذكاء الاصطناعي اليوم يمثل قضية رئيسية للقوات المسلحة ونظام معلومات لا غنى عنه. بالتوازي، قدمت أسطح هجوم جديدة: نماذج قابلة للاستغلال، بيانات قابلة للتلاعب، إجابات قابلة للتغيير...للتنبؤ بهذه الثغرات وابتكار حلول للتصدي لها، أطلق قيادة الدفاع السيبراني (COMCYBER) ووكالة الابتكار الدفاعي (AID) تحدي "تأمين الذكاء الاصطناعي".
الذكاء الاصطناعي كنظام معلومات يتعرض ويكون عرضة للتلاعب وقابل للتحويل. الهجمات العدائية، استخراج المعلومات الحساسة أو توليد المحتوى الضار لم تعد فرضيات نظرية بل أصبحت قنوات هجوم فعالة.
يتطلب انتشاره في المجال العسكري تأمينًا دقيقًا، يشمل إطارًا تقنيًا قويًا، مقاومة خوارزمية، وزيادة الرقابة التشغيلية.
تلقى التحدي أكثر من عشر طلبات من مختبرات، شركات ناشئة، شركات متوسطة وصغيرة، أو مجموعات كبرى. تميزت بشكل خاص اثنتان: PRISM Eval و CEA-List.

PRISM Eval: اختبار الثغرات السلوكية لنماذج LLMs

تأسست في 2024، تتخصص الشركة الناشئة الباريسية PRISM Eval في red teaming، القابلية التفسيرية السلوكية ومواءمة الأنظمة المتقدمة للذكاء الاصطناعي. تهدف إلى تطوير فهم دقيق للآليات المعرفية لنماذج LLMs للسيطرة على الانحرافات على نطاق واسع. تتجسد هذه المقاربة العلمية في مجموعة أدوات BET (أداة استنباط السلوك)، الفائزة بالتحدي.
يستهدف منتجها الأول، BET Eval، بشكل مباشر احتياجات متانة نماذج LLMs التي تغذي ChatGPT، Le Chat أو حتى GenIAl، المساعد الذكي لوزارة الدفاع. يعمل الأداة كبطارية من اختبارات الاختراق السلوكية، تجمع بين الهجمات المعنوية والسياقية لتقييم:
  • قدرة النموذج على توليد محتوى ضار أو خطير (السُمية، التحريضات)؛
  • عرضته لاستخراج المعلومات الحساسة؛
  • سهولة تجاوز الحواجز الواقية (حقن الأوامر، الهروب من السجن).

CEA-List: تأمين النماذج البصرية من خلال التحقق والثقة

من جانبه، يستهدف CEA-List تأمين نماذج التصنيف البصري ضد الهجمات عبر تعديل البيانات. هنا، يكون الخطر أكثر خفاءً: يمكن لصورة معدلة قليلاً من قبل خصم أن تقود الذكاء الاصطناعي لتحديد مركبة مدنية كأداة عدائية — أو العكس.
تعتمد حلولها على أداتين متكاملتين:
  • PyRAT، الذي يطبق التحقق الرسمي على الشبكات العصبية. يوفر ضمانات رياضية ضد الهجمات الدقيقة، مثل التعديلات غير المحسوسة للبكسلات المصممة لخداع التصنيف التلقائي (تقنية موثقة جيدًا ولكن يصعب اكتشافها في الوقت الفعلي)؛
  • PARTICUL، الذي يحسب درجة الثقة بناءً على الكشف عن الانتظامات في مجموعات البيانات. يتيح الكشف عن التطفلات الأكثر وضوحًا (مثل إضافة الباتشات) من خلال قياس درجة الشذوذ في الإدخال.
تتيح هاتان الأداتان معالجة كل من المقدمة (متانة النموذج الرسمية) والنتيجة (الثقة التشغيلية في البيانات)، من خلال الجمع بين المنطق الرمزي والتجريبية الإحصائية.

لتحسين الفهم

ما هو التحقق الرسمي للشبكات العصبية وكيف يتم تطبيقه في سياق أمان الذكاء الاصطناعي العسكري؟

التحقق الرسمي هو طريقة صارمة تستخدم التقنيات الرياضية لإثبات أو دحض التشغيل الصحيح للأنظمة، بما في ذلك الشبكات العصبية. في السياق العسكري، يتم تطبيق هذه التقنية بواسطة أدوات مثل <span dir="ltr">PyRAT</span> لضمان عدم خداع نماذج التصنيف البصري من خلال التعديلات الطفيفة والمقصودة للبيانات، مما يضمن بذلك موثوقية قرارات الذكاء الاصطناعي.

ما هي التحديات التنظيمية المرتبطة باستخدام الذكاء الاصطناعي في القوات المسلحة؟

تشمل التحديات التنظيمية الحاجة إلى وضع معايير أمان قوية لمنع إساءة استخدام <span dir="ltr">AI</span> وضمان الامتثال للقوانين الإنسانية الدولية. هناك أيضًا اعتبارات أخلاقية، مثل احترام حقوق الإنسان وقضايا المسؤولية عن الأخطاء أو الأضرار غير المقصودة الناجمة عن الأنظمة <span dir="ltr">AI</span> المستقلة.