PRISM Eval та CEA-List, лауреати виклику «Захист ІІ»

PRISM Eval та CEA-List, лауреати виклику «Захист ІІ»

У короткому : У відповідь на ризики атак на ІІ у військовій сфері, Командування кіберзахисту (COMCYBER) та Агентство інновацій в обороні (AID) запустили виклик для захисту ІІ, з видатними пропозиціями від PRISM Eval та CEA-List. PRISM Eval зосереджується на аналізі поведінкових відхилень ІІ систем, тоді як CEA-List прагне захистити моделі візуальної класифікації від зловмисних змін даних.

Прогнозне обслуговування, аналіз розвідки, моделювання конфліктів, кіберзахист: ІІ сьогодні є важливим питанням для збройних сил і незамінною інформаційною системою. Паралельно, вона ввела нові поверхні атак: експлуатаційні моделі, маніпульовані дані, змінні відповіді... Щоб передбачити ці вразливості та створити рішення для їх протидії, Командування кіберзахисту (COMCYBER) та Агентство інновацій в обороні (AID) запустили виклик "Захист ІІ".
ІІ, як інформаційна система, є вразливою і потенційно піддатливою до зловживань. Атаки зловмисників, витоки чутливої інформації або створення шкідливого контенту вже не є теоретичними гіпотезами, а активними векторами агресії.
Її розгортання в військовій сфері вимагає ретельного захисту, що включає надійну технічну основу, алгоритмічну стійкість і посилений оперативний контроль.
Виклик отримав більше десятка заявок від лабораторій, стартапів, МСП, ETI або великих груп. Дві з них особливо виділилися: PRISM Eval та CEA-List.

PRISM Eval: тестування поведінкових вразливостей LLMs

Заснована в 2024 році, паризька стартап-компанія PRISM Eval спеціалізується на red teaming, поведінковій інтерпретації та узгодженні передових ІІ систем. Її метою є розвиток тонкого розуміння когнітивних механізмів LLMs для контролю за масштабними відхиленнями. Цей науковий підхід матеріалізується в наборі інструментів BET (Behavior Elicitation Tool), лауреаті виклику.
Її перший продукт, BET Eval, безпосередньо відповідає на потреби в стійкості LLMs, які живлять ChatGPT, Le Chat або GenIAl, ІІ-асистента Міністерства оборони. Інструмент діє як набір поведінкових тестів на проникнення, поєднуючи семантичні та контекстуальні атаки для оцінки:
  • здатності моделі генерувати шкідливий або небезпечний контент (токсичність, підбурювання);
  • її вразливості до витоку чутливої інформації;
  • легкості, з якою її бар'єри можуть бути обійдені (ін'єкція підказок, джейлбрейк).

CEA-List: захист візуальних моделей через верифікацію та довіру

Зі свого боку, CEA-List орієнтується на захист моделей візуальної класифікації від атак шляхом модифікації даних. Тут ризик є більш підступним: зображення, трохи змінене супротивником, може змусити ІІ ідентифікувати цивільний транспортний засіб як ворожий — або навпаки.
Її рішення базується на двох комплементарних інструментах:
  • PyRAT, який застосовує формальну верифікацію до нейронних мереж. Він надає математичні гарантії проти підступних атак, таких як непомітні зміни пікселів, призначені для обману автоматичної класифікації (добре документована, але важко виявляється в реальному часі техніка);
  • PARTICUL, який обчислює рівень довіри, базуючись на виявленні регулярностей в наборах даних. Це дозволяє виявляти більш помітні вторгнення (такі як додавання патчів) шляхом вимірювання ступеня аномальності вводу.
Ці два інструменти дозволяють обробляти як передню (формальна стійкість моделі), так і задню (операційна довіра до даних) частини, поєднуючи символічну логіку та статистичний емпіризм.

Краще зрозуміти

Що таке формальна верифікація нейронних мереж і як вона застосовується в контексті військової безпеки ІІ?

Формальна верифікація є строгою методою, яка використовує математичні техніки для доведення або спростування правильного функціонування систем, у тому числі нейронних мереж. У військовому контексті інструменти як PyRAT застосовують цю техніку для забезпечення того, щоб моделі візуальної класифікації не були ошукані тонкими та навмисними змінами даних, таким чином, забезпечуючи надійність рішень ІІ.

Які регуляторні виклики пов'язані з використанням AI у збройних силах?

Регуляторні виклики включають необхідність встановлення надійних стандартів безпеки для запобігання неправильному використанню AI і забезпечення дотримання міжнародних гуманітарних законів. Також є етичні міркування, такі як повага до прав людини і питання відповідальності за помилки або ненавмисну шкоду, завдану автономними системами AI.