PRISM Eval e il CEA-List, vincitori della sfida di Sicurezza dell'IA

PRISM Eval e il CEA-List, vincitori della sfida di Sicurezza dell'IA

TLDR : Di fronte ai rischi di attacchi sull'IA nel campo militare, COMCYBER e AID hanno lanciato una sfida per mettere in sicurezza l'IA, con proposte notevoli da PRISM Eval e CEA-List. PRISM Eval si concentra sull'analisi delle derive comportamentali, mentre CEA-List mira a proteggere i modelli visivi dalle alterazioni malevoli.

Manutenzione predittiva, analisi di intelligence, simulazione di conflitti, cyberdifesa: l'IA è oggi una questione fondamentale per le forze armate e un sistema d'informazione indispensabile. Parallelamente, ha introdotto superfici di attacco inedite: modelli sfruttabili, dati manipolabili, risposte alterabili... Per anticipare queste vulnerabilità e far emergere soluzioni per contrastarle, il Comando della cyberdifesa (COMCYBER) e l'Agenzia dell'innovazione della Difesa (AID) hanno lanciato la sfida "Sicurezza dell'IA".
L'IA, in quanto sistema d'informazione, è esposta, vulnerabile e potenzialmente dirottabile. Gli attacchi avversariali, le estrazioni di informazioni sensibili o la generazione di contenuti malevoli non sono più ipotesi teoriche ma vettori di aggressione attivi.
Il suo dispiegamento nel campo militare richiede una sicurezza rigorosa, integrando un solido quadro tecnico, una resilienza algoritmica e un controllo operativo accresciuto.
La sfida ha ricevuto più di una decina di candidature provenienti da laboratori, start-up, PMI, ETI o grandi gruppi. Due si sono particolarmente distinte: quelle di PRISM Eval e del CEA-List.

PRISM Eval: testare le falle comportamentali dei LLM

Fondata nel 2024, la start-up parigina PRISM Eval si specializza nel red teaming, nell'interpretabile comportamentale e nell'allineamento dei sistemi di IA avanzati. Ha l'ambizione di sviluppare una comprensione fine dei meccanismi cognitivi dei LLM per controllare le derive su larga scala. Questo approccio scientifico si materializza nella suite di strumenti BET (Behavior Elicitation Tool), vincitrice della sfida.
Il suo primo prodotto, BET Eval, si rivolge direttamente alle esigenze di robustezza dei LLM che alimentano ChatGPT, Le Chat o GenIAl, l'assistente IA del ministero delle Forze Armate. Lo strumento opera come una batteria di test di intrusione comportamentale, combinando primitive di attacchi semantici e contestuali per valutare:
  • la capacità del modello di generare contenuti malevoli o pericolosi (tossicità, incitazioni);
  • la sua vulnerabilità all'esfiltrazione di informazioni sensibili;
  • la facilità con cui i suoi sistemi di protezione possono essere aggirati (prompt injection, jailbreak).

CEA-List: mettere in sicurezza i modelli visivi tramite verifica e fiducia

Da parte sua, il CEA-List si concentra sulla messa in sicurezza dei modelli di classificazione visiva di fronte agli attacchi tramite modifica dei dati. Qui, il rischio è più insidioso: un'immagine leggermente alterata da un avversario può portare un'IA a identificare un veicolo civile come un mezzo ostile — o viceversa.
La sua soluzione si basa su due strumenti complementari:
  • PyRAT, che applica una verifica formale alle reti neurali. Fornisce garanzie matematiche contro gli attacchi sottili, come le modifiche impercettibili di pixel destinate a ingannare la classificazione automatica (una tecnica ben documentata ma difficile da rilevare in tempo reale);
  • PARTICUL, che calcola un punteggio di fiducia basato sul rilevamento di regolarità nei set di dati. Permette di rilevare intrusioni più visibili (come l'aggiunta di patch) misurando il grado di anomalia di un input.
Questi due strumenti permettono di trattare sia l'amont (robustezza formale del modello) sia l'aval (fiducia operativa nei dati), combinando logica simbolica ed empirismo statistico.

Per capire meglio

Che cos'è la verifica formale delle reti neurali e come viene applicata nel contesto della sicurezza dell'IA militare?

La verifica formale è un metodo rigoroso che utilizza tecniche matematiche per dimostrare o confutare il corretto funzionamento dei sistemi, comprese le reti neurali. Nel contesto militare, questa tecnica viene applicata da strumenti come PyRAT per garantire che i modelli di classificazione visiva non vengano ingannati da modifiche sottili e intenzionali dei dati, garantendo così l'affidabilità delle decisioni dell'IA.

Quali sono le sfide regolamentari associate all'uso dell'IA nelle forze armate?

Le sfide regolamentari includono la necessità di stabilire standard di sicurezza robusti per prevenire l'uso improprio dell'IA e garantire la conformità con le leggi internazionali umanitarie. Ci sono anche considerazioni etiche, come il rispetto dei diritti umani e la responsabilità per errori o danni non intenzionali causati da sistemi di IA autonomi.