PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI

PRISM Eval en de CEA-List, winnaars van de uitdaging Beveiliging van AI

In kort : Gezien de risico's van aanvallen op AI in de militaire sector hebben COMCYBER en AID een uitdaging gelanceerd om AI te beveiligen, met opmerkelijke voorstellen van PRISM Eval en de CEA-List. PRISM Eval richt zich op de analyse van gedragsafwijkingen, terwijl de CEA-List visuele modellen wil beveiligen tegen kwaadaardige gegevenswijzigingen.

Voorspellend onderhoud, inlichtingenanalyse, conflictsimulatie, cyberdefensie: AI is tegenwoordig een belangrijke kwestie voor de strijdkrachten en een onmisbaar informatiesysteem. Tegelijkertijd heeft het nieuwe aanvalsvlakken geïntroduceerd: exploiteerbare modellen, manipuleerbare gegevens, veranderbare antwoorden...Om deze kwetsbaarheden te anticiperen en oplossingen te laten ontstaan om deze tegen te gaan, hebben het Commando van de cyberdefensie (COMCYBER) en het Agentschap voor Defensie-innovatie (AID) de uitdaging "Beveiliging van AI" gelanceerd.
AI, als informatiesysteem, is blootgesteld, kwetsbaar en potentieel omkeerbaar. Tegenovergestelde aanvallen, extracties van gevoelige informatie of de generatie van schadelijke inhoud zijn geen theoretische hypothesen meer, maar actieve aanvalsvectoren.
De inzet ervan in het militaire domein vereist een rigoureuze beveiliging, met een solide technisch kader, algoritmische veerkracht en verhoogde operationele controle.
De uitdaging ontving meer dan tien inzendingen van laboratoria, start-ups, MKB's, middelgrote bedrijven of grote groepen. Twee vielen bijzonder op: die van PRISM Eval en de CEA-List.

PRISM Eval: testen van gedragsfouten van LLMs

Opgericht in 2024, specialiseert de Parijse start-up PRISM Eval zich in red teaming, gedragsinterpreteerbaarheid en de afstemming van geavanceerde AI-systemen. Het streeft ernaar een diepgaand begrip te ontwikkelen van de cognitieve mechanismen van LLMs om grootschalige afwijkingen te beheersen. Deze wetenschappelijke benadering wordt gematerialiseerd in de BET (Behavior Elicitation Tool)-suite, winnaar van de uitdaging.
Het eerste product, BET Eval, richt zich direct op de behoefte aan robuustheid van de LLMs die ChatGPT, Le Chat en GenIAl, de AI-assistent van het ministerie van Defensie, voeden. Het hulpmiddel fungeert als een reeks gedragsinbraaktesten, waarbij semantische en contextuele aanvalsprincipes worden gecombineerd om te evalueren:
  • het vermogen van het model om schadelijke of gevaarlijke inhoud te genereren (toxiciteit, aanzetting);
  • de kwetsbaarheid voor het exfiltreren van gevoelige informatie;
  • de eenvoud waarmee zijn beschermingen kunnen worden omzeild (prompt-injectie, jailbreak).

CEA-List: het beveiligen van visuele modellen door verificatie en vertrouwen

Aan de andere kant richt de CEA-List zich op de beveiliging van visuele classificatiemodellen tegen aanvallen door gegevenswijziging. Hier is het risico verraderlijker: een afbeelding die lichtjes door een tegenstander is aangepast, kan ertoe leiden dat AI een civiel voertuig identificeert als een vijandig voertuig — of omgekeerd.
De oplossing is gebaseerd op twee complementaire hulpmiddelen:
  • PyRAT, dat formele verificatie toepast op neurale netwerken. Het biedt wiskundige garanties tegen subtiele aanvallen, zoals onzichtbare pixelwijzigingen die zijn bedoeld om automatische classificatie te misleiden (een goed gedocumenteerde maar moeilijk in realtime te detecteren techniek);
  • PARTICUL, dat een vertrouwensscore berekent op basis van de detectie van regelmatigheden in datasets. Het maakt het mogelijk zichtbare indringingen te detecteren (zoals het toevoegen van patches) door de mate van anomalie van een invoer te meten.
Deze twee hulpmiddelen maken het mogelijk om zowel stroomopwaarts (formele robuustheid van het model) als stroomafwaarts (operationeel vertrouwen in de gegevens) te behandelen, door symbolische logica en statistisch empirisme te combineren.

Beter begrijpen

Wat is formele verificatie van neurale netwerken en hoe wordt het toegepast in de context van militaire AI-veiligheid?

Formele verificatie is een rigoureuze methode die gebruikmaakt van wiskundige technieken om het juiste functioneren van systemen, inclusief neurale netwerken, te bewijzen of te weerleggen. In de militaire context passen tools zoals PyRAT deze techniek toe om ervoor te zorgen dat visuele classificatiemodellen niet worden misleid door subtiele en opzettelijke gegevenswijzigingen, waardoor de betrouwbaarheid van AI-beslissingen wordt gegarandeerd.

Wat zijn de regelgevende uitdagingen in verband met het gebruik van AI in de strijdkrachten?

Regelgevende uitdagingen omvatten de noodzaak om robuuste veiligheidsnormen vast te stellen om AI-misbruik te voorkomen en ervoor te zorgen dat wordt voldaan aan internationale humanitaire wetten. Er zijn ook ethische overwegingen, zoals het respecteren van mensenrechten en aansprakelijkheidskwesties voor fouten of onbedoelde schade veroorzaakt door autonome AI-systemen.