TLDR : 面对军事领域中 AI 攻击的风险,网络防御指挥部 (COMCYBER) 和国防创新局 (AID) 发起了一个 AI 安全挑战,PRISM Eval 和 CEA-List 提出了显著的解决方案。PRISM Eval 专注于分析 AI 系统的行为偏差,而 CEA-List 旨在保护视觉分类模型免受恶意数据修改的影响。
目录
预测性维护、情报分析、冲突模拟、网络防御:AI 今天成为军队的一个重大问题和不可或缺的信息系统。与此同时,它引入了前所未有的攻击面:可利用的模型、可操控的数据、可改变的响应......为了预见这些脆弱性并开发解决方案以对抗它们,网络防御指挥部 (COMCYBER) 和国防创新局 (AID) 发起了“AI 安全挑战”。
作为信息系统,AI 暴露、脆弱且可能被劫持。对抗性攻击、敏感信息提取或恶意内容生成不再是理论假设,而是活跃的攻击向量。
在军事领域的部署需要严格的安全措施,结合坚实的技术框架、算法弹性和增强的操作控制。
该挑战收到来自实验室、初创企业、中小企业、ETI 或大型集团的十多个申请。其中两个尤其突出:PRISM Eval 和 CEA-List。
PRISM Eval:测试 LLM 的行为漏洞
成立于 2024 年的巴黎初创公司 PRISM Eval 专注于红队演练、行为解释和先进 AI 系统的对齐。它的目标是深入理解 LLM 的认知机制,以大规模掌握其偏差。这一科学方法体现在挑战获胜工具套件 BET(行为引发工具)中。
其首款产品 BET Eval 直接满足为 ChatGPT、Le Chat 以及国防部的 AI 助手 GenIAl 提供动力的 LLM 的稳健性需求。该工具作为行为入侵测试套件,结合语义和上下文攻击原语来评估:
- 模型生成恶意或危险内容(毒性、煽动)的能力;
- 其对敏感信息泄露的脆弱性;
- 其防护措施被绕过的容易程度(提示注入、越狱)。
CEA-List:通过验证和信任确保视觉模型安全
另一方面,CEA-List 针对数据修改攻击下的视觉分类模型安全性。在这里,风险更加隐蔽:对手稍微修改的图像可能导致 AI 将民用车辆识别为敌对装备 —— 或反之亦然。
其解决方案基于两个互补工具:
- PyRAT,将形式验证应用于神经网络。它提供对微妙攻击的数学保证,例如旨在欺骗自动分类的不可见像素修改(这种技术文献丰富但实时检测困难);
- PARTICUL,基于数据集中的规律检测计算信任评分。通过测量输入的异常程度,它可以检测到更明显的入侵(如补丁添加)。
这两个工具通过结合符号逻辑和统计经验处理上游(模型的形式稳健性)和下游(数据的操作信任)。
Pour mieux comprendre
什么是神经网络的形式验证,它在军事人工智能安全背景下如何应用?
形式验证是一种使用数学技术来证明或反驳系统(包括神经网络)正确功能的严格方法。在军事背景下,像PyRAT这样的工具应用此技术,以确保视觉分类模型不会被数据的微妙和故意修改所欺骗,从而确保人工智能决策的可靠性。
武装部队中使用人工智能的监管挑战是什么?
监管挑战包括需要建立强大的安全标准以防止人工智能的错误使用,并确保遵守国际人道法律。还有一些伦理考虑,例如尊重人权以及自动化人工智能系统导致的错误或非故意伤害的责任问题。