PRISM EvalとCEA-List、AIセキュリティチャレンジの受賞者

PRISM EvalとCEA-List、AIセキュリティチャレンジの受賞者

TLDR : 軍事分野におけるAIへの攻撃リスクに直面し、サイバー防衛司令部(COMCYBER)と防衛イノベーション庁(AID)はAIを保護するためのチャレンジを立ち上げ、PRISM EvalとCEA-Listの注目すべき提案がありました。PRISM EvalはAIシステムの行動的逸脱の分析に焦点を当てており、CEA-Listはデータの悪意ある改変に対する視覚分類モデルの保護を目指しています。

予知保全、情報分析、紛争シミュレーション、サイバー防衛:AIは現在、軍隊にとって重要な課題であり、不可欠な情報システムです。同時に、攻撃可能な新しい面を提供しています:モデルの悪用、データの操作、応答の改変...これらの脆弱性を予測し、それに対抗するためのソリューションを見出すために、サイバー防衛司令部(COMCYBER)と防衛イノベーション庁(AID)は「AIセキュリティ」チャレンジを立ち上げました。
情報システムとしてのAIは、攻撃の対象となり得る脆弱で潜在的に悪用される可能性があります。敵対的な攻撃、機密情報の抽出、悪意のあるコンテンツの生成はもはや理論的な仮説ではなく、実際の攻撃手段となっています。
軍事分野でのAIの展開には、堅固な技術基盤、アルゴリズムのレジリエンス、強化された運用管理を含む厳格なセキュリティが求められます。
このチャレンジには、研究所、スタートアップ、中小企業、ETI、大企業から10以上の応募が寄せられました。その中で特に注目されたのはPRISM EvalとCEA-Listです。

PRISM Eval:LLMの行動的脆弱性をテスト

2024年に設立されたパリのスタートアップPRISM Evalは、レッドチーミング、行動解釈性、先進的なAIシステムのアラインメントに特化しています。彼らはLLMの認知メカニズムを詳細に理解し、大規模な逸脱を制御することを目指しています。この科学的アプローチは、BET(Behavior Elicitation Tool)ツール群に具体化され、チャレンジで受賞しました。
最初の製品であるBET Evalは、ChatGPT、Le Chat、さらには国防省のAIアシスタントGenIAlを支えるLLMの堅牢性ニーズに直接応えます。このツールは、行動侵入テストのバッテリーとして機能し、セマンティックおよびコンテキスト攻撃のプリミティブを組み合わせて評価します:
  • モデルが悪意のあるまたは危険なコンテンツ(毒性、誘導)を生成する能力;
  • 機密情報の抽出に対する脆弱性;
  • 保護策を回避する容易さ(プロンプトインジェクション、ジェイルブレイク)。

CEA-List:視覚モデルを検証と信頼で保護

一方、CEA-Listはデータ改変攻撃に対する視覚分類モデルの保護を目指しています。ここでのリスクはより潜在的です:敵がわずかに変更した画像が、AIに民間車両を敵対的なエンジンとして—その逆もまた然り—認識させる可能性があります。
彼らのソリューションは、次の2つの補完的なツールに基づいています:
  • PyRATは、ニューラルネットワークに形式的な検証を施します。これは、自動分類を欺くためのピクセルの微細な変更など、検出が困難な攻撃に対して数学的保証を提供します;
  • PARTICULは、データセット内の規則性検出に基づく信頼スコアを計算します。目に見える侵入(パッチ追加など)を異常度を測定して検出します。
これらの2つのツールは、モデルの形式的な堅牢性(上流)とデータに対する運用信頼性(下流)を扱い、論理シンボルと統計的経験主義を組み合わせています。

Pour mieux comprendre

ニューラルネットワークの形式的検証とは何ですか、そしてそれは軍事AIのセキュリティにおいてどのように適用されますか?

形式的検証は、数学的技法を用いてシステムの正確な機能を証明または反証する厳密な方法です。軍事の文脈では、PyRATのようなツールがこの技術を適用し、視覚分類モデルが微妙で意図的なデータ変更によって騙されないようにし、AIの決定の信頼性を確保します。

軍隊でのAI使用に関連する規制上の課題は何ですか?

規制上の課題には、AIの悪用を防ぐための堅牢な安全基準を確立し、国際人道法の遵守を確保する必要性が含まれます。また、人権の尊重や自律的AIシステムによるエラーや意図しない損害に対する責任などの倫理的考慮もあります。