PRISM Eval과 CEA-List, AI 보안 도전 과제 수상자

PRISM Eval과 CEA-List, AI 보안 도전 과제 수상자

TLDR : 군사 분야의 AI 공격 위험에 대응하여, 사이버방어 사령부(COMCYBER)와 국방혁신청(AID)은 AI 보안을 위한 도전 과제를 시작했습니다. PRISM Eval은 AI 시스템의 행동 이상을 분석하는데 중점을 두고, CEA-List는 데이터의 악의적 변조로부터 시각적 분류 모델을 보호하는 것을 목표로 합니다.

예측 유지보수, 정보 분석, 갈등 시뮬레이션, 사이버 방어: AI는 오늘날 군대에게 중요한 과제이며 필수적인 정보 시스템입니다. 동시에, 새로운 공격 표면을 도입했습니다: 취약한 모델, 조작 가능한 데이터, 변경 가능한 응답... 이러한 취약점을 예측하고 대응할 수 있는 솔루션을 창출하기 위해, 사이버방어 사령부(COMCYBER)와 국방혁신청(AID)은 "AI 보안" 도전 과제를 시작했습니다.
정보 시스템으로서의 AI는 노출되기 쉽고, 취약하며, 잠재적으로 악용 가능합니다. 적대적 공격, 민감한 정보의 유출 또는 악의적인 콘텐츠 생성은 더 이상 이론적 가설이 아니라 활성 공격 벡터입니다.
군사 분야에서의 AI 배치는 견고한 기술적 프레임워크, 알고리즘적 회복력 및 강화된 운영 통제를 포함한 철저한 보안이 요구됩니다.
이 도전 과제는 연구소, 스타트업, 중소기업, 중견기업 및 대기업에서 10여 개 이상의 지원을 받았습니다. 그 중 두 개의 제안이 특히 주목받았습니다: PRISM Eval과 CEA-List입니다.

PRISM Eval: LLM의 행동 취약점 테스트

2024년에 설립된 파리 기반 스타트업 PRISM Eval은 레드 팀 활동, 행동 해석 가능성 및 고급 AI 시스템의 정렬에 특화되어 있습니다. LLM의 인지 메커니즘을 정밀하게 이해하여 대규모 이상 행동을 제어하는 것을 목표로 합니다. 이러한 과학적 접근은 도전 과제의 수상작인 BET(Behavior Elicitation Tool) 도구 모음으로 구체화됩니다.
그들의 첫 제품, BET Eval은 ChatGPT, Le Chat 및 국방부의 AI 어시스턴트 GenIAl을 지원하는 LLM의 견고성 요구를 직접적으로 해결합니다. 이 도구는 행동 침입 테스트 배터리로 작동하여, 의미적 및 맥락적 공격 원형을 결합하여 다음을 평가합니다:
  • 모델이 악의적이거나 위험한 콘텐츠를 생성할 수 있는 능력 (유해성, 유도);
  • 민감한 정보의 유출 취약성;
  • 그의 안전 장치가 우회되는 쉬움 (프롬프트 인젝션, 탈옥).

CEA-List: 검증과 신뢰를 통한 시각 모델 보안

한편, CEA-List는 데이터 변조 공격에 대한 시각적 분류 모델의 보안을 목표로 합니다. 여기서의 위험은 더욱 교묘합니다: 적이 약간 변경한 이미지는 AI가 민간 차량을 적대적인 장비로 식별하게 할 수 있습니다 — 반대의 경우도 마찬가지입니다.
그들의 솔루션은 두 가지 보완 도구에 기반합니다:
  • PyRAT는 신경망에 대한 형식적 검증을 적용합니다. 이는 자동 분류를 속이기 위한 픽셀의 미세한 변경과 같은 미묘한 공격에 대한 수학적 보장을 제공합니다 (이 기술은 문서화되어 있으나 실시간으로 감지하기 어려움);
  • PARTICUL은 데이터 세트 규칙성을 감지하여 신뢰 점수를 계산합니다. 이는 패치 추가와 같은 더 눈에 띄는 침입을 감지하여 입력의 이상 정도를 측정합니다.
이 두 도구는 상류(모델의 형식적 견고성)와 하류(데이터에 대한 운영적 신뢰)를 모두 다루며, 논리적 상징과 통계적 경험주의를 결합합니다.

더 잘 이해하기

뉴럴 네트워크의 형식 검증이란 무엇이며, 군사 AI 보안 맥락에서 어떻게 적용됩니까?

형식 검증은 수학적 기법을 사용하여 시스템, 특히 뉴럴 네트워크의 올바른 기능을 입증하거나 반증하는 엄격한 방법입니다. 군사 문맥에서는 PyRAT 같은 도구가 이 기술을 적용하여 시각적 분류 모델이 미세하고 의도적인 데이터 수정에 의해 속지 않도록 보장하여 AI 결정의 신뢰성을 확보합니다.

군대에서 AI 사용과 관련된 규제적 도전 과제는 무엇입니까?

규제적 도전 과제에는 AI 오용을 방지하기 위한 강력한 보안 표준을 수립하고 국제 인도법을 준수하는 것이 포함됩니다. 또한, 인간의 권리를 존중하고 자율 AI 시스템으로 인한 오류 또는 의도치 않은 피해에 대한 책임 문제와 같은 윤리적 고려사항도 있습니다.