TLDR : Une fuite a révélé le système complet du modèle d'IA Claude 3.7 Sonnet d'Anthropic, exposant des détails techniques et comportementaux précis. Cela soulève des questions sur la robustesse des mécanismes de sécurité protégeant les instructions internes d'un modèle et sur l'équilibre entre performance, contrôlabilité, transparence et sécurité.
목록
지난주, 2월에 Anthropic에 의해 발표된 하이브리드 추론 모델 Claude 3.7 Sonnet의 전체 시스템 프롬프트가 유출되었습니다. 24,000 토큰이라는 비정상적으로 긴 길이로, 이 프롬프트는 모델이 기대하는 행동, 사용하는 태그, 허용된 도구, 사용자에 대한 자세를 구체적으로 설명하고 있습니다.
AI의 ‘내부’에 대한 드문 통찰
GitHub에서 확인할 수 있는 프롬프트의 내용은 단순한 기술 구성 이상입니다. 이는 미세한 자세를 취하고, 민감한 주제에 대해 입장을 취하지 않으며, 코드 스니펫에 Markdown 형식을 사용하고, 관련이 있을 때 단계별로 추론을 명확히 하는 등의 구체적인 행동 지침을 상세히 설명합니다. 또한 특정 사용 사례에 대한 Claude의 응답을 구성하기 위한 필터링 메커니즘과 XML 태그도 포함되어 있습니다.
이러한 노출은 시장에서 가장 성능이 뛰어난 대화형 에이전트 중 하나의 응답을 지시하는 행동 공학을 드러내지만, 중심적인 질문을 제기합니다: 모델의 내부 지침이 노출되고 잠재적으로 조작될 수 있다면, 이를 보호하기 위한 보안 메커니즘은 얼마나 견고할까요?
Anthropic과 투명성의 도전
Dario와 Daniela Amodei 형제에 의해 2021년에 설립된 이후로, Anthropic은 AI 시스템의 신뢰성, 방향성 및 해석 가능성에 중점을 둔 접근 방식을 홍보해 왔습니다. 이 회사는 AI 헌법의 개념을 도입했으며, 이는 특히 인간의 보편적인 권리 선언에서 영감을 받아 모델에 가치와 원칙을 주입하는 훈련 접근 방식입니다.
이러한 포지셔닝은 투명성에 대한 약속으로 이어졌습니다: 2024년 8월, Anthropic은 Claude 3 Haiku, Claude 3 Opus, Claude 3.5 Sonnet의 시스템 프롬프트를 웹 및 모바일 사용자 인터페이스에 공개했습니다. Claude 3.7 Sonnet에 대해서도 이러한 접근이 계속되었으며, 모델의 기술적 능력뿐만 아니라 평가 방법, 보안 메커니즘 및 Claude 3.7 Sonnet에 대한 위험 감소 프로토콜을 공개한 "Claude 3.7 Sonnet System Card"라는 상세한 문서를 동반했습니다.
모델은 "지적이고 친절한" 대화 파트너로 묘사되며, 대화의 주도권을 잡고, 자율적인 추론을 하며, 경우에 따라 철학적 맥락에서 주관적인 가설을 세울 수 있습니다. 그러나 Dario Amodei가 "해석 가능성의 긴급성"이라는 제목의 블로그 게시물에서 강조하듯이, 이러한 모델의 내부 메커니즘에 대한 세밀한 이해는 여전히 주요 도전 과제입니다. 표시된 투명성은 그들을 지배하는 프로세스의 불투명성을 가리지 않습니다.
개방성과 보안: 복잡한 균형
이번 유출은 AI 모델 개발에서 성능, 제어 가능성 및 투명성을 조화시키는 동시에 시스템의 견고성을 훼손하지 않는 방법에 대한 증가하는 긴장을 보여줍니다. 에이전트의 행동을 지배하는 구조를 가시적으로 만드는 것은 외부 감사는 물론 사전에 이루어진 윤리적 선택에 대한 논쟁을 가능하게 할 수 있지만, 그 기초가 노출될 때 이러한 시스템의 무결성을 어떻게 보존할 수 있을까요?
대규모 언어 모델이 여러 분야에서 정보 및 행동의 주요 인터페이스가 됨에 따라, 이 문제는 더 이상 단순히 기술적인 것이 아니라 정치적, 윤리적, 전략적인 문제입니다.
더 잘 이해하기
헌법 AI란 무엇이며 Claude 3.7 Sonnet과 같은 AI 모델에 어떻게 영향을 미칩니까?
헌법 AI는 세계 인권 선언과 같은 문서에서 영감을 받은 가치와 원칙을 AI 모델 교육에 통합하려는 접근 방식입니다. 이 방법은 Claude 3.7 Sonnet과 같은 모델에 영향을 미쳐 신뢰성과 해석 가능성과 같은 가치를 반영하는 행동으로 이끌면서 윤리적 우려를 다룹니다.
Claude 3.7 Sonnet과 같은 시스템 프롬프트에서 투명성 증가의 규제적 영향은 무엇인가요?
Claude 3.7 Sonnet의 시스템 프롬프트와 같은 투명성 증가는 데이터 보호 및 사용자 프라이버시와 관련된 문제를 제기합니다. 규제 당국은 민감한 정보가 손상되지 않도록 더 높은 기준을 요구할 수 있으며, 이를 AI 모델의 감사 및 개선을 위한 투명성 필요성과 균형을 맞춰야 합니다.