Ein Leak offenbart den vollständigen Systemprompt von Claude 3.7 Sonnet

TLDR : Ein Leak hat das vollständige System des KI-Modells Claude 3.7 Sonnet von Anthropic offengelegt und präzise technische und verhaltensbezogene Details veröffentlicht. Dies wirft Fragen zur Robustheit der Sicherheitsmechanismen auf, die die internen Anweisungen eines Modells schützen, und wie das Gleichgewicht zwischen Leistung, Steuerbarkeit, Transparenz und Sicherheit gewahrt werden kann.

Letzte Woche wurde der vollständige System-Prompt des hybriden Denkmodells Claude 3.7 Sonnet, das im letzten Februar von Anthropic vorgestellt wurde, geleakt. Mit einer ungewöhnlichen Länge von 24.000 Tokens beschreibt der Prompt präzise die erwarteten Verhaltensweisen des Modells, die verwendeten Tags, die erlaubten Tools und die Haltung gegenüber Nutzern.

Ein seltener Einblick in die „Eingeweide“ der KI

Der Inhalt des Prompts, den man auf GitHub finden kann, geht weit über eine einfache technische Konfiguration hinaus. Er enthält präzise Verhaltensanweisungen: eine nuancierte Haltung einnehmen, vermeiden, Stellung zu sensiblen Themen zu nehmen, das Markdown-Format für Codeausschnitte verwenden oder seine Überlegungen Schritt für Schritt darlegen, wenn es relevant ist. Er enthält auch Filtermechanismen und XML-Tags, um die Antworten von Claude für spezifische Anwendungsfälle zu organisieren.

Obwohl diese Enthüllung das Verhaltens-Engineering aufzeigt, das die Antworten eines der leistungsfähigsten Gesprächsagenten auf dem Markt diktiert, wirft sie eine zentrale Frage auf: Wenn die internen Anweisungen eines Modells offengelegt und potenziell manipuliert werden können, wie robust sind dann die Sicherheitsmechanismen, die diese schützen sollen, wirklich?

Anthropic und die Wette auf Transparenz

Seit ihrer Gründung im Jahr 2021 durch die Geschwister Dario und Daniela Amodei fördert Anthropic einen Ansatz, der auf Zuverlässigkeit, Steuerbarkeit und Interpretierbarkeit von KI-Systemen ausgerichtet ist. Das Unternehmen hat das Konzept der konstitutionellen KI eingeführt, einen Trainingsansatz, der darauf abzielt, Modelle mit Werten und Prinzipien zu versehen, inspiriert unter anderem von der Allgemeinen Erklärung der Menschenrechte.

Diese Positionierung hat sich in einem Engagement für Transparenz niedergeschlagen: Im August 2024 veröffentlichte Anthropic die Systemprompts für Claude 3 Haiku, Claude 3 Opus und Claude 3.5 Sonnet in seinen Benutzeroberflächen (Web und Mobil). Ein Ansatz, der für Claude 3.7 Sonnet fortgesetzt wurde, begleitet von einem detaillierten Dokument, der „Claude 3.7 Sonnet System Card“, in dem nicht nur die technischen Fähigkeiten des Modells, sondern auch die Bewertungsmethoden, Sicherheitsmechanismen und Risikominderungsprotokolle für Claude 3.7 Sonnet dargelegt werden.

Das Modell wird dort als „intelligenter und freundlicher“ Gesprächspartner beschrieben, der in der Lage ist, diskursive Initiativen, autonome Überlegungen und sogar subjektive Hypothesen in bestimmten philosophischen Kontexten zu entwickeln. Doch wie Dario Amodei in einem Blogbeitrag mit dem Titel „Die Dringlichkeit der Interpretierbarkeit“ betont, bleibt das feine Verständnis der internen Mechanismen dieser Modelle eine große Herausforderung. Die gezeigte Transparenz verdeckt nicht die Undurchsichtigkeit der Prozesse, die sie steuern.

Öffnung und Sicherheit: ein komplexes Gleichgewicht

Dieses Leak veranschaulicht eine zunehmende Spannung in der Entwicklung von KI-Modellen: Wie kann man Leistung, Kontrollierbarkeit und Transparenz vereinen, ohne die Robustheit der Systeme zu gefährden? Die Strukturen, die das Verhalten eines Agenten regeln, sichtbar zu machen, kann eine externe Prüfung ermöglichen, ja sogar eine Debatte über die ethischen Entscheidungen, die im Vorfeld getroffen wurden, aber wie kann man die Integrität dieser Systeme bewahren, wenn ihre Grundlagen offengelegt werden?

Da LLMs zunehmend die Hauptschnittstellen für den Zugang zu Informationen und Handlungen in vielen Bereichen werden, ist die Frage nicht mehr nur technischer, sondern auch politischer, ethischer und strategischer Natur.

Übersetzt von Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Besser verstehen

Was ist konstitutionelle KI und wie beeinflusst sie KI-Modelle wie Claude 3.7 Sonnet?

Konstitutionelle KI ist ein Ansatz, der darauf abzielt, Werte und Prinzipien, inspiriert von Dokumenten wie der Allgemeinen Erklärung der Menschenrechte, in das Training von KI-Modellen zu integrieren. Diese Methode beeinflusst Modelle wie Claude 3.7 Sonnet, indem sie sie zu Verhaltensweisen führt, die diese Werte widerspiegeln, wie Zuverlässigkeit und Interpretierbarkeit, während sie ethische Bedenken anspricht.

Welche regulatorischen Auswirkungen hat die erhöhte Transparenz in Systemaufforderungen wie denen von Claude 3.7 Sonnet?

Die erhöhte Transparenz in Systemaufforderungen wie denen von Claude 3.7 Sonnet wirft Fragen bezüglich des Datenschutzes und der Privatsphäre der Benutzer auf. Regulierungsbehörden könnten höhere Standards verlangen, um sicherzustellen, dass sensible Informationen nicht gefährdet werden, während dies mit dem Bedarf an Transparenz für die Prüfung und Verbesserung von KI-Modellen in Einklang gebracht wird.