Een lek onthult het volledige systeem prompt van Claude 3.7 Sonnet

In kort : Een lek heeft het volledige systeem van het AI-model Claude 3.7 Sonnet van Anthropic onthuld, wat precieze technische en gedragsdetails blootlegt. Dit roept vragen op over de robuustheid van de beveiligingsmechanismen die de interne instructies van een model beschermen en over de balans tussen prestatie, controleerbaarheid, transparantie en veiligheid.

Afgelopen week onthulde een lek de volledige systeem prompt van het hybride redeneermodel Claude 3.7 Sonnet, gepresenteerd in februari door Anthropic. Met een ongebruikelijke lengte van 24.000 tokens beschrijft de prompt nauwkeurig de verwachte gedragingen van het model, de tags die het gebruikt, de toegestane tools, en de houding die aangenomen moet worden tegenover gebruikers.

Een zeldzame kijk in de 'ingewanden' van AI

De inhoud van de prompt, te vinden op GitHub, gaat verder dan een simpele technische configuratie. Het geeft gedetailleerde gedragsinstructies: een genuanceerde houding aannemen, vermijden partij te kiezen in gevoelige onderwerpen, Markdown gebruiken voor codefragmenten, en zijn redeneringen stap voor stap uitleggen waar relevant. Het bevat ook filtermechanismen en XML-tags, bedoeld om de antwoorden van Claude te organiseren voor specifieke gebruikssituaties.

Hoewel deze onthulling de gedragsengineering blootlegt die de antwoorden van een van de meest geavanceerde conversatieagenten op de markt dicteert, roept het een centrale vraag op: als de interne instructies van een model blootgelegd en potentieel gemanipuleerd kunnen worden, in hoeverre zijn de beveiligingsmechanismen die ze zouden moeten beschermen echt robuust?

Anthropic en de inzet voor transparantie

Sinds de oprichting in 2021 door broer en zus Dario en Daniela Amodei, promoot Anthropic een benadering gericht op de betrouwbaarheid, oriënteerbaarheid en interpreteerbaarheid van AI-systemen. Het bedrijf introduceerde het concept van constitutionele AI, een trainingsbenadering die gericht is op het bijbrengen van waarden en principes aan AI-modellen, geïnspireerd door de Universele Verklaring van de Rechten van de Mens.

Een positie die zich vertaalt in een engagement voor transparantie: in augustus 2024 publiceerde Anthropic de systeem prompts voor Claude 3 Haiku, Claude 3 Opus en Claude 3.5 Sonnet in zijn gebruikersinterfaces (web en mobiel). Deze aanpak werd voortgezet voor Claude 3.7 Sonnet, vergezeld van een gedetailleerd document, de "Claude 3.7 Sonnet System Card", waarin niet alleen de technische capaciteiten van het model worden blootgelegd, maar ook de evaluatiemethoden, beveiligingsmechanismen en risicoreductieprotocollen voor Claude 3.7 Sonnet.

Het model wordt beschreven als een "intelligente en vriendelijke" gesprekspartner, in staat tot discursieve initiatieven, autonome redeneringen, en zelfs subjectieve hypothesen in bepaalde filosofische contexten. Toch blijft, zoals Dario Amodei benadrukt in een blogpost getiteld "De urgentie van interpreteerbaarheid", het grondig begrijpen van de interne mechanismen van deze modellen een grote uitdaging. De gepretendeerde transparantie verbergt de ondoorzichtigheid van de processen die ze beheersen.

Openheid en veiligheid: een complexe balans

Dit lek illustreert een groeiende spanning in de ontwikkeling van AI-modellen: hoe kunnen prestaties, controleerbaarheid en transparantie worden gecombineerd zonder de robuustheid van systemen in gevaar te brengen? Het zichtbaar maken van de structuren die het gedrag van een agent sturen kan externe audits mogelijk maken, en zelfs een debat over de vooraf gemaakte ethische keuzes, maar hoe kan de integriteit van deze systemen worden behouden wanneer hun fundamenten worden blootgelegd?

Nu LLM's de belangrijkste interfaces worden voor toegang tot informatie en actie in veel sectoren, is de vraag niet langer alleen technisch, maar politiek, ethisch en strategisch.

Vertaald van Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Beter begrijpen

Wat is constitutionele AI en hoe beïnvloedt het AI-modellen zoals Claude 3.7 Sonnet?

Constitutionele AI is een benadering die erop gericht is waarden en principes, geïnspireerd door documenten zoals de Universele Verklaring van de Rechten van de Mens, te integreren in de training van AI-modellen. Deze methode beïnvloedt modellen zoals Claude 3.7 Sonnet door hen te leiden naar gedragingen die deze waarden weerspiegelen, zoals betrouwbaarheid en interpretatie, terwijl het ethische zorgen adresseert.

Wat zijn de regelgevende implicaties van verhoogde transparantie in systeemopdrachten zoals die gebruikt door Claude 3.7 Sonnet?

Verhoogde transparantie in systeemopdrachten, zoals die van Claude 3.7 Sonnet, roept vragen op over gegevensbescherming en gebruikersprivacy. Regelgevers kunnen hogere normen eisen om ervoor te zorgen dat gevoelige informatie niet wordt gecompromitteerd, terwijl dit wordt gebalanceerd met de behoefte aan transparantie voor auditing en het verbeteren van AI-modellen.