O scurgere ar dezvălui întregul prompt sistem al Claude 3.7 Sonnet

În scurt : O scurgere a dezvăluit sistemul complet al modelului de IA Claude 3.7 Sonnet de Anthropic, expunând detalii tehnice și comportamentale precise. Aceasta ridică întrebări despre robustețea mecanismelor de securitate care protejează instrucțiunile interne ale unui model și despre echilibrul între performanță, controlabilitate, transparență și securitate.

Săptămâna trecută, o scurgere a dezvăluit promptul sistem complet al modelului de raționament hibrid Claude 3.7 Sonnet, prezentat în februarie de Anthropic. Cu o lungime neobișnuită de 24 000 de tokeni, promptul descrie precis comportamentele așteptate ale modelului, etichetele pe care le utilizează, uneltele autorizate și abordarea de adoptat față de utilizatori.

O privire rară asupra «entrailles» ale IA

Conținutul promptului, care poate fi găsit pe GitHub, depășește cu mult o simplă configurație tehnică. Detaliază instrucțiuni comportamentale precise: adoptarea unei atitudini nuanțate, evitarea luării unei poziții pe subiecte sensibile, utilizarea formatului Markdown pentru extrase de cod sau explicarea raționamentelor pas cu pas atunci când este relevant. De asemenea, conține mecanisme de filtrare și etichete XML, destinate să organizeze răspunsurile lui Claude pentru cazuri de utilizare specifice.

Dacă această expunere relevă ingineria comportamentală care dictează răspunsurile unuia dintre cei mai performanți agenți conversaționali de pe piață, ea ridică o întrebare centrală: dacă instrucțiunile interne ale unui model pot fi expuse și potențial manipulate, în ce măsură mecanismele de securitate menite să le protejeze sunt cu adevărat robuste?

Anthropic și pariul transparenței

De la fondarea sa în 2021 de către frații Dario și Daniela Amodei, Anthropic promovează o abordare centrată pe fiabilitatea, orientabilitatea și interpretabilitatea sistemelor de IA. Compania a introdus conceptul de IA constituțională, o abordare de antrenament care vizează să insufle valori și principii modelelor de IA, inspirate în special din Declarația Universală a Drepturilor Omului.

O poziționare care s-a tradus printr-un angajament către transparență: în august 2024, Anthropic a publicat prompturile sistem pentru Claude 3 Haiku, Claude 3 Opus și Claude 3.5 Sonnet în interfețele sale utilizator (web și mobil). O demersă continuată pentru Claude 3.7 Sonnet, însoțită de un document detaliat, „Claude 3.7 Sonnet System Card”, unde sunt expuse nu doar capacitățile tehnice ale modelului, ci și metodele de evaluare, mecanismele de securitate și protocoalele de reducere a riscurilor pentru Claude 3.7 Sonnet.

Modelul este descris ca un partener conversațional „inteligent și amabil”, capabil de inițiative discursive, raționamente autonome și chiar ipoteze subiective în anumite contexte filozofice. Totuși, așa cum subliniază Dario Amodei într-un articol de blog intitulat „Urgentă interpretabilității”, înțelegerea fină a mecanismelor interne ale acestor modele rămâne o provocare majoră. Transparența afișată nu maschează opacitatea proceselor care le guvernează.

Deschidere și securitate: un echilibru complex

Această scurgere ilustrează o tensiune crescândă în dezvoltarea modelelor de IA: cum să se îmbine performanța, controlabilitatea și transparența fără a compromite robustetea sistemelor? A face vizibile structurile care guvernează comportamentul unui agent poate permite un audit extern, chiar o dezbatere asupra alegerilor etice făcute în amonte, dar cum se poate păstra integritatea acestor sisteme atunci când fundațiile lor sunt expuse?

Întrucât LLM-urile devin principalele interfețe de acces la informație și acțiune în multe sectoare, problema nu mai este pur și simplu tehnică, ci politică, etică și strategică.

Tradus de Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Pentru a înțelege mai bine

Ce este inteligența artificială constituțională și cum influențează modelele de IA precum Claude 3.7 Sonnet?

Inteligența artificială constituțională este o abordare care își propune să integreze valori și principii inspirate de documente precum Declarația Universală a Drepturilor Omului în instruirea modelelor de IA. Această metodă influențează modele precum Claude 3.7 Sonnet, ghidându-le spre comportamente care reflectă aceste valori, cum ar fi fiabilitatea și interpretabilitatea, abordând în același timp preocupările etice.

Care sunt implicațiile de reglementare ale transparenței crescute în solicitările de sistem, precum cele utilizate de Claude 3.7 Sonnet?

Transparența crescută în solicitările de sistem, cum ar fi cele ale Claude 3.7 Sonnet, ridică probleme privind protecția datelor și confidențialitatea utilizatorilor. Reglementatorii ar putea cere standarde mai ridicate pentru a asigura faptul că informațiile sensibile nu sunt compromise, echilibrând aceasta cu necesitatea de transparență pentru auditarea și îmbunătățirea modelelor AI.