Una fuga rivelerebbe l'intero prompt di sistema di Claude 3.7 Sonnet

TLDR : Una fuga ha rivelato il sistema completo del modello di IA Claude 3.7 Sonnet di Anthropic, esponendo dettagli tecnici e comportamentali precisi. Ciò solleva interrogativi sulla robustezza dei meccanismi di sicurezza che proteggono le istruzioni interne di un modello e sull'equilibrio tra performance, controllabilità, trasparenza e sicurezza.

La settimana scorsa, una fuga ha rivelato il prompt di sistema completo del modello di ragionamento ibrido Claude 3.7 Sonnet, presentato lo scorso febbraio da Anthropic . Di una lunghezza insolita di 24.000 token, il prompt descrive in modo preciso i comportamenti attesi del modello, i tag che utilizza, gli strumenti autorizzati e l'atteggiamento da adottare nei confronti degli utenti.

Uno sguardo raro nelle "viscere" dell'IA

Il contenuto del prompt che si può trovare su GitHub va ben oltre una semplice configurazione tecnica. Dettaglia istruzioni comportamentali precise: adottare un atteggiamento sfumato, evitare di prendere posizione su argomenti sensibili, utilizzare il formato Markdown per gli estratti di codice, o esplicitare i propri ragionamenti passo dopo passo quando pertinente. Contiene anche meccanismi di filtraggio e tag XML, destinati a organizzare le risposte di Claude per casi d'uso specifici.

Se questa esposizione rivela l'ingegneria comportamentale che detta le risposte di uno degli agenti conversazionali più performanti del mercato, pone una questione centrale: se le istruzioni interne di un modello possono essere esposte e potenzialmente manipolate, fino a che punto i meccanismi di sicurezza destinati a proteggerle sono realmente robusti?

Anthropic e la scommessa sulla trasparenza

Dal 2021, anno della sua fondazione da parte dei fratelli Dario e Daniela Amodei, Anthropic promuove un approccio incentrato sull'affidabilità, l'orientabilità e l'interpretabilità dei sistemi di IA. L'azienda ha introdotto il concetto di IA costituzionale, un approccio di addestramento volto a inculcare valori e principi nei modelli di IA, ispirati in particolare alla Dichiarazione universale dei diritti dell'uomo.

Una posizione che si è tradotta in un impegno verso la trasparenza: nell'agosto 2024, Anthropic pubblicava i prompt di sistema per Claude 3 Haiku, Claude 3 Opus e Claude 3.5 Sonnet nelle sue interfacce utente (web e mobile). Un'iniziativa proseguita per Claude 3.7 Sonnet, accompagnata da un documento dettagliato, la "Claude 3.7 Sonnet System Card", dove sono esposte non solo le capacità tecniche del modello, ma anche i metodi di valutazione, i meccanismi di sicurezza e i protocolli di riduzione dei rischi per Claude 3.7 Sonnet.

Il modello è descritto come un partner conversazionale "intelligente e gentile", capace di iniziative discorsive, di ragionamenti autonomi, persino di ipotesi soggettive in alcuni contesti filosofici. Eppure, come sottolinea Dario Amodei in un post sul blog intitolato "L'urgenza dell'interpretabilità", la comprensione approfondita dei meccanismi interni di questi modelli resta una sfida importante. La trasparenza mostrata non maschera l'opacità dei processi che li governano.

Apertura e sicurezza: un equilibrio complesso

Questa fuga illustra una tensione crescente nello sviluppo dei modelli di IA: come coniugare performance, controllabilità e trasparenza, senza compromettere la robustezza dei sistemi? Rendere visibili le strutture che regolano il comportamento di un agente può permettere un audit esterno, o persino un dibattito sulle scelte etiche fatte a monte, ma come preservare l'integrità di questi sistemi quando le loro fondamenta sono esposte?

Ora che i LLM stanno diventando le interfacce principali di accesso all'informazione e all'azione in molti settori, la questione non è più semplicemente tecnica ma politica, etica e strategica.

Tradotto da Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Per capire meglio

Che cos'è l'IA costituzionale e come influisce sui modelli di IA come Claude 3.7 Sonnet?

L'IA costituzionale è un approccio che mira a integrare valori e principi ispirati a documenti come la Dichiarazione Universale dei Diritti Umani nell'addestramento dei modelli di IA. Questo metodo influenza i modelli come Claude 3.7 Sonnet guidandoli verso comportamenti che riflettono tali valori, come l'affidabilità e l'interpretabilità, affrontando al contempo preoccupazioni etiche.

Quali sono le implicazioni normative derivanti dalla maggiore trasparenza nelle richieste di sistema come quelle utilizzate da Claude 3.7 Sonnet?

La maggiore trasparenza nelle richieste di sistema, come quelle di Claude 3.7 Sonnet, solleva questioni riguardanti la protezione dei dati e la privacy degli utenti. I regolatori potrebbero richiedere standard più elevati per garantire che le informazioni sensibili non siano compromesse, bilanciandolo con la necessità di trasparenza per la verifica e il miglioramento dei modelli di IA.