Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

En bref : Une fuite a révélé le prompt système du modèle d'IA Claude 3.7 Sonnet d'Anthropic, détaillant les comportements attendus, les outils utilisés et la posture adoptée. Cette divulgation soulève des questions sur la robustesse des mécanismes de sécurité protégeant les instructions internes du modèle, tout en illustrant la tension entre transparence, performance et contrôlabilité dans le développement de l'IA.

La semaine dernière, une fuite a révélé le prompt système complet du modèle de raisonnement hybride Claude 3.7 Sonnet, présenté en février dernier par Anthropic . D’une longueur inhabituelle de 24 000 tokens , l'invite décrit de façon précise les comportements attendus du modèle, les balises qu’il utilise, les outils autorisés, et la posture à adopter face aux utilisateurs.

Un aperçu rare des « entrailles » de l’IA

Le contenu du prompt que l'on peut retrouver sur GitHub va bien au-delà d’une simple configuration technique. Il détaille des consignes comportementales précises : adopter une posture nuancée, éviter de prendre parti sur des sujets sensibles, utiliser le format Markdown pour les extraits de code, ou encore expliciter ses raisonnements pas à pas lorsque cela est pertinent. Il contient également des mécanismes de filtrage et des balises XML, destinés à organiser les réponses de Claude pour des cas d’usage spécifiques.
Si cette exposition révèle l’ingénierie comportementale qui dicte les réponses de l’un des agents conversationnels les plus performants du marché, elle pose une question centrale : si les instructions internes d’un modèle peuvent être exposées et potentiellement manipulées, dans quelle mesure les mécanismes de sécurité censés les protéger sont-ils réellement robustes ?

Anthropic et le pari de la transparence

Depuis sa fondation en 2021 par les frère et sœur Dario et Daniela Amodei, Anthropic promeut une approche centrée sur la fiabilité, l’orientabilité et l’interprétabilité des systèmes d’IA. L’entreprise a introduit le concept d' IA constitutionnelle, une approche d’entraînement visant à inculquer des valeurs et des principes aux modèles d'IA, inspirés notamment de la Déclaration universelle des droits de l’Homme.
Un positionnement qui s'est traduit par un engagement vers la transparence : en août 2024, Anthropic publiait les invites système pour Claude 3 Haiku, Claude 3 Opus et Claude 3.5 Sonnet dans ses interfaces utilisateurs (web et mobile). Une démarche poursuivie pour Claude 3.7 Sonnet, accompagnée d’un document détaillé, la "Claude 3.7 Sonnet System Card", où sont exposées non seulement les capacités techniques du modèle, mais aussi les méthodes d’évaluation, les mécanismes de sécurité et les protocoles de réduction des risques pour Claude 3.7 Sonnet.

Toutefois, les prompts systems leakés apparaissent plus complets que les versions allégées partagées par Anthropic.
Le modèle y est décrit comme un partenaire conversationnel "intelligent et gentil", capable d’initiatives discursives, de raisonnements autonomes, voire d’hypothèses subjectives dans certains contextes philosophiques. Pourtant, comme le souligne Dario Amodei dans un billet de blog intitulé "L’urgence de l’interprétabilité", la compréhension fine des mécanismes internes de ces modèles reste un défi majeur. La transparence affichée ne masque pas l’opacité des processus qui les gouvernent.

Ouverture et sécurité : un équilibre complexe

Cette fuite illustre une tension croissante dans le développement des modèles d'IA : comment conjuguer performance, contrôlabilité et transparence, sans compromettre la robustesse des systèmes ? Rendre visibles les structures qui régissent le comportement d’un agent peut permettre un audit externe, voire un débat sur les choix éthiques faits en amont, mais comment préserver l’intégrité de ces systèmes lorsque leurs fondations sont exposées ?
Alors que les LLMs deviennent les interfaces principales d’accès à l’information et à l’action dans de nombreux secteurs, la question n’est plus simplement technique mais politique, éthique et stratégique.

Pour mieux comprendre (assisté par l'IA)

Qu'est-ce que l'IA constitutionnelle et comment influence-t-elle les modèles d'IA comme Claude 3.7 Sonnet ?

L'IA constitutionnelle est une approche qui vise à intégrer des valeurs et principes inspirés de documents comme la Déclaration universelle des droits de l’Homme dans l'entraînement des modèles d'IA. Cette méthode influence les modèles tels que Claude 3.7 Sonnet en les orientant vers des comportements qui reflètent ces valeurs, tels que la fiabilité et l'interprétabilité, tout en répondant aux préoccupations éthiques.

Quelles sont les implications réglementaires de la transparence accrue des invites système comme celles utilisées par Claude 3.7 Sonnet ?

La transparence accrue des invites système, comme celles de Claude 3.7 Sonnet, soulève des questions sur la protection des données et la confidentialité des utilisateurs. Les régulateurs peuvent exiger des normes plus élevées pour assurer que les informations sensibles ne sont pas compromises, tout en équilibrant cela avec le besoin de transparence pour l'audit et l'amélioration des modèles d'IA.