Уитік розкрив повну системну підказку Claude 3.7 Sonnet

У короткому : Уитік розкрив повну системну підказку моделі ШІ Claude 3.7 Sonnet від Anthropic, виявляючи точні технічні та поведінкові деталі. Це піднімає питання про міцність механізмів безпеки, що захищають внутрішні інструкції моделі, і про баланс між продуктивністю, контрольованістю, прозорістю та безпекою.

Минулого тижня уитік розкрив повну системну підказку гібридної моделі розуміння Claude 3.7 Sonnet, представлену в лютому минулого року Anthropic. Незвичної довжини в 24 000 токенів, підказка детально описує очікувану поведінку моделі, теги, які вона використовує, дозволені інструменти та позицію, яку потрібно зайняти щодо користувачів.

Рідкісний погляд на «внутрішні механізми» штучного інтелекту

Зміст підказки, який можна знайти на GitHub, виходить далеко за межі простої технічної конфігурації. Він детально описує конкретні поведінкові інструкції: займати збалансовану позицію, уникати прийняття сторін у чутливих питаннях, використовувати формат Markdown для фрагментів коду або пояснювати свої міркування крок за кроком, коли це доречно. Він також містить механізми фільтрації та XML-теги, призначені для організації відповідей Claude для специфічних випадків використання.

Якщо ця експозиція розкриває поведінкову інженерію, яка диктує відповіді одного з найефективніших агентів розмови на ринку, вона ставить центральне питання: якщо внутрішні інструкції моделі можуть бути розкриті та потенційно маніпульовані, наскільки міцними є механізми безпеки, які повинні їх захищати?

Anthropic і ставка на прозорість

З моменту свого заснування у 2021 році братом і сестрою Даріо та Даніелою Амодеї, Anthropic сприяє підходу, що фокусується на надійності, орієнтованості та інтерпретаційності систем ШІ. Компанія запровадила концепцію конституційного ШІ, підхід до навчання, спрямований на впровадження цінностей і принципів у моделі ШІ, натхненних, зокрема, Загальною декларацією прав людини.

Таке позиціонування призвело до зобов'язання до прозорості: у серпні 2024 року Anthropic опублікував системні підказки для Claude 3 Haiku, Claude 3 Opus і Claude 3.5 Sonnet у своїх користувацьких інтерфейсах (веб та мобільні). Також цей підхід був продовжений для Claude 3.7 Sonnet, супроводжуваний детальним документом "Claude 3.7 Sonnet System Card", де викладено не лише технічні можливості моделі, але й методи оцінки, механізми безпеки та протоколи зниження ризиків для Claude 3.7 Sonnet.

Модель описана як "інтелектуальний і добрий" співрозмовник, здатний до дискурсивних ініціатив, автономних міркувань, а також суб'єктивних гіпотез у деяких філософських контекстах. Однак, як зазначає Даріо Амодеї у блозі під назвою "Невідкладність інтерпретації", тонке розуміння внутрішніх механізмів цих моделей залишається значним викликом. Прозорість, що демонструється, не приховує непрозорості процесів, що ними керують.

Відкритість і безпека: складний баланс

Цей уитік ілюструє зростаючу напругу у розробці моделей ШІ: як поєднати продуктивність, контрольованість і прозорість, не заважаючи міцності систем? Відкриття видимості структур, що керують поведінкою агента, може дозволити зовнішній аудит або навіть обговорення етичних виборів, зроблених на початку, але як зберегти цілісність цих систем, коли їхні основи викриті?

Оскільки великі мовні моделі (LLM) стають основними інтерфейсами доступу до інформації та дій у багатьох секторах, питання вже не є суто технічним, а політичним, етичним і стратегічним.

Перекладено з Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Краще зрозуміти

Що таке конституційний ІІ та як він впливає на моделі ІІ, такі як Claude 3.7 Sonnet?

Конституційний ІІ - це підхід, що націлений на інтеграцію цінностей та принципів, натхненних документами, як-от Загальна декларація прав людини, у навчання моделей ІІ. Цей метод впливає на моделі, такі як Claude 3.7 Sonnet, спрямовуючи їх до поведінки, яка відображає ці цінності, як надійність та інтерпретованість, водночас відповідаючи на етичні проблеми.

Які регуляторні наслідки підвищеної прозорості в системних підказках, таких як ті, що використовуються Claude 3.7 Sonnet?

Збільшена прозорість у системних підказках, таких як Claude 3.7 Sonnet, викликає питання стосовно захисту даних і приватності користувачів. Регулятори можуть вимагати вищих стандартів, щоб гарантувати, що чутлива інформація не піддається ризику, збалансовуючи це з необхідністю прозорості для аудиту та поліпшення AI-моделей.