W skrócie : Przeciek ujawnił systemowy model Claude 3.7 Sonnet firmy Anthropic, ukazując szczegółowe informacje techniczne i behawioralne. To podnosi pytania o solidność mechanizmów zabezpieczeń chroniących wewnętrzne instrukcje modelu oraz równowagę między wydajnością, kontrolowalnością, przejrzystością i bezpieczeństwem.
W zeszłym tygodniu doszło do przecieku, który ujawnił pełną treść podpowiedzi systemowej modelu hybrydowego wnioskowania Claude 3.7 Sonnet, zaprezentowanego w lutym przez Anthropic. Podpowiedź, o nietypowej długości 24 000 tokenów, precyzyjnie opisuje oczekiwane zachowania modelu, używane tagi, dozwolone narzędzia oraz postawę wobec użytkowników. Rzadki wgląd w „wnętrzności” AI
Zawartość podpowiedzi dostępna na GitHub wykracza daleko poza prostą konfigurację techniczną. Opisuje precyzyjne wytyczne dotyczące zachowań: przyjmowanie zrównoważonej postawy, unikanie zajmowania stanowiska w kwestiach wrażliwych, używanie formatu Markdown do fragmentów kodu, a także wyjaśnianie swoich rozumowań krok po kroku, gdy jest to stosowne. Zawiera również mechanizmy filtrowania i tagi XML, przeznaczone do organizowania odpowiedzi Claude dla konkretnych przypadków użycia.
Jeśli ta ekspozycja ujawnia inżynierię behawioralną, która dyktuje odpowiedzi jednego z najwydajniejszych agentów konwersacyjnych na rynku, to stawia kluczowe pytanie: jeśli wewnętrzne instrukcje modelu mogą być ujawnione i potencjalnie manipulowane, w jakim stopniu mechanizmy zabezpieczeń, które mają je chronić, są rzeczywiście solidne?
Anthropic i zakład o przejrzystość
Od momentu założenia w 2021 roku przez rodzeństwo Dario i Danielę Amodei, Anthropic promuje podejście skoncentrowane na niezawodności, kierowalności i interpretowalności systemów AI. Firma wprowadziła pojęcie AI konstytucyjnej, podejście szkoleniowe mające na celu zaszczepienie wartości i zasad w modelach AI, inspirowane między innymi Powszechną Deklaracją Praw Człowieka.
Pozycjonowanie to przełożyło się na zobowiązanie do przejrzystości: w sierpniu 2024, Anthropic opublikował systemowe podpowiedzi dla Claude 3 Haiku, Claude 3 Opus i Claude 3.5 Sonnet w swoich interfejsach użytkownika (web i mobilnych). Działania te kontynuowano dla Claude 3.7 Sonnet, w towarzystwie szczegółowego dokumentu, „Claude 3.7 Sonnet System Card”, gdzie przedstawiono nie tylko techniczne możliwości modelu, ale także metody oceny, mechanizmy zabezpieczeń i protokoły redukcji ryzyka dla Claude 3.7 Sonnet.
Model opisany jest jako „inteligentny i uprzejmy” partner konwersacyjny, zdolny do inicjatyw dyskursywnych, autonomicznych rozumowań, a nawet subiektywnych hipotez w niektórych kontekstach filozoficznych. Niemniej jednak, jak podkreśla Dario Amodei w wpisie na blogu zatytułowanym „Pilna potrzeba interpretowalności”, dokładne zrozumienie wewnętrznych mechanizmów tych modeli pozostaje dużym wyzwaniem. Deklarowana przejrzystość nie ukrywa nieprzejrzystości procesów, które nimi rządzą.
Otwartość i bezpieczeństwo: skomplikowana równowaga
Ten przeciek ilustruje narastające napięcie w rozwoju modeli AI: jak pogodzić wydajność, kontrolowalność i przejrzystość, nie kompromitując solidności systemów? Upublicznienie struktur, które regulują zachowanie agenta, może umożliwić zewnętrzny audyt, a nawet debatę nad wyborami etycznymi dokonanymi wcześniej, ale jak zachować integralność tych systemów, gdy ich fundamenty są ujawnione?
Gdy LLM stają się głównymi interfejsami dostępu do informacji i działania w wielu sektorach, pytanie nie jest już tylko techniczne, ale polityczne, etyczne i strategiczne.
Bardziej zrozumiałe
Czym jest konstytucyjna sztuczna inteligencja i jak wpływa na modele AI takie jak Claude 3.7 Sonnet?
Konstytucyjna sztuczna inteligencja to podejście, które ma na celu integrację wartości i zasad inspirowanych dokumentami takimi jak Powszechna Deklaracja Praw Człowieka w szkolenie modeli AI. Ta metoda wpływa na modele takie jak Claude 3.7 Sonnet, kierując je ku zachowaniom, które odzwierciedlają te wartości, takim jak niezawodność i interpretowalność, jednocześnie adresując obawy etyczne.
Jakie są regulacyjne implikacje zwiększonej przejrzystości w systemowych promptach, takich jak te używane przez Claude 3.7 Sonnet?
Zwiększona przejrzystość w systemowych promptach, takich jak te w Claude 3.7 Sonnet, podnosi problemy związane z ochroną danych i prywatnością użytkowników. Regulatorzy mogą wymagać wyższych standardów, aby upewnić się, że poufne informacje nie są zagrożone, równoważąc to z potrzebą przejrzystości w celu audytu i poprawy modeli AI.