Kompresja kontekstu, standardowy mechanizm aktywowany przez wdrażających w celu prowadzenia długich sesji agenta bez zapełniania okna, nie koryguje w sposób niezawodny dryfu persony. Otwarty benchmark dokumentuje ten punkt na 23 modelach granicznych i proponuje przetestowaną odpowiedź: pojedynczy wstrzyk tekstowy (single-shot anchor) przywraca oryginalny rejestr wyszkolony na wszystkich ocenianych celach, bez ponownego treningu, za pośrednictwem standardowego API do uzupełniania wiadomości (chat-completions). Praca, nazwana ContextEcho, została złożona na arXiv 22 maja 2026 roku przez Xianzhong Dinga, badacza w Center for Advanced AI w Accenture i byłego postdoktoranta w Lawrence Berkeley National Lab (2024-2025) zgodnie z jego profilem OpenReview; jest również zgłoszona do NeurIPS 2026 Evaluations & Datasets Track, obecnie poddawanej anonimowej ocenie podwójnie ślepej (double-blind review). Środowisko testowe, opublikowane na Hugging Face, jest uzupełnione o ramkę testową (harness) złożoną na zanonimizowanym repozytorium, do którego dostęp pozostaje ograniczony na czas anonimowej oceny.

23 modele ocenione: deklarowana odporność, ograniczona weryfikowalność

ContextEcho ogłasza wyniki na 23 modelach granicznych pochodzących z różnych organizacji, nie publikując ich listy w dostępnych źródłach. Trzy sesje referencyjne używane są zanonimizowane, co ogranicza zewnętrzną replikowalność. Benchmark jest ponadto w trakcie oceny podwójnie ślepej na NeurIPS 2026 Evaluations & Datasets Track: jego wnioski nie zostały jeszcze poddane opublikowanej ocenie przez rówieśników.

Zestaw 25 sond podłączony bez zakłócania sesji

Architektura łączy cztery bloki. Zestaw 25 sond tożsamościowych (25-probe identity suite) bada spójność zachowania modelu; protokół snapshot-then-probe rozdziela stan konwersacyjny bez zakłócania głównej sesji, co pozwala mierzyć dryf bez jego wywoływania; uzupełniające powierzchnie pomiarowe judged (ocena przez model sędziego) i judge-free (metryki obliczane bez pośredniego LLM) krzyżują oba podejścia. Całość opiera się na trzech zanonimizowanych sesjach Claude Code obejmujących odpowiednio 3 746 i do 9 716 tur konwersacji, co stanowi wolumen poza zasięgiem klasycznych protokołów stabilności persony, które koncentrują się na krótkich dialogach. Ocena dotyczy, według autorów, 23 modeli granicznych pochodzących z różnych organizacji, których lista nie jest opublikowana na tym etapie: odporność pojedynczego wstrzyknięcia tekstowego jest potwierdzona na wszystkich ocenianych celach, ale dokładne warunki każdej z nich pozostają nieweryfikowalne niezależnie poza zakresem pracy. W przypadku użytkowania w trybie downstream efekt zależy od trybu: w trybie bez narzędzi, dryf łamie umowy dotyczące formatowania i zwiększa długość wyjść; w trybie z narzędziami, może ułatwić kontynuację użytkowania narzędzi.

Ogólny dryf i standardowe rozwiązanie, które zawodzi

Pierwszą pouczającą lekcją jest to, że dryf persony jest obserwowany ogólnie w różnych organizacjach, a nie jest specyficzny dla jednej rodziny modeli. Na całym panelu ocenianym, żadna linia techniczna (niezależnie od tego, czy pochodzi z laboratorium amerykańskiego, europejskiego, czy azjatyckiego) nie wydaje się być odporna. Druga lekcja dotyczy mechanizmu często przedstawianego jako rozwiązanie: kompresja w trakcie sesji nie resetuje w sposób niezawodny dryfu persony. Kompresja (przesuwające się podsumowanie kontekstu w miarę postępującej konwersacji) jest właśnie dźwignią, którą wdrażający aktywują, aby prowadzić długie sesje bez zapełniania okna. Obserwacja autorów dotyczy więc bezpośrednio architektur agentów w produkcji, które opierają się na tym mechanizmie. Wynik pozostaje do potwierdzenia niezależnie: praca jest zgłoszona na ten track NeurIPS, w trakcie anonimowej oceny, a implementacje kompresji różnią się znacznie w zależności od systemu, co wymaga ostrożności przed jakąkolwiek industrialną generalizacją. Spójność zachowania agentów podczas długich sesji jest obecnie aktywnym tematem: równoległa praca Purdue, When the Specification Emerges, bada równolegle utratę wierności kodera, gdy specyfikacja stopniowo się wyłania. W szerszym zakresie oceny zachowania AI, ActuIA już zauważała, że Google DeepMind proponował ramy do klasyfikacji zdolności i zachowania IAG, ilustrując dojrzewanie pola do standardowych protokołów pomiarowych.

Żadna linia techniczna nie wydaje się być odporna.

Dryf persony jest obserwowany ogólnie w różnych organizacjach, a nie jest specyficzny dla jednej rodziny modeli - według autorów ContextEcho na 23 celach granicznych.

Benchmark związany z firmą doradczą, a nie czysto akademickim laboratorium

Warto podkreślić instytucjonalne przynależność tej kontrybucji. Xianzhong Ding jest badaczem w Center for Advanced AI w Accenture od 2025 roku, po postdoktoracie w Lawrence Berkeley National Lab między 2024 a 2025, i doktoracie z Electrical Engineering and Computer Sciences na UC Merced. Profil łączy więc amerykańską energię publiczną i zastosowaną badania w dużej firmie doradczej. ActuIA już dokumentowała rosnące inwestycje grupy na tym froncie, zgodnie z ogłoszeniami firmy: Accenture ogłosiło w 2023 inwestycję 3 miliardów dolarów w AI i Data zgodnie z własną komunikacją, a następnie, nadal zgodnie z grupą, wzmocniło swoją obecność we Francji z dwoma centrami dedykowanymi AI generatywnej. ContextEcho wpisuje się w tę politykę produkcji publikowanych badań: praca ma na celu międzynarodowe akademickie wydarzenie najwyższej rangi (NeurIPS), z korpusem oceny na poziomie komórki i danymi początkowymi sesji, udostępnionymi na Hugging Face z tą samą zgłoszoną pracą. Metodologiczna cecha szczególna polega na zakotwiczeniu wdrożenia: trzy zanonimizowane sesje Claude Code są wykorzystywane jako dane bazowe, co oznacza, że autorzy preferowali ślady pochodzące z rzeczywistego użytkowania, a nie syntetycznych testów laboratoryjnych, co jest istotne, w polu, gdzie wiele protokołów oceny nadal opiera się na dialogach tworzonych w laboratorium.

 

Oko ActuIA

Prawdziwy temat ContextEcho nie jest tekstową kotwicą, to ustalenie, które czyni ją konieczną: kompresja, ta dźwignia, którą zespoły aktywują domyślnie, aby prowadzić długie sesje, nie spełnia obietnic spójności. Warstwa orkiestracji wdrożeń agentów opiera się więc, od osiemnastu miesięcy, na prowizorce, którą autorzy uznają za zawodną na 23 modelach granicznych.