Sommario
La compattazione del contesto, il meccanismo standard che gli operatori attivano per mantenere sessioni di agenti lunghe senza saturare la finestra, non corregge in modo affidabile la deriva di persona. Un benchmark open source documenta questo punto su 23 modelli di frontiera e propone una risposta testata: un'ancora in iniezione unica (single-shot anchor) ripristina il registro originale addestrato sull'insieme dei target valutati, senza ri-addestramento, tramite l'API standard di completamento dei messaggi (chat-completions). Il lavoro, denominato ContextEcho, è stato depositato su arXiv il 22 maggio 2026 da Xianzhong Ding, ricercatore presso il Center for Advanced AI di Accenture ed ex postdottorato al Lawrence Berkeley National Lab (2024-2025) secondo il suo profilo OpenReview; è anche sottoposto al NeurIPS 2026 Evaluations & Datasets Track, in fase di valutazione anonima a doppio cieco (double-blind review). L'ambiente di test, pubblicato su Hugging Face, è accompagnato da un framework di test depositato su un repository anonimizzato il cui accesso rimane limitato durante il periodo di valutazione anonima.
23 modelli valutati: robustezza dichiarata, verificabilità limitata
ContextEcho annuncia risultati su 23 modelli di frontiera provenienti da diverse organizzazioni, senza pubblicare la loro lista nominativa nelle fonti accessibili. Le tre sessioni di riferimento utilizzate sono anonimizzate, il che limita la riproducibilità esterna. Il benchmark è inoltre in double-blind review al NeurIPS 2026 Evaluations & Datasets Track: le sue conclusioni non sono ancora state oggetto di una valutazione tra pari pubblicata.
Una suite di 25 sonde collegata senza perturbare la sessione
L'architettura combina quattro moduli. Una suite di 25 sonde identitarie (25-probe identity suite) interroga la coerenza comportamentale del modello; un protocollo snapshot-then-probe biforca lo stato conversazionale senza perturbare la sessione principale, consentendo di misurare la deriva senza provocarla; superfici di misura complementari judged (valutazione da parte di un modello-giudice) e judge-free (metriche calcolate senza LLM intermedio) incrociano i due approcci. Il tutto si basa su tre sessioni Claude Code anonimizzate che coprono rispettivamente 3.746, e fino a 9.716 turni di conversazione, un volume fuori dalla portata dei protocolli classici di stabilità di persona, che si concentrano su dialoghi brevi. La valutazione si basa, secondo gli autori, su 23 modelli di frontiera provenienti da diverse organizzazioni, la cui lista nominativa non è pubblicata a questo stadio: la robustezza dell'ancora in iniezione unica è attestata sull'insieme dei target valutati, ma le condizioni precise di ogni target restano non verificabili indipendentemente al di fuori del perimetro del paper. Sul versante dell'uso a valle, l'effetto è mode-dipendente: in modalità senza strumenti, la deriva rompe i contratti di formattazione e gonfia la lunghezza delle uscite; in modalità con strumenti, può facilitare la continuazione dell'uso degli strumenti.
Una deriva generale, e un palliativo standard che non regge
La prima lezione strutturante ha una portata trasversale: la deriva di persona è osservata in modo generale attraverso le organizzazioni, e non specifica a una famiglia di modelli. Su tutto il panel valutato, nessuna linea tecnica (che provenga da un laboratorio americano, europeo o asiatico) sembra immune. La seconda lezione mira a un meccanismo comunemente presentato come soluzione: la compattazione in corso di sessione non reimposta in modo affidabile la deriva di persona. Tuttavia, la compattazione (riassunto scorrevole del contesto nel corso della conversazione) è precisamente la leva che gli operatori attivano per mantenere sessioni lunghe senza saturare la finestra. La constatazione degli autori riguarda quindi direttamente le architetture agenti in produzione che si basano su questo meccanismo. Il risultato resta da confermare indipendentemente: il lavoro è sottoposto a questo track NeurIPS, in fase di valutazione anonima, e le implementazioni di compattazione variano sensibilmente da un sistema all'altro, il che invita alla prudenza prima di qualsiasi generalizzazione industriale. La coerenza comportamentale degli agenti su sessioni lunghe è ormai un argomento attivo: un lavoro adiacente di Purdue, When the Specification Emerges, esamina in parallelo la perdita di fedeltà di un agente coder quando la specifica emerge progressivamente. Sul campo più ampio della valutazione comportamentale delle IA, ActuIA notava già che Google DeepMind proponeva un quadro per classificare le capacità e il comportamento delle IAG, illustrando la maturazione del campo verso protocolli di misura standardizzati.
Nessuna linea tecnica sembra immune.
La deriva di persona è osservata in modo generale attraverso le organizzazioni, e non specifica a una famiglia di modelli - secondo gli autori di ContextEcho su 23 target di frontiera.
Un benchmark legato a una società di consulenza, non a un laboratorio accademico puro
L'affiliazione istituzionale del contributo merita di essere considerata. Xianzhong Ding è ricercatore presso il Center for Advanced AI di Accenture dal 2025, dopo un postdottorato al Lawrence Berkeley National Lab tra il 2024 e il 2025, e una tesi in Electrical Engineering and Computer Sciences a UC Merced. Il profilo quindi incrocia l'energia pubblica americana e la ricerca applicata in una grande società di consulenza. ActuIA documentava già l'investimento crescente del gruppo su questo fronte, secondo gli annunci della società: Accenture ha annunciato nel 2023 un investimento di 3 miliardi di dollari nell'IA e nei Dati secondo la propria comunicazione, e poi, sempre secondo il gruppo, ha rafforzato la sua presenza in Francia con due centri dedicati all'IA generativa. ContextEcho si inserisce in questa politica di produzione di ricerca pubblicata: il lavoro mira a una sede accademica di primo piano internazionale (NeurIPS), con un corpus di valutazione per cella e prefissi di sessioni dati, messi a disposizione su Hugging Face con la stessa sottomissione. La particolarità metodologica risiede nell'ancoraggio di distribuzione: tre sessioni Claude Code anonimizzate sono mobilitate come dati di base, segno che gli autori hanno privilegiato tracce derivanti da uso effettivo piuttosto che banchi di prova sintetici, una distinzione che pesa, in un campo in cui molti protocolli di valutazione si basano ancora su dialoghi costruiti in laboratorio.
L'occhio di ActuIA
Il vero argomento di ContextEcho non è l'ancora testuale, è la constatazione che la rende necessaria: la compattazione, quel meccanismo che i team attivano per default per mantenere sessioni lunghe, non mantiene la promessa di coerenza. Il livello di orchestrazione degli operatori di agenti si basa quindi, da diciotto mesi, su un palliativo che gli autori dicono fallace su 23 modelli di frontiera.