Bağlam sıkıştırma, uzun ajan oturumlarını pencereyi doyurmadan yürütmek için dağıtıcıların etkinleştirdiği standart mekanizma, kişilik kaymasını güvenilir bir şekilde düzeltmez. Açık kaynak bir karşılaştırma, bu noktayı 23 sınır modelinde belgeler ve test edilmiş bir yanıt sunar: tek atış enjeksiyonlu bir çapa (single-shot anchor), değerlendirilen tüm hedefler üzerinde orijinal kayıtları yeniden eğitime gerek kalmadan, standart mesaj tamamlama API'si (chat-completions) aracılığıyla geri yükler. ContextEcho adlı çalışma, 22 Mayıs 2026'da arXiv'e Xianzhong Ding tarafından gönderildi; kendisi Accenture İleri AI Merkezi'nde araştırmacı ve 2024-2025 arasında Lawrence Berkeley Ulusal Laboratuvarı'nda eski doktora sonrası araştırmacı olup OpenReview profiline göre; çalışma ayrıca NeurIPS 2026 Değerlendirmeler ve Veri Setleri Takibi'ne çift kör değerlendirme (double-blind review) altında sunulmuştur. Test ortamı, Hugging Face'te yayınlanmıştır ve anonimleştirilmiş bir depoya yüklenmiş test çerçevesi (harness) ile birlikte değerlendirme süresi boyunca erişimi kısıtlı kalmıştır.

23 model değerlendirildi: belirtilen dayanıklılık, sınırlı doğrulanabilirlik

ContextEcho, çeşitli organizasyonlardan gelen 23 sınır modelinde sonuçlar açıklamaktadır, ancak erişilebilir kaynaklarda bu modellerin isim listesi yayınlanmamıştır. Kullanılan üç referans oturum anonimleştirilmiştir, bu da dışarıdan tekrar üretilebilirliği kısıtlar. Karşılaştırma ayrıca NeurIPS 2026 Değerlendirmeler ve Veri Setleri Takibi'nde çift kör değerlendirmededir: bulgular henüz hakemli bir değerlendirmeye tabi tutulmamıştır.

Oturumu Bozmadan Bağlanan 25 Sonda Dizisi

Mimari dört yapı taşı birleştirir. 25 kimlik sonda dizisi (25-probe identity suite) modelin davranışsal tutarlılığını sorgular; bir snapshot-then-probe protokolü, ana oturumu bozmadan konuşma durumunu dallandırır, bu da kaymayı tetiklemeden ölçmeyi sağlar; tamamlayıcı ölçüm yüzeyleri judged (bir model-yargıç tarafından değerlendirme) ve judge-free (ara LLM olmadan hesaplanan metrikler) iki yaklaşımı birleştirir. Tüm bunlar, sırasıyla 3.746 ve 9.716 konuşma turunu kapsayan, klasik kişilik kararlılık protokollerinin erişemeyeceği bir hacmi kapsayan üç anonimleştirilmiş Claude Code oturumuna dayanır. Değerlendirme, yazarlarına göre, çeşitli organizasyonlardan gelen 23 sınır modeli üzerinde yapılır, bu modellerin isim listesi bu aşamada yayınlanmamıştır: tek atış enjeksiyon çapasının dayanıklılığı değerlendirilen tüm hedeflerde doğrulanmıştır, ancak her hedefin kesin koşulları, makale sınırları dışında bağımsız olarak doğrulanamaz. Aşağı akış kullanımı açısından, etki mod bağımlıdır: araçsız modda kayma, format sözleşmelerini bozar ve çıktı uzunluğunu artırır; araçlı modda ise araçların kullanımının devamını kolaylaştırabilir.

Genel Bir Kayma ve Dayanıklı Bir Standart Çözüm Yok

İlk yapılandırıcı ders genel kapsamda: kişilik kayması organizasyonlar genelinde genel olarak gözlenir, belirli bir model ailesine özgü değildir. Değerlendirilen panelin tamamında, hiçbir teknik soy (Amerikan, Avrupa veya Asya laboratuvarlarından gelen) bağışık görünmemektedir. İkinci ders, yaygın olarak çözüm olarak sunulan bir mekanizmayı hedefler: oturum sırasında sıkıştırma, kişilik kaymasını güvenilir bir şekilde sıfırlamaz. Ancak sıkıştırma (konuşma sırasında kayan özetleme), uzun oturumları pencereyi doyurmadan yürütmek için dağıtıcıların etkinleştirdiği kaldıraçtır. Yazarların gözlemi, dolayısıyla, bu kaynağa dayanan üretimdeki ajan mimarilerini doğrudan ilgilendirir. Sonuç, bağımsız olarak doğrulanmayı beklemektedir: çalışma, bu NeurIPS takibine, anonim değerlendirme altında sunulmuştur ve sıkıştırma uygulamaları sistemden sisteme önemli ölçüde değişir, bu da herhangi bir endüstriyel genellemeden önce dikkatli olmayı gerektirir. Uzun oturumlarda ajanların davranışsal tutarlılığı artık aktif bir konudur: Purdue'nün paralel bir çalışması, When the Specification Emerges, bir ajan kodlayıcısının sadakat kaybını incelemektedir. AI'nın daha geniş davranışsal değerlendirme alanında, ActuIA daha önce Google DeepMind'in IAG'lerin yeteneklerini ve davranışlarını sınıflandırmak için bir çerçeve önerdiğini belirtmişti, bu da alanın standartlaştırılmış ölçüm protokollerine doğru olgunlaştığını gösteriyor.

Hiçbir teknik soy bağışık görünmüyor.

Kişilik kayması, organizasyonlar genelinde genel olarak gözlenir ve belirli bir model ailesine özgü değildir - ContextEcho yazarlarına göre 23 sınır hedef üzerinde.

Bir Danışmanlık Şirketine Dayanan Bir Karşılaştırma, Saf Bir Akademik Laboratuvara Değil

Katkının kurumsal bağlılığı belirtilmelidir. Xianzhong Ding, 2025'ten beri Accenture İleri AI Merkezi'nde araştırmacıdır, 2024-2025 arasında Lawrence Berkeley Ulusal Laboratuvarı'nda doktora sonrası araştırma yapmış ve UC Merced'de Elektrik Mühendisliği ve Bilgisayar Bilimleri alanında doktora yapmıştır. Profil, Amerikan kamu enerjisini ve büyük bir danışmanlık şirketinin uygulamalı araştırmalarını birleştirir. ActuIA, grubun bu cephede artan yatırımını zaten belgelemiştir: Accenture, 2023 yılında kendi iletişimine göre AI ve Veri'de 3 milyar dolar yatırım yapacağını açıklamıştır, ardından grup, Fransa'da iki generatif AI merkezi ile varlığını güçlendirdiğini belirtmiştir. ContextEcho, bu yayınlanan araştırma üretimi politikasına uygundur: çalışma, uluslararası birinci sınıf akademik bir katılımı (NeurIPS) hedeflemekte, hücresel değerlendirme ve verilen oturum ön ekleri ile bir değerlendirme gövdesi sunmakta ve aynı başvuru ile Hugging Face üzerinde kullanılabilir hale getirilmiştir. Yöntemsel özellik, dağıtımın temeline dayanır: üç anonimleştirilmiş Claude Code oturumu temel veriler olarak kullanılmakta, bu da yazarların, laboratuvar ortamında oluşturulan diyaloglara dayanan birçok değerlendirme protokolünün aksine, etkili kullanımdan gelen izleri tercih ettiğini göstermektedir.

 

ActuIA'nın Gözünden

ContextEcho'nun gerçek konusu metin çapası değil, onu gerekli kılan bulgudur: sıkıştırma, uzun oturumları yürütmek için varsayılan olarak etkinleştirilen bu kaynak, tutarlılık vaadini yerine getirmiyor. Ajan dağıtıcılarının orkestrasyon katmanı, on sekiz aydır, yazarlarının 23 sınır modelinde başarısız olduğunu söylediği bir çözüme dayanıyor.