Зміст
Ущільнення контексту, стандартний механізм, який активують розробники для проведення довгих сесій агентів без перевантаження вікна, не виправляє дрейф персон надійно. Відкритий бенчмарк документає цей момент на 23 передових моделях і пропонує перевірене рішення: єдина ін'єкційна якірна точка (single-shot anchor) відновлює оригінальну реєстрацію, натреновану на всіх оцінених цілях, без повторного навчання, через стандартний API завершення повідомлень (chat-completions). Робота, названа ContextEcho, була подана на arXiv 22 травня 2026 року Сяньчжуном Дінгом, дослідником з Центру передової ШІ Accenture і колишнім постдоком в Lawrence Berkeley National Lab (2024-2025), відповідно до його профілю OpenReview; вона також подана на NeurIPS 2026 Evaluations & Datasets Track, в процесі анонімного подвійного оцінювання (double-blind review). Тестове середовище, опубліковане на Hugging Face, супроводжується тестовою рамкою (harness), розміщеною в анонімному репозиторії, доступ до якого залишатиметься обмеженим до завершення анонімного оцінювання.
23 оцінені моделі: заявлена надійність, обмежена перевіряємість
ContextEcho оголошує результати на 23 передових моделях з різних організацій, не публікуючи їх номінальний список у доступних джерелах. Три довідкові сесії використовуються анонімно, що обмежує зовнішню відтворюваність. Бенчмарк також перебуває на стадії подвійного анонімного оцінювання на NeurIPS 2026 Evaluations & Datasets Track: його висновки ще не підлягали опублікованому оцінюванню рецензентів.
Набір з 25 зондів підключений без порушення сесії
Архітектура поєднує чотири блоки. Набір з 25 зондів ідентичності (25-probe identity suite) перевіряє поведінкову узгодженість моделі; протокол snapshot-then-probe розділяє стан розмови без порушення основної сесії, що дозволяє вимірювати дрейф без його провокації; додаткові поверхні вимірювання judged (оцінка моделлю-суддею) та judge-free (метрики, розраховані без проміжної LLM) поєднують два підходи. Все це базується на трьох анонімних сесіях Claude Code, що охоплюють відповідно 3 746 і до 9 716 турів розмов, обсяг поза досяжністю класичних протоколів стабільності персон, які зосереджуються на коротких діалогах. Оцінка, за словами авторів, стосується 23 передових моделей з різних організацій, номінальний список яких наразі не опублікований: надійність єдиної ін'єкційної якірної точки підтверджена на всіх оцінених цілях, але точні умови кожної цілі залишаються неперевіреними незалежно за межами статті. З боку використання, ефект залежить від режиму: у режимі без інструментів дрейф порушує угоди про форматування і збільшує довжину виходів; у режимі з інструментами він може полегшити продовження використання інструментів.
Загальний дрейф і стандартний панацея, що не тримається
Перше структурне навчання є загальним: дрейф персон спостерігається загалом через організації, а не специфічно для однієї сім'ї моделей. На всьому обстеженому панелі жодна технічна лінія (будь то з американської, європейської чи азійської лабораторії) не здається імунною. Друге навчання стосується механізму, який часто представляють як рішення: ущільнення в ході сесії не скидає дрейф персон надійно. Оскільки ущільнення (поступове резюмування контексту в ході розмови) є саме важелем, який активують розробники для проведення довгих сесій без перевантаження вікна. Висновок авторів безпосередньо стосується архітектур агентів у виробництві, які спираються на цей ресурс. Результат залишається підтвердити незалежно: робота подана на цей трек NeurIPS, в процесі анонімного оцінювання, і реалізації ущільнення значно відрізняються від системи до системи, що закликає до обережності перед будь-якою промисловою узагальненням. Поведінкова узгодженість агентів на довгих сесіях тепер є активною темою: паралельна робота Purdue, When the Specification Emerges, паралельно розглядає втрату вірності агента-кодувальника, коли специфікація поступово з'являється. На більш широкому полі поведінкової оцінки ШІ, ActuIA вже відзначала, що Google DeepMind пропонує рамки для класифікації здібностей і поведінки IAG, ілюструючи зрілість поля до стандартних протоколів вимірювання.
Жодна технічна лінія не здається імунною.
Дрейф персон спостерігається загалом через організації, а не специфічно для однієї сім'ї моделей - за словами авторів ContextEcho на 23 передових цілях.
Бенчмарк, пов'язаний з консалтинговою фірмою, а не з чисто академічною лабораторією
Інституційна прив'язка внеску заслуговує на увагу. Сяньчжун Дінг є дослідником в Центрі передової ШІ Accenture з 2025 року, після постдокторату в Lawrence Berkeley National Lab між 2024 і 2025 роками, і докторської дисертації в Electrical Engineering and Computer Sciences в UC Merced. Профіль поєднує американську публічну енергію і прикладні дослідження у великій консалтинговій компанії. ActuIA вже документувала зростаючі інвестиції групи на цьому фронті, згідно з оголошеннями фірми: Accenture оголосила у 2023 році про інвестицію в 3 мільярди доларів у ШІ та дані відповідно до власної комунікації, а потім, знову ж таки за словами групи, посилила свою присутність у Франції двома центрами, присвяченими генеративному ШІ. ContextEcho вписується в цю політику виробництва опублікованих досліджень: робота спрямована на міжнародний академічний рівень (NeurIPS), з корпусом оцінки за осередками та префіксами сесій, наданими на Hugging Face з тією ж подачею. Методологічна особливість полягає в якорному розгортанні: три анонімні сесії Claude Code використовуються як базові дані, знак того, що автори віддали перевагу слідам від фактичного використання, а не синтетичним тестовим лавам, розрізнення, яке має значення в полі, де багато протоколів оцінювання все ще ґрунтуються на діалогах, створених у лабораторії.
Погляд ActuIA
Справжня тема ContextEcho не є текстовим якорем, це констатація, яка робить її необхідною: ущільнення, цей ресурс, який команди активують за замовчуванням для проведення довгих сесій, не відповідає обіцянці узгодженості. Оркестровка команд розробників агентів, отже, вже вісімнадцять місяців базується на панацеї, яку автори називають несправною на 23 передових моделях.