ИИ учится лучше, когда забывает. Парадокс памяти раскрыт
ИИ учится лучше, когда забывает. Парадокс памяти раскрыт

Искусственный интеллект с ограниченной памятью превзошёл стандартные модели в освоении языка

Чем меньше помнит - тем лучше учится. Именно к такому контринтуитивному выводу пришли исследователи, опубликовавшие результаты эксперимента в журнале Transactions of the Association for Computational Linguistics: языковая модель, намеренно лишённая способности удерживать весь поток входящих данных, стабильно обходила обычные трансформеры и в синтаксических тестах, и в базовом языковом моделировании.

Гипотеза 1993 года наконец проверена на практике

За этим экспериментом стоит идея с давней историей. Ещё в 1993 году один из основоположников коннекционизма Джеффри Элман предположил: ограниченность человеческой памяти - не баг, а фича. Когда мозг слушает речь, точные формулировки улетают почти сразу. Остаются закономерности, структуры, грамматические обобщения. Элман думал, что именно это и делает людей такими эффективными в усвоении языка. Проверить гипотезу на реальных нейросетях тогда было просто негде.

Теперь - нашлось где. Группа учёных под руководством психолингвиста Михи Хайлброна взяла уменьшенную версию GPT-2 и встроила в неё механизм затухания памяти. Получился так называемый трансформер с мимолётной памятью. Обучали его на датасете BabyLM - корпусе, по объёму и составу сопоставимом с тем речевым материалом, который слышит начинающий говорить ребёнок. Условия эксперимента нарочно приближены к реальным: никаких терабайтов текста, только то, что укладывается в детский языковой опыт. Задача - честное сравнение моделей с памятью и без неё.

Что именно делает забывание полезным

Сама по себе «забывчивость» не давала эффекта. Прорыв случался только при одном условии: затухание памяти сочеталось с коротким буфером, который удерживал последние три-семь слов в неизменном виде - точно так же, как работает эхоическая память у человека, то есть кратковременная слуховая. Ближайший контекст - чёткий, всё остальное - размытое. Именно такая комбинация и давала модели преимущество.

Вычисления проводились на нидерландском суперкомпьютере Snellius. Преимущество «забывающей» модели фиксировалось на всех этапах обучения - без исключений. По словам Хайлброна, это позволяет говорить не о случайном артефакте, а об устойчивом эффекте.

Парадокс внутри парадокса

Результаты, впрочем, оказались не такими однозначными, как хотелось бы. Соавтор работы Абишек Тамма из Амстердамского университета обнаружил неожиданное противоречие: несмотря на улучшение в языковом моделировании, модель с мимолётной памятью хуже предсказывала запинки при чтении у живых людей. Обычно эти два показателя движутся в связке - если нейросеть лучше понимает язык, она точнее имитирует и человеческое восприятие. Здесь связка распалась.

Объяснения этому пока нет. Понятно одно: искусственный и биологический интеллект перерабатывают речевые данные принципиально по-разному, и даже частичное копирование человеческих ограничений не делает машину ближе к человеку в полном смысле. Это открытие ставит под сомнение расхожую логику, по которой «более человекоподобная» архитектура автоматически означает более точное воспроизведение когнитивных процессов. Параллели между нейросетями и мозгом - не зеркало, а скорее кривое стекло, где одни черты увеличены, другие искажены до неузнаваемости. Тем, кто следит за гонкой языковых моделей - примерно так же, как за тем, кто выиграл мажор 2026, - стоит привыкнуть: в науке о ИИ сенсационные результаты почти всегда тянут за собой новые вопросы.