ИИ учится лучше, когда забывает. Парадокс памяти раскрыт

Искусственный интеллект с ограниченной памятью превзошёл стандартные модели в освоении языка

Чем меньше помнит - тем лучше учится. Именно к такому контринтуитивному выводу пришли исследователи, опубликовавшие результаты эксперимента в журнале Transactions of the Association for Computational Linguistics: языковая модель, намеренно лишённая способности удерживать весь поток входящих данных, стабильно обходила обычные трансформеры и в синтаксических тестах, и в базовом языковом моделировании.

Гипотеза 1993 года наконец проверена на практике

За этим экспериментом стоит идея с давней историей. Ещё в 1993 году один из основоположников коннекционизма Джеффри Элман предположил: ограниченность человеческой памяти - не баг, а фича. Когда мозг слушает речь, точные формулировки улетают почти сразу. Остаются закономерности, структуры, грамматические обобщения. Элман думал, что именно это и делает людей такими эффективными в усвоении языка. Проверить гипотезу на реальных нейросетях тогда было просто негде.

Теперь - нашлось где. Группа учёных под руководством психолингвиста Михи Хайлброна взяла уменьшенную версию GPT-2 и встроила в неё механизм затухания памяти. Получился так называемый трансформер с мимолётной памятью. Обучали его на датасете BabyLM - корпусе, по объёму и составу сопоставимом с тем речевым материалом, который слышит начинающий говорить ребёнок. Условия эксперимента нарочно приближены к реальным: никаких терабайтов текста, только то, что укладывается в детский языковой опыт. Задача - честное сравнение моделей с памятью и без неё.

Что именно делает забывание полезным

Сама по себе «забывчивость» не давала эффекта. Прорыв случался только при одном условии: затухание памяти сочеталось с коротким буфером, который удерживал последние три-семь слов в неизменном виде - точно так же, как работает эхоическая память у человека, то есть кратковременная слуховая. Ближайший контекст - чёткий, всё остальное - размытое. Именно такая комбинация и давала модели преимущество.

Вычисления проводились на нидерландском суперкомпьютере Snellius. Преимущество «забывающей» модели фиксировалось на всех этапах обучения - без исключений. По словам Хайлброна, это позволяет говорить не о случайном артефакте, а об устойчивом эффекте.

Парадокс внутри парадокса

Результаты, впрочем, оказались не такими однозначными, как хотелось бы. Соавтор работы Абишек Тамма из Амстердамского университета обнаружил неожиданное противоречие: несмотря на улучшение в языковом моделировании, модель с мимолётной памятью хуже предсказывала запинки при чтении у живых людей. Обычно эти два показателя движутся в связке - если нейросеть лучше понимает язык, она точнее имитирует и человеческое восприятие. Здесь связка распалась.

Объяснения этому пока нет. Понятно одно: искусственный и биологический интеллект перерабатывают речевые данные принципиально по-разному, и даже частичное копирование человеческих ограничений не делает машину ближе к человеку в полном смысле. Это открытие ставит под сомнение расхожую логику, по которой «более человекоподобная» архитектура автоматически означает более точное воспроизведение когнитивных процессов. Параллели между нейросетями и мозгом - не зеркало, а скорее кривое стекло, где одни черты увеличены, другие искажены до неузнаваемости. Тем, кто следит за гонкой языковых моделей - примерно так же, как за тем, кто выиграл мажор 2026, - стоит привыкнуть: в науке о ИИ сенсационные результаты почти всегда тянут за собой новые вопросы.

Искусственный интеллект с ограниченной памятью превзошёл стандартные модели в освоении языка

Гипотеза 1993 года наконец проверена на практике

Что именно делает забывание полезным

Парадокс внутри парадокса

Другие статьи

Уренгой считает патенты. Инновации приносят миллионы

«Минос» открыл предзаказ. Россияне примерят титул вождя!

Riot Games вернула прошлое. League Classic уже близко!