Исследователи из института AIRI разработали новую архитектуру управления для роботов и других агентов под названием ELMUR, которая позволяет принимать решения, основываясь на событиях из далекого прошлого. Это имеет большое значение для развития робототехники, поскольку роботы часто сталкиваются с важной информацией задолго до ее непосредственного использования. Если система не может надежно сохранять и извлекать данные, ей сложно функционировать в сложных и изменяющихся условиях. Об этом сообщил представитель AIRI в интервью CNews.
Современные ИИ-системы, основанные на трансформерах, не полностью решают эту задачу. Некоторые модели становятся слишком ресурсоемкими, если увеличивать объем запоминаемой информации. Другие могут сжимать прошлый опыт, но при этом не контролируют, что именно забывается. Существуют и методы, где память добавляется как отдельный блок фиксированного размера, но это усложняет учет влияния давних событий на текущие решения. ELMUR позволяет моделям напрямую взаимодействовать с памятью и использовать необходимую информацию без значительного увеличения вычислительных затрат.
В ELMUR каждый слой содержит фиксированное количество слотов памяти, которые работают параллельно с основным потоком данных. Система может извлекать информацию из этих ячеек при принятии решений и записывать новые данные. Если память заполняется, обновляются те ячейки, которые использовались реже всего, по принципу LRU (Least Recently Used). Это обеспечивает компактное и надежное хранилище, способное удерживать важные данные на протяжении 100 тысяч шагов за пределами обычного окна внимания.
Тесты показали высокую эффективность ELMUR. В синтетическом тесте T-Maze модель удерживала информацию с точностью 100% на протяжении миллиона шагов. На бенчмарке MIKASA-Robo архитектура почти вдвое улучшила базовые показатели, заняв первое место в 21 из 23 задач. Модель также продемонстрировала способность использовать знания на последовательностях, значительно превышающих длину тех, на которых она обучалась. Разработка будет полезна в робототехнике и системах управления, где ИИ-агенты получают ограниченные визуальные сигналы и должны принимать решения в условиях неполной информации. Следующим шагом ученые планируют адаптировать этот подход для моделей Visual Language Action (VLA).
Егор Черепанов, научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ института AIRI, отметил, что ELMUR обладает встроенной памятью. Основная ценность разработки заключается в интеграции явной памяти с политикой записи в каждый слой сети. Это простой и масштабируемый фреймворк для управления памятью в агентах без квадратичного увеличения вычислительных затрат.