Сбер представил экспериментальную языковую модель GFusion, построенную на основе GigaChat и работающую по принципам диффузионной генерации. Компания назвала проект экспериментальным и впервые в России открыла доступ к диффузионной модели для генерации текста такого масштаба. Иллюстрация к анонсу подготовлена нейросетью DALL‑E.
В отличие от классических языковых моделей, формирующих текст последовательно (токен за токеном), GFusion сначала создаёт приблизительный «набросок» всего ответа, а затем за несколько шагов уточняет его. Такой подход напоминает работу нейросетей, генерирующих изображения и видео, и позволяет не переписывать ответ целиком при обнаружении ошибки на ранних этапах.
Благодаря параллельной обработке фрагментов GFusion показывает прирост скорости по сравнению с предшественником. По результатам тестов, проведённых Сбером, новая модель работает до 45 % быстрее GigaChat 3, на базе которого она обучалась.
Создатели GFusion подчёркивают, что диффузионная архитектура не только ускоряет генерацию, но и делает её более гибкой. Модель не привязана к строгому направлению «слева направо» — на каждом шаге она сама выбирает, какую часть ответа дополнить. Кроме того, диффузионные языковые модели эффективнее извлекают информацию из ограниченного объёма данных, многократно проходя один и тот же датасет во время обучения.
В компании считают, что диффузионные языковые модели относятся к одному из самых перспективных и сложных направлений генеративного искусственного интеллекта. Вместе с GFusion Сбер опубликовал в открытом доступе инструменты, призванные ускорить обучение диффузионных моделей, расширяя набор средств для исследователей и разработчиков.