Весной этого года Google представила свои открытые модели Gemma 4, обещая новый уровень мощности и производительности для локального искусственного интеллекта. Теперь подход Google к edge AI может стать еще быстрее благодаря выпуску Multi-Token Prediction (MTP) драфтеров для Gemma. По словам компании, эти экспериментальные модели используют форму спекулятивного декодирования, чтобы предугадывать будущие токены, что может ускорить генерацию по сравнению с тем, как модели генерируют токены самостоятельно.

Последние модели Gemma построены на той же базовой технологии, которая лежит в основе передового искусственного интеллекта Google под названием Gemini, но они настроены для локальной работы. Gemini оптимизирован для работы на специализированных чипах TPU от Google, которые функционируют в огромных кластерах с очень быстрыми соединениями и памятью. Один высокопроизводительный ускоритель искусственного интеллекта способен запускать самую большую модель Gemma 4 с полной точностью, а квантование позволяет ей работать на потребительском графическом процессоре.

Gemma предоставляет пользователям возможность экспериментировать с искусственным интеллектом на своем оборудовании, вместо того чтобы делиться всеми своими данными с облачной системой искусственного интеллекта от Google или других компаний. Google также изменила лицензию для Gemma 4 на Apache 2.0, которая является гораздо более разрешительной по сравнению с пользовательской лицензией Gemma, использованной в предыдущих выпусках. Однако существуют внутренние ограничения в оборудовании, которое большинство людей имеет для запуска локальных моделей искусственного интеллекта. Именно здесь на помощь приходит MTP.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *