Модели искусственного интеллекта Gemini от Google значительно улучшились за последний год, однако использовать их можно только на условиях Google. Открытые модели Gemma предоставляют больше свободы, но Gemma 3, выпущенная более года назад, уже начинает устаревать. С сегодняшнего дня разработчики могут начать работу с Gemma 4, которая представлена в четырех размерах, оптимизированных для локального использования.
Google также учел недовольство разработчиков по поводу лицензирования ИИ и отказался от использования кастомной лицензии Gemma. Как и предыдущие версии своих открытых моделей, Google разработал Gemma 4 так, чтобы она могла использоваться на локальных машинах. Это может означать множество различных вещей.
Две крупные версии Gemma, 26B Mixture of Experts и 31B Dense, предназначены для работы в формате bfloat16 на одной 80-гигабайтной графической карте Nvidia H100 без квантования. Конечно, это ускоритель ИИ стоимостью 20 000 долларов, но это все же локальное оборудование. Если модели будут квантованы для работы с меньшей точностью, они смогут работать на потребительских графических процессорах.
Google также утверждает, что сосредоточился на снижении задержки, чтобы действительно воспользоваться преимуществами локальной обработки Gemma. Модель 26B Mixture of Experts активирует только 3,8 миллиарда из своих 26 миллиардов параметров в режиме вывода, что обеспечивает ей гораздо большее количество токенов в секунду по сравнению с моделями аналогичного размера. В то время как 31B Dense больше ориентирована на качество, чем на скорость, Google ожидает, что разработчики будут настраивать ее для конкретных задач.