Google представила новую версию искусственного интеллекта под названием Gemini 2.5 Computer Use.
Эта модель позволяет ИИ-агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек, согласно заявлению Google.
Она уже доступна для публичного тестирования через API Gemini в Google AI Studio и Vertex AI.
Основой для этой модели стали возможности визуального восприятия и логического мышления, заложенные в Gemini 2.5 Pro.
Модель способна выполнять разнообразные действия в браузере, такие как нажатие клавиш, ввод текста, прокрутка страниц, наведение курсора, открытие выпадающих меню и переход по URL-адресам.
Google утверждает, что эта модель превосходит аналогичные инструменты в нескольких тестах, включая Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку.
В отличие от традиционных ИИ-моделей, использующих API, Gemini 2.5 Computer Use анализирует скриншоты веб-интерфейсов и генерирует конкретные действия в ответ.
Агент получает задание, скриншот и историю недавних действий, после чего анализирует интерфейс и предлагает действие, например, нажатие кнопки или ввод данных в поле.
Эти действия выполняются на стороне клиента, а обновленный скриншот отправляется обратно модели для продолжения выполнения задачи в цикле.
Google продемонстрировала эффективность модели на примерах, где агент сортирует стикеры на цифровой доске и переносит информацию о домашних животных с одного сайта в CRM-систему.
На данный момент модель поддерживает 13 различных действий и наиболее эффективно работает в веб-браузерах.
Google отметила, что модель пока не оптимизирована для задач на уровне настольных операционных систем, хотя и показала потенциал в мобильных тестах.