Google представила новую версию искусственного интеллекта под названием Gemini 2.5 Computer Use.

Эта модель позволяет ИИ-агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек, согласно заявлению Google.

Она уже доступна для публичного тестирования через API Gemini в Google AI Studio и Vertex AI.

Основой для этой модели стали возможности визуального восприятия и логического мышления, заложенные в Gemini 2.5 Pro.

Модель способна выполнять разнообразные действия в браузере, такие как нажатие клавиш, ввод текста, прокрутка страниц, наведение курсора, открытие выпадающих меню и переход по URL-адресам.

Google утверждает, что эта модель превосходит аналогичные инструменты в нескольких тестах, включая Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку.

В отличие от традиционных ИИ-моделей, использующих API, Gemini 2.5 Computer Use анализирует скриншоты веб-интерфейсов и генерирует конкретные действия в ответ.

Агент получает задание, скриншот и историю недавних действий, после чего анализирует интерфейс и предлагает действие, например, нажатие кнопки или ввод данных в поле.

Эти действия выполняются на стороне клиента, а обновленный скриншот отправляется обратно модели для продолжения выполнения задачи в цикле.

Google продемонстрировала эффективность модели на примерах, где агент сортирует стикеры на цифровой доске и переносит информацию о домашних животных с одного сайта в CRM-систему.

На данный момент модель поддерживает 13 различных действий и наиболее эффективно работает в веб-браузерах.

Google отметила, что модель пока не оптимизирована для задач на уровне настольных операционных систем, хотя и показала потенциал в мобильных тестах.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *