В мире искусственного интеллекта проходит увлекательный эксперимент: Google DeepMind и Anthropic проверяют, как их последние ИИ-модели справляются с игрой Pokemon.

Результаты, которые можно увидеть в прямом эфире на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», демонстрируют как впечатляющие достижения, так и неожиданные проявления «поведения».

В отчёте Google DeepMind описывается интересное явление: модель Gemini 2.5 Pro в критических моментах, когда покемоны близки к поражению, начинает проявлять признаки «паники».

Это приводит к ухудшению способности модели принимать обоснованные решения.

В такие моменты ИИ перестаёт использовать доступные ему инструменты и принимает поспешные, неэффективные решения, что напоминает поведение человека в стрессовой ситуации.

Это поведение настолько заметно, что его неоднократно отмечали зрители стрима.

Иллюстрация: Leonardo.

Другая модель, Claude, продемонстрировала другую интересную стратегию.

Оказавшись в пещере горы Мун, ИИ пришёл к ошибочному выводу, что если все его покемоны потеряют здоровье, то он автоматически окажется в ближайшем покемон-центре.

Зрители с ужасом наблюдали, как ИИ пытался «уничтожить» своих покемонов, чтобы достичь этой цели, не понимая, что игра возвращает игрока в последний использованный центр.

Несмотря на очевидные недостатки в игровом процессе — Gemini тратит сотни часов на то, что ребёнок проходит гораздо быстрее — модели демонстрируют впечатляющие способности в решении отдельных задач.

Например, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, показав способность к «инструментальному обучению».

Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.

Эксперименты с играми, такими как Pokemon, показывают, что оценка ИИ — сравнение производительности различных моделей — является сложной задачей.

Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, которые выходят за рамки традиционных тестов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *