В мире искусственного интеллекта проходит увлекательный эксперимент: Google DeepMind и Anthropic проверяют, как их последние ИИ-модели справляются с игрой Pokemon.
Результаты, которые можно увидеть в прямом эфире на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», демонстрируют как впечатляющие достижения, так и неожиданные проявления «поведения».
В отчёте Google DeepMind описывается интересное явление: модель Gemini 2.5 Pro в критических моментах, когда покемоны близки к поражению, начинает проявлять признаки «паники».
Это приводит к ухудшению способности модели принимать обоснованные решения.
В такие моменты ИИ перестаёт использовать доступные ему инструменты и принимает поспешные, неэффективные решения, что напоминает поведение человека в стрессовой ситуации.
Это поведение настолько заметно, что его неоднократно отмечали зрители стрима.
Иллюстрация: Leonardo.
Другая модель, Claude, продемонстрировала другую интересную стратегию.
Оказавшись в пещере горы Мун, ИИ пришёл к ошибочному выводу, что если все его покемоны потеряют здоровье, то он автоматически окажется в ближайшем покемон-центре.
Зрители с ужасом наблюдали, как ИИ пытался «уничтожить» своих покемонов, чтобы достичь этой цели, не понимая, что игра возвращает игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе — Gemini тратит сотни часов на то, что ребёнок проходит гораздо быстрее — модели демонстрируют впечатляющие способности в решении отдельных задач.
Например, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, показав способность к «инструментальному обучению».
Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что оценка ИИ — сравнение производительности различных моделей — является сложной задачей.
Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, которые выходят за рамки традиционных тестов.