Сегодня поиск информации в Google сопровождается встречей с AI Overviews, поисковым роботом на базе Gemini, который появляется в верхней части страницы результатов. С момента своего запуска в 2024 году AI Overviews столкнулся с критикой пользователей из-за своей непоследовательной точности, однако со временем он стал работать лучше и чаще предоставляет правильные ответы. Тем не менее, это довольно низкая планка. Новое исследование, проведенное The New York Times, попыталось оценить точность AI Overviews и выяснило, что он дает правильные ответы в 90% случаев. Обратная сторона заключается в том, что 1 из 10 ответов AI оказывается неверным, а для Google это означает сотни тысяч ложных данных, распространяемых каждую минуту.
Анализ был проведен с помощью стартапа Oumi, который активно занимается разработкой моделей искусственного интеллекта. Компания использовала инструменты ИИ для проверки AI Overviews с помощью SimpleQA, стандартного теста для оценки фактичности генеративных моделей, таких как Gemini. SimpleQA, выпущенный OpenAI в 2024 году, представляет собой список из более чем 4000 вопросов с проверяемыми ответами, которые можно использовать для тестирования ИИ.
Oumi начала проводить свои тесты в прошлом году, когда Gemini 2.5 был лучшей моделью компании. На тот момент тест показал точность в 85%. После обновления до Gemini 3, AI Overviews смог правильно ответить на 91% вопросов. Если экстраполировать эту частоту ошибок на все поисковые запросы в Google, AI Overviews ежедневно генерирует десятки миллионов неверных ответов.