В мае китайская компания DeepSeek представила обновлённую версию своей модели искусственного интеллекта R1, которая показала впечатляющие результаты в математических тестах и задачах по программированию.
Хотя компания не раскрыла, какие данные использовались для обучения модели, некоторые исследователи предполагают, что часть информации могла быть взята из моделей Google Gemini.
Разработчик из Мельбурна, Сэм Пэч, специализирующийся на оценке “эмоционального интеллекта” ИИ, поделился в социальной сети X данными, которые, по его мнению, подтверждают обучение модели DeepSeek R1-0528 на основе выводов Gemini.
Пэч отметил сходство в лексике и выражениях между моделями DeepSeek и Google Gemini 2.5 Pro.
Ещё один разработчик, создатель анонимного проекта SpeechMap, который оценивает “свободу слова” в ИИ, также указал на схожесть “мыслительных процессов” и промежуточных выводов модели DeepSeek с трассировками Gemini.
Это не первый случай, когда DeepSeek обвиняют в использовании данных конкурентов.
В декабре было замечено, что модель DeepSeek V3 часто идентифицировала себя как ChatGPT, что могло указывать на обучение на чатах OpenAI.
В 2025 году OpenAI сообщила Financial Times о доказательствах использования DeepSeek метода дистилляции — техники обучения ИИ на основе данных более мощных моделей.
Bloomberg сообщил, что Microsoft, тесно сотрудничающая с OpenAI, обнаружила в конце 2024 года утечку значительных объёмов данных через учётные записи разработчиков OpenAI, которые, предположительно, были связаны с DeepSeek.
Хотя дистилляция является распространённой практикой, условия обслуживания OpenAI запрещают использование выводов их моделей для создания конкурирующих решений.
Многие модели ошибочно идентифицируют себя и используют схожие фразы из-за “загрязнения” открытого интернета, который является основным источником данных для обучения ИИ.
Массовое создание контента с помощью ИИ и активность ботов в социальных сетях усложняют фильтрацию данных.