Компания заявляет, что модели DeepSeek V4 Flash и V4 Pro являются моделями с использованием подхода mixture-of-experts, каждая из которых имеет контекстные окна в 1 миллион токенов. Это позволяет использовать большие базы кода или документы в качестве подсказок. Подход mixture-of-experts предполагает активацию только определенного количества параметров для каждой задачи, что снижает затраты на вывод. Модель Pro имеет в общей сложности 1,6 триллиона параметров (из которых 49 миллиардов активны), что делает её крупнейшей моделью с открытыми весами, превосходя Moonshot AI’s Kimi K 2.6 (1,1 триллиона), MiniMax’s M1 (456 миллиардов) и более чем вдвое превышая DeepSeek V3.2 (671 миллиард).

Меньшая модель, V4 Flash, имеет 284 миллиарда параметров (из которых 13 миллиардов активны). DeepSeek утверждает, что обе модели более эффективны и производительны по сравнению с DeepSeek V3.2 благодаря улучшениям в архитектуре и почти "закрыли разрыв" с текущими ведущими моделями, как с открытыми, так и с закрытыми, по показателям рассуждений. Компания утверждает, что её новая модель V4-Pro-Max превосходит своих опенсорсных аналогов по показателям рассуждений и превосходит OpenAI’s GPT-5.2 и Gemini 3.0 Pro в некоторых задачах. В тестах на соревнованиях по кодированию, DeepSeek заявила, что производительность обеих моделей V4 "сопоставима с GPT-5.4".

Тем не менее, модели немного отстают от передовых моделей в тестах на знание, в частности от OpenAI’s GPT-5.4 и последней версии Google Gemini 3.1 Pro. Это отставание указывает на "траекторию развития, отстающую от передовых моделей на 3-6 месяцев," как отмечено в лаборатории. Обе модели V4 Flash и V4 Pro поддерживают только текст, в отличие от многих закрытых аналогов, которые предлагают поддержку для понимания и генерации аудио, видео и изображений. Примечательно, что DeepSeek V4 значительно дешевле любой из доступных сегодня передовых моделей.

Меньшая модель V4 Flash стоит $0.14 за миллион входных токенов и $0.28 за миллион выходных токенов, что дешевле, чем GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini и Claude Haiku 4.5. Более крупная модель V4 Pro стоит $0.145 за миллион входных токенов и $3.48 за миллион выходных токенов, также превосходя по цене Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 и GPT-5.4. Запуск состоялся на следующий день после того, как США обвинили Китай в краже интеллектуальной собственности американских AI лабораторий в промышленных масштабах с использованием тысяч прокси-аккаунтов. Саму DeepSeek обвинили Anthropic и OpenAI в "дистилляции", то есть фактически в копировании их AI моделей.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *