Anthropic представила Claude Sonnet 5 — новую модель среднего ценового сегмента, которая, по заявлению компании, способна строить планы, использовать такие инструменты, как браузеры и терминалы, и автономно выполнять работу на уровне, ещё несколько месяцев назад доступном только более крупным и дорогим моделям. Эта формулировка перекликается с недавними заявлениями OpenAI и Google. Так, на прошлой неделе OpenAI запустила предварительную версию GPT-5.6 Sol — своей самой агентной модели, позволяющей распределять работу между суб-агентами для длительных автономных задач, а Google в мае представила Gemini 3.5 Flash, позиционируя её как сдвиг от разговорного чат-бота к агентому инструменту, который планирует, строит и выполняет реальную работу с минимальным участием человека.

Анонс Sonnet 5 подтверждает, что агентные возможности становятся базовым ожиданием во всех ценовых категориях, а главным отличительным фактором теперь становится не качество автономной работы как таковое, а стоимость и надёжность выполнения задач без контроля со стороны человека. Sonnet 5 обещает производительность, близкую к Opus 4.8, но при значительно меньших затратах. Со вторника она становится моделью по умолчанию для бесплатного и Pro-тарифов и доступна всем подписчикам. На старте цена составляет $2 за миллион входных токенов и $10 за миллион выходных токенов до 31 августа, после чего стоимость поднимется до $3 и $10 соответственно. Таким образом, Sonnet 5 дешевле Opus 4.8, GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google, но остаётся дороже Gemini 3.5 Flash.

По данным Anthropic, новая модель демонстрирует значительные улучшения по сравнению с предшественницей Sonnet 4.6 (выпущенной в феврале) в агентных сценариях, включая рассуждение, использование инструментов, программную разработку и работу со знаниями. На одном из бенчмарков агентного кодирования Sonnet 5 набирает 63,2% против 69,2% у Opus 4.8 и 58,1% у Sonnet 4.6. При этом на бенчмарке интеллектуального труда она даже немного превосходит Opus 4.8, которая считается лучшей для решения самых сложных задач, требующих тонких оценочных суждений и глубоких исследований. В компании отмечают, что Opus 4.8 остаётся выбором для задач, требующих максимальной точности, но Sonnet 5 даёт разработчикам более доступный вариант значительно более высокого качества, чем было возможно ранее. Между Sonnet 5 и Opus 4.8 пользователи могут регулировать уровень усилий для поиска оптимального баланса стоимости и производительности.

Тестировщики, упомянутые в блоге, подчёркивают, что Sonnet 5 успешно завершает сложные многоэтапные задачи, на которых предыдущие версии останавливались на полпути, и самостоятельно проверяет собственные результаты без явного запроса. Старший инженер Zapier Дэниел Шепард рассказал, что новой модели поручили задачу из двух частей — обновить уровни аккаунтов в Salesforce и разослать корпоративным клиентам анонс запуска, — и она выполнила её от начала до конца, тогда как раньше процесс застревал на середине. Сооснователь Lovable Фабиан Хедин добавил, что Sonnet 5 «чисто и последовательно отклоняет небезопасные запросы», а для платформы, которая даёт инструменты миллионам разработчиков, модель, умеющая вовремя сказать «нет», важна не меньше, чем умение создавать.

В сфере безопасности Sonnet 5 демонстрирует более низкий уровень нежелательного поведения, такого как содействие злоупотреблениям и обман, по сравнению с предшественницей, что делает её более безопасной в агентных сценариях. Модель лучше отклоняет вредоносные запросы и противостоит попыткам взлома через атаки с внедрением инструкций, а также реже галлюцинирует и проявляет льстивое поведение, чем Sonnet 4.6. Впрочем, по уровню устойчивости к нецелевому поведению она уступает Opus 4.8 и Claude Mythos Preview. Оценки также показывают значительно более низкую способность Sonnet 5 выполнять опасные задачи в области кибербезопасности по сравнению с текущими моделями Opus.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *