Директива, полученная Anthropic, как сообщила компания, в пятницу в 17:21 по восточному времени, обязывает её отключить обе модели для всех пользователей по всему миру — не только для иностранных граждан, на которых был номинально направлен приказ правительства об экспортном контроле. Доступ к другим моделям Anthropic не затронут. Почему это вообще важно? Mythos — самая мощная ИИ-модель Anthropic, предварительно показанная компанией в начале апреля и с тех пор державшаяся под строгим ограничением из-за того, что Anthropic назвала её исключительной способностью находить уязвимости в программном обеспечении. По данным Anthropic, Mythos выявила недостатки в каждой крупной операционной системе и веб-браузере, которые тестировала, поэтому вместо широкого выпуска компания запустила контролируемую программу Project Glasswing, поделившись моделью примерно с 50 проверенными организациями, включая Amazon, Apple, Google, Microsoft и CrowdStrike, для использования в оборонительных целях кибербезопасности.
Fable 5, выпущенная всего три дня назад, стала ответом Anthropic на очевидное коммерческое давление: это версия Mythos, оснащённая защитными ограничениями, блокирующими ответы в зонах высокого риска, таких как кибербезопасность и биология, что, по утверждению компании, делает её достаточно безопасной для широкого выпуска. Согласно бенчмарк-тестам Vals AI, компании, отслеживающей производительность ИИ-технологий, она немедленно стала самой мощной ИИ-моделью, доступной публике. Директива правительства оформлена как действие по экспортному контролю, ограничивающее доступ к моделям иностранных граждан. Однако в обширном блог-посте Anthropic поясняет, что, согласно её пониманию, реальной причиной является заявленный взлом (jailbreak) Fable 5. Компания говорит, что пока правительство предоставило лишь устные свидетельства о «потенциально узком, неуниверсальном взломе», который, как описывает Anthropic, сводится к тому, чтобы вынудить модель прочесть конкретную кодовую базу и выявить недостатки в программах. И между прочим, добавляет компания, это «уровень возможностей», который уже широко доступен в других публично доступных моделях, включая OpenAI GPT-5.5, и рутинно используется профессионалами кибербезопасности в оборонительных целях.
Более общий аргумент Anthropic заключается в том, что сильнейшие средства её защиты работают через независимые системы-классификаторы, функционирующие отдельно от самой модели, а значит, даже если кто-то убедит Fable продолжить разговор после отказа, лежащие в основе механизмы защиты от наиболее опасных выводов останутся в силе. Очевидно, ничего из этого не помешало правительству принять меры, и Anthropic не скрывает разочарования. «Мы не согласны с тем, что обнаружение потенциально узкого взлома должно становиться поводом для отзыва коммерческой модели, развёрнутой для сотен миллионов людей, — написала компания. — Если бы этот стандарт применялся во всей отрасли, мы полагаем, это фактически остановило бы все новые развёртывания моделей для всех провайдеров передовых моделей».
От Anthropic широко ожидают IPO в этом году, и компания во многом построила свою публичную идентичность на том, чтобы быть ориентированной на безопасность альтернативой конкурентам. Ирония не ускользнула от наблюдателей: та самая осторожность, которую Anthropic проявила, ограничивая Mythos, — и которую продвигала как модель настолько опасную, что её нельзя выпускать публично, — по всей видимости, привлекла именно тот вид правительственного контроля, который способен наиболее серьёзно нарушить её бизнес. Сэму Альтману из OpenAI это, по крайней мере, должно доставлять удовольствие. В апреле он сказал подкастеру Эшли Вэнсу, что обращение Anthropic с Mythos было «маркетингом на основе страха»: «Это совершенно невероятный маркетинг — сказать: „Мы построили бомбу. Мы собирались сбросить её вам на голову. Мы продадим вам бомбоубежище за 100 миллионов долларов“». Альтман, чья компания также, как ожидается, как можно скорее проведёт IPO, не предсказал приостановку со стороны правительства, но отметил то, что сейчас рикошетом ударило по Anthropic: когда вы месяцами рассказываете миру, что ваш ИИ уникально опасен, мир — включая правительство США — склонен прислушаться.