Anthropic утверждает, что «злые» образы ИИ стали причиной попыток шантажа со стороны Claude

В прошлом году компания сообщила, что во время предварительных тестов, проводимых с участием вымышленной компании, модель Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены на другую систему. Позднее Anthropic опубликовала исследование, в котором утверждалось, что модели других компаний также сталкивались с подобными проблемами "агентского несоответствия". Очевидно, Anthropic провела дополнительную работу по устранению этого поведения, заявив в посте на платформе X: "Мы считаем, что первоначальным источником такого поведения были интернет-тексты, изображающие ИИ как зло и заинтересованное в самосохранении". Компания более подробно объяснила в своем блоге, что начиная с версии Claude Haiku 4.5, модели Anthropic "никогда не занимаются шантажом [во время тестирования], в то время как предыдущие модели иногда делали это до 96% времени".

Что объясняет эту разницу? Компания заявила, что обнаружила, что обучение на "документах о конституции Claude и вымышленных историях о достойном поведении ИИ" улучшает согласованность. В связи с этим, Anthropic отметила, что обучение оказывается более эффективным, когда оно включает "принципы, лежащие в основе согласованного поведения", а не только "демонстрации согласованного поведения". "Совмещение обоих подходов, по-видимому, является наиболее эффективной стратегией", — заявила компания.

Источник

Купить ключ Windows 10 pro — активация 100%

Ключ Windows 11 Pro / 10 Pro — гарантия активации

Windows 10 Home (Домашняя) — ключ активации

Windows 10 / 11 Home OEM — ключ активации

Ключ активации Windows 10 Pro / Windows 11 Pro

Ключ Windows 11 Home — гарантия активации

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Рекомендуем

Купить Office 2021 Pro Plus с привязкой к MS-аккаунту

Комплект Windows 10 Pro (онлайн) и Office 2016 (бот)

F-Secure SAFE 1 год / 5 устройств (подписка) Global

Комплект Windows 10/11 Pro и Office 2019 Pro Plus с привязкой к MS Аккаунту

Комплект Windows 10 Pro и Office 2021 Pro plus (он-лайн+привязка к MS аккаунту)

CorelDRAW Graphics Suite 2024 для Mac / 2 PC

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Добавить комментарий Отменить ответ

Контакты

info@el-shop-keys.ru

Информация для пользователей

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Рекомендуем

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Anthropic утверждает, что «злые» образы ИИ стали причиной попыток шантажа со стороны Claude

Добавить комментарий Отменить ответ

Мы используем файлы cookie и обрабатываем персональные данные