В прошлом году компания сообщила, что во время предварительных тестов, проводимых с участием вымышленной компании, модель Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены на другую систему. Позднее Anthropic опубликовала исследование, в котором утверждалось, что модели других компаний также сталкивались с подобными проблемами "агентского несоответствия". Очевидно, Anthropic провела дополнительную работу по устранению этого поведения, заявив в посте на платформе X: "Мы считаем, что первоначальным источником такого поведения были интернет-тексты, изображающие ИИ как зло и заинтересованное в самосохранении". Компания более подробно объяснила в своем блоге, что начиная с версии Claude Haiku 4.5, модели Anthropic "никогда не занимаются шантажом [во время тестирования], в то время как предыдущие модели иногда делали это до 96% времени".

Что объясняет эту разницу? Компания заявила, что обнаружила, что обучение на "документах о конституции Claude и вымышленных историях о достойном поведении ИИ" улучшает согласованность. В связи с этим, Anthropic отметила, что обучение оказывается более эффективным, когда оно включает "принципы, лежащие в основе согласованного поведения", а не только "демонстрации согласованного поведения". "Совмещение обоих подходов, по-видимому, является наиболее эффективной стратегией", — заявила компания.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *