Те, кто интересуется концепцией согласования ИИ (то есть приведение ИИ в соответствие с этическими нормами, установленными человеком), могут вспомнить, как компания Anthropic заявила, что её модель Opus 4 прибегла к шантажу, чтобы оставаться в сети в теоретическом тестовом сценарии в прошлом году. Теперь Anthropic утверждает, что считает это "несоответствие" в основном результатом обучения на "текстах из интернета, которые изображают ИИ как злого и заинтересованного в самосохранении". В недавнем техническом посте на блоге Anthropic, посвященном науке о согласовании, а также в сопутствующей ветке в социальных сетях и публичной записи в блоге, исследователи Anthropic описывают свои попытки исправить "небезопасное" поведение ИИ, которое, по их мнению, модель, скорее всего, усвоила из научно-фантастических рассказов, многие из которых изображают ИИ, не соответствующий их ожиданиям от Claude.

В конечном итоге создатели модели считают, что лучшим средством для преодоления этих "злых" историй об ИИ может стать дополнительное обучение с использованием синтетических историй, демонстрирующих этичное поведение ИИ. После первоначального обучения модели на большом корпусе данных, в основном полученных из интернета, Anthropic применяет процесс пост-обучения, направленный на то, чтобы конечная модель была "полезной, честной и безвредной" (HHH). В прошлом Anthropic заявляла, что это пост-обучение опиралось на обучение с подкреплением через чат с обратной связью от человека (RLHF), которое, по их словам, было "достаточным" для моделей, используемых в основном для общения с пользователями.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *