Вместо того чтобы начинать с нуля и разрабатывать способы сделать искусственный интеллект более безопасным для подростков, разработчики могут использовать уже существующие подсказки для укрепления своих продуктов. Эти подсказки касаются таких вопросов, как графическое насилие и сексуальный контент, вредные идеалы тела и поведения, опасные действия и вызовы, романтические или насильственные ролевые игры, а также товары и услуги с возрастными ограничениями. Эти политики безопасности разработаны в виде подсказок, что делает их легко совместимыми с другими моделями, помимо gpt-oss-safeguard, хотя они, вероятно, наиболее эффективны в экосистеме OpenAI. Для создания этих подсказок OpenAI сотрудничала с организациями по безопасности искусственного интеллекта, такими как Common Sense Media и everyone.ai.
«Эти политики на основе подсказок помогают установить значимый уровень безопасности в экосистеме, и поскольку они выпущены как открытый исходный код, их можно адаптировать и улучшать со временем», — заявил Робби Торни, глава отдела AI & Digital Assessments в Common Sense Media. OpenAI отметила в своем блоге, что разработчики, включая опытные команды, часто испытывают трудности с переводом целей безопасности в точные, операционные правила. «Это может привести к пробелам в защите, несоответствующему применению или чрезмерно широкой фильтрации», — написала компания. «Ясные, четко определенные политики являются критически важной основой для эффективных систем безопасности».
OpenAI признает, что эти политики не являются решением сложных проблем безопасности искусственного интеллекта. Однако они основываются на предыдущих усилиях компании, включая защитные меры на уровне продуктов, такие как родительский контроль и прогнозирование возраста. В прошлом году OpenAI обновила руководящие принципы для своих крупных языковых моделей — известных как Model Spec — чтобы решить, как их модели должны взаимодействовать с пользователями младше 18 лет. Однако у OpenAI не самая безупречная репутация. Компания сталкивается с несколькими судебными исками, поданными семьями людей, покончивших с собой после чрезмерного использования ChatGPT. Эти опасные отношения часто формируются после того, как пользователь обходит защитные меры чат-бота, и ни одна модель не обладает полностью непроницаемыми барьерами.
Тем не менее, эти политики, по крайней мере, являются шагом вперед, особенно учитывая, что они могут помочь независимым разработчикам.