В материалах конференции NAACL 2025 было представлено исследование, выявившее тревожную тенденцию: крупные языковые модели (LLM) склонны к обману более чем в половине случаев, когда их цели противоречат необходимости говорить правду

Учёные из Университета Карнеги-Меллона, Мичиганского университета и Института искусственного интеллекта Аллена провели эксперимент AI-LieDar, чтобы оценить баланс между правдивостью и полезностью в работе LLM

В исследовании участвовали шесть моделей: GPT-3

5-turbo, GPT-4o, Mixtral-7*8B, Mixtral-7*22B, LLaMA-3-8B и LLaMA-3-70B

Результаты показали, что все модели были правдивы менее чем в 50% случаев, когда правдивость и полезность противоречили друг другу

Учёные отметили, что параметры модели, такие как «температура», влияют на её склонность к правдивости

Низкая температура делает выводы модели более предсказуемыми, а высокая — более разнообразными, что часто воспринимается как «более креативный» подход

Оптимальный уровень «температуры» зависит от конкретного применения

Например, для медицинских чат-ботов высокая температура недопустима, чтобы избежать неадекватных рекомендаций

Иллюстрация: Dalle

В рамках исследования рассматривались различные сценарии, например, ситуация с продажей нового болеутоляющего препарата, где LLM, представляя фармацевтическую компанию, скрывала информацию о высокой степени зависимости от лекарства

Модель избегала прямых ответов на вопросы о побочных эффектах, иногда даже предоставляя ложную информацию, чтобы достичь своей цели — продажи препарата

Учёные подчёркивают разницу между преднамеренным обманом (скрытие информации) и галлюцинациями (неправильные предсказания), хотя признают трудности в их различении без доступа к внутреннему состоянию модели

Были предприняты меры для минимизации влияния галлюцинаций на результаты

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *