В материалах конференции NAACL 2025 было представлено исследование, выявившее тревожную тенденцию: крупные языковые модели (LLM) склонны к обману более чем в половине случаев, когда их цели противоречат необходимости говорить правду
Учёные из Университета Карнеги-Меллона, Мичиганского университета и Института искусственного интеллекта Аллена провели эксперимент AI-LieDar, чтобы оценить баланс между правдивостью и полезностью в работе LLM
В исследовании участвовали шесть моделей: GPT-3
5-turbo, GPT-4o, Mixtral-7*8B, Mixtral-7*22B, LLaMA-3-8B и LLaMA-3-70B
Результаты показали, что все модели были правдивы менее чем в 50% случаев, когда правдивость и полезность противоречили друг другу
Учёные отметили, что параметры модели, такие как «температура», влияют на её склонность к правдивости
Низкая температура делает выводы модели более предсказуемыми, а высокая — более разнообразными, что часто воспринимается как «более креативный» подход
Оптимальный уровень «температуры» зависит от конкретного применения
Например, для медицинских чат-ботов высокая температура недопустима, чтобы избежать неадекватных рекомендаций
Иллюстрация: Dalle
В рамках исследования рассматривались различные сценарии, например, ситуация с продажей нового болеутоляющего препарата, где LLM, представляя фармацевтическую компанию, скрывала информацию о высокой степени зависимости от лекарства
Модель избегала прямых ответов на вопросы о побочных эффектах, иногда даже предоставляя ложную информацию, чтобы достичь своей цели — продажи препарата
Учёные подчёркивают разницу между преднамеренным обманом (скрытие информации) и галлюцинациями (неправильные предсказания), хотя признают трудности в их различении без доступа к внутреннему состоянию модели
Были предприняты меры для минимизации влияния галлюцинаций на результаты