Хотя разработчики утверждают, что большие языковые модели (LLM) продолжают совершенствоваться, количество ошибок, которые они допускают, вызывает беспокойство.
В апрельском отчёте OpenAI указано, что модели o3 и o4-mini демонстрировали галлюцинации в 33% и 48% случаев соответственно.
Для сравнения, модель o1, выпущенная в конце 2024 года, ошибалась только в 16% случаев.
Платформа Vectara также сообщает, что модель DeepSeek-R1 с «улучшенным логическим выводом» показала значительный рост числа галлюцинаций.
OpenAI отрицает связь между обновлениями логического вывода и увеличением числа ошибок, утверждая, что они работают над снижением галлюцинаций в новых версиях.
Однако эксперты сомневаются в эффективности этих мер.
Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, показал, что модели с логическим выводом и без него имеют почти одинаковый уровень галлюцинаций.
Форрест Шэн Бао из Vectara отметил, что многие ошибки DeepSeek-R1 были «безвредными» — логически правильными, но отсутствующими в исходных данных.
Эмили Бендер из Вашингтонского университета раскритиковала термин «галлюцинации», считая его антропоморфизацией машин.
Она подчеркнула, что LLM не понимают смысла, а просто предсказывают следующее слово на основе статистики.
Арвинд Нараянан из Принстонского университета добавил, что проблема шире: модели используют устаревшие данные и ненадёжные источники.
Он считает, что увеличение объёма тренировочных данных не решает проблему достоверности.
Исследователи рекомендуют осторожно использовать LLM.
Нараянан предлагает применять их только в тех случаях, когда проверка ответа занимает меньше времени, чем самостоятельный поиск.
Бендер советует полностью отказаться от использования чат-ботов для получения фактов, так как они не созданы для генерации знаний, а лишь имитируют речь.
Эта ситуация ставит под сомнение будущее LLM.
Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают, что ошибки останутся неотъемлемой частью работы моделей.