Хотя разработчики утверждают, что большие языковые модели (LLM) продолжают совершенствоваться, количество ошибок, которые они допускают, вызывает беспокойство.

В апрельском отчёте OpenAI указано, что модели o3 и o4-mini демонстрировали галлюцинации в 33% и 48% случаев соответственно.

Для сравнения, модель o1, выпущенная в конце 2024 года, ошибалась только в 16% случаев.

Платформа Vectara также сообщает, что модель DeepSeek-R1 с «улучшенным логическим выводом» показала значительный рост числа галлюцинаций.

OpenAI отрицает связь между обновлениями логического вывода и увеличением числа ошибок, утверждая, что они работают над снижением галлюцинаций в новых версиях.

Однако эксперты сомневаются в эффективности этих мер.

Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, показал, что модели с логическим выводом и без него имеют почти одинаковый уровень галлюцинаций.

Форрест Шэн Бао из Vectara отметил, что многие ошибки DeepSeek-R1 были «безвредными» — логически правильными, но отсутствующими в исходных данных.

Эмили Бендер из Вашингтонского университета раскритиковала термин «галлюцинации», считая его антропоморфизацией машин.

Она подчеркнула, что LLM не понимают смысла, а просто предсказывают следующее слово на основе статистики.

Арвинд Нараянан из Принстонского университета добавил, что проблема шире: модели используют устаревшие данные и ненадёжные источники.

Он считает, что увеличение объёма тренировочных данных не решает проблему достоверности.

Исследователи рекомендуют осторожно использовать LLM.

Нараянан предлагает применять их только в тех случаях, когда проверка ответа занимает меньше времени, чем самостоятельный поиск.

Бендер советует полностью отказаться от использования чат-ботов для получения фактов, так как они не созданы для генерации знаний, а лишь имитируют речь.

Эта ситуация ставит под сомнение будущее LLM.

Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают, что ошибки останутся неотъемлемой частью работы моделей.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *