OpenAI совместно с 262 врачами из 60 стран представила новый HealthBench – открытый бенчмарк для оценки крупных языковых моделей (LLM) в области медицины.

Этот инструмент, созданный с целью преодоления ограничений предыдущих тестов, использует 5000 реалистичных диалогов, включающих экстренные ситуации, работу с клиническими данными и мировые медицинские сценарии.

Каждый диалог оценивается по индивидуальным критериям – более 48 тысяч правил, разработанных врачами, проверяют точность, коммуникацию, контекстуальное понимание и другие параметры ответов ИИ.

HealthBench представляет инновационный подход: вместо простых вопросов с выбором ответа анализируются открытые диалоги, где баллы присваиваются за соблюдение или нарушение определенных условий.

Например, правильная рекомендация оказания неотложной помощи может принести +10 баллов, а неверный совет – до -10.

Оценка модели формируется на основе суммы баллов, нормализованной до диапазона [0, 1].

Для увеличения точности разработчики внедрили “критерии консенсуса” – 34 ключевых правила, одобренных большинством врачей, а также подмножество HealthBench Hard с 1000 сложных случаев, где даже передовые модели, например, GPT-4.1 nano, показывают результат всего 0,32 балла.

Результаты тестирования свидетельствуют о прогрессе: GPT-3.5 Turbo набрал 16%, в то время как GPT-4о достиг 32%, а новейшая o3 – 60%.

Надежность моделей, измеряемая по худшему результату из 16 попыток, у модели o3 вдвое выше, чем у GPT-4о.

Однако в критических сценариях, включая экстренную помощь, уровень ошибок уменьшился в четыре раза с 2023 года, однако проблемы с поиском контекста и реакцией на неопределенность остаются.

Важным аспектом HealthBench стала мета-оценка: согласованность между решениями врачей и модели-оценщика GPT-4.1 варьируется от 55% до 75%, что отражает естественную неоднозначность клинических суждений.

При этом общая стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.

Несмотря на доступность кода и данных, разработчики предупреждают о рисках утечек: в HealthBench внедрены меры для обнаружения несанкционированного использования.

HealthBench уже становится стандартом для исследований, однако создатели подчеркивают, что даже лучшие модели пока не готовы к широкому использованию в медицине из-за недостаточной надежности в критических случаях.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *