OpenAI совместно с 262 врачами из 60 стран представила новый HealthBench – открытый бенчмарк для оценки крупных языковых моделей (LLM) в области медицины.
Этот инструмент, созданный с целью преодоления ограничений предыдущих тестов, использует 5000 реалистичных диалогов, включающих экстренные ситуации, работу с клиническими данными и мировые медицинские сценарии.
Каждый диалог оценивается по индивидуальным критериям – более 48 тысяч правил, разработанных врачами, проверяют точность, коммуникацию, контекстуальное понимание и другие параметры ответов ИИ.
HealthBench представляет инновационный подход: вместо простых вопросов с выбором ответа анализируются открытые диалоги, где баллы присваиваются за соблюдение или нарушение определенных условий.
Например, правильная рекомендация оказания неотложной помощи может принести +10 баллов, а неверный совет – до -10.
Оценка модели формируется на основе суммы баллов, нормализованной до диапазона [0, 1].
Для увеличения точности разработчики внедрили “критерии консенсуса” – 34 ключевых правила, одобренных большинством врачей, а также подмножество HealthBench Hard с 1000 сложных случаев, где даже передовые модели, например, GPT-4.1 nano, показывают результат всего 0,32 балла.
Результаты тестирования свидетельствуют о прогрессе: GPT-3.5 Turbo набрал 16%, в то время как GPT-4о достиг 32%, а новейшая o3 – 60%.
Надежность моделей, измеряемая по худшему результату из 16 попыток, у модели o3 вдвое выше, чем у GPT-4о.
Однако в критических сценариях, включая экстренную помощь, уровень ошибок уменьшился в четыре раза с 2023 года, однако проблемы с поиском контекста и реакцией на неопределенность остаются.
Важным аспектом HealthBench стала мета-оценка: согласованность между решениями врачей и модели-оценщика GPT-4.1 варьируется от 55% до 75%, что отражает естественную неоднозначность клинических суждений.
При этом общая стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.
Несмотря на доступность кода и данных, разработчики предупреждают о рисках утечек: в HealthBench внедрены меры для обнаружения несанкционированного использования.
HealthBench уже становится стандартом для исследований, однако создатели подчеркивают, что даже лучшие модели пока не готовы к широкому использованию в медицине из-за недостаточной надежности в критических случаях.