HealthBench от OpenAI установил новый стандарт в области медицинских искусственных интеллектов.

OpenAI совместно с 262 врачами из 60 стран представила новый HealthBench – открытый бенчмарк для оценки крупных языковых моделей (LLM) в области медицины.

Этот инструмент, созданный с целью преодоления ограничений предыдущих тестов, использует 5000 реалистичных диалогов, включающих экстренные ситуации, работу с клиническими данными и мировые медицинские сценарии.

Каждый диалог оценивается по индивидуальным критериям – более 48 тысяч правил, разработанных врачами, проверяют точность, коммуникацию, контекстуальное понимание и другие параметры ответов ИИ.

HealthBench представляет инновационный подход: вместо простых вопросов с выбором ответа анализируются открытые диалоги, где баллы присваиваются за соблюдение или нарушение определенных условий.

Например, правильная рекомендация оказания неотложной помощи может принести +10 баллов, а неверный совет – до -10.

Оценка модели формируется на основе суммы баллов, нормализованной до диапазона [0, 1].

Для увеличения точности разработчики внедрили «критерии консенсуса» – 34 ключевых правила, одобренных большинством врачей, а также подмножество HealthBench Hard с 1000 сложных случаев, где даже передовые модели, например, GPT-4.1 nano, показывают результат всего 0,32 балла.

Результаты тестирования свидетельствуют о прогрессе: GPT-3.5 Turbo набрал 16%, в то время как GPT-4о достиг 32%, а новейшая o3 – 60%.

Надежность моделей, измеряемая по худшему результату из 16 попыток, у модели o3 вдвое выше, чем у GPT-4о.

Однако в критических сценариях, включая экстренную помощь, уровень ошибок уменьшился в четыре раза с 2023 года, однако проблемы с поиском контекста и реакцией на неопределенность остаются.

Важным аспектом HealthBench стала мета-оценка: согласованность между решениями врачей и модели-оценщика GPT-4.1 варьируется от 55% до 75%, что отражает естественную неоднозначность клинических суждений.

При этом общая стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.

Несмотря на доступность кода и данных, разработчики предупреждают о рисках утечек: в HealthBench внедрены меры для обнаружения несанкционированного использования.

HealthBench уже становится стандартом для исследований, однако создатели подчеркивают, что даже лучшие модели пока не готовы к широкому использованию в медицине из-за недостаточной надежности в критических случаях.

Источник

Купить ключ Windows 10 pro — активация 100%

Ключ Windows 11 Pro / 10 Pro — гарантия активации

Windows 10 Home (Домашняя) — ключ активации

Windows 10 / 11 Home OEM — ключ активации

Ключ активации Windows 10 Pro / Windows 11 Pro

Ключ Windows 11 Home — гарантия активации

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Рекомендуем

Комплект Windows 10 Pro и Office 2019 Pro Plus — онлайн активация

Coreldraw Graphics Suite 1 год — на новый аккаунт

Panda Dome Advanced 1 устройство 1 год

Комплект Windows 10/11 Pro и Office 2019 Pro Plus с привязкой к MS Аккаунту

Microsoft Office 2016 Pro Plus — онлайн активация

MICROSOFT 365 (12 МЕСЯЦЕВ) — Приглашение в семью

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Добавить комментарий Отменить ответ

Контакты

info@el-shop-keys.ru

Информация для пользователей

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

Рекомендуем

БЫСТРАЯ ДОСТАВКА

ПРОСТАЯ ЗАМЕНА

ПОДДЕРЖКА 24/7

БЕЗОПАСНЫЕ ПЛАТЕЖИ

HealthBench от OpenAI установил новый стандарт в области медицинских искусственных интеллектов.

Добавить комментарий Отменить ответ

Мы используем файлы cookie и обрабатываем персональные данные